Boa publicação!
Em relação ao item 5: uma das questões que mais me assusta na atualidade é observar como muitas pessoas têm essa tendência a antropomorfizar os modelos, atribuindo emoções, sentimentos e outras características humanas que não estão ali.
Ironicamente, eu pessoalmente tenho muito interesse nas aplicações de "companheiros de IA", seja pra puro entretenimento (roleplay no estilo de plataformas como character.ai) ou até como uma espécie de "diário interativo" que ajuda a colocar as ideias no papel e pensar criticamente sobre elas.
Mas acredito que existe uma diferença nada sutil entre suspender a descrença (imaginar que você está realmente interagindo com o seu personagem escolhido) e realmente acreditar que há uma espécie de "consciência humana" nas redes neurais de hoje.
Me recordo da comoção na época em que a Apple publicou o "The Illusion of Thinking", formalizando uma noção que deveria já ser conhecida por qualquer pessoa que usa IA generativa regularmente: "o modelo não raciocina de verdade." Porém, todo mundo reagiu com choque, como se houvesse sido revelado o Terceiro Segredo de Fátima.
Na época, cheguei a escrever uma publicação no meu blog ("A 'Ilusão do Pensamento' escancara os erros da percepção pública sobre a IA") que foi praticamente um desabafo sobre a situação.
E desde lá, parece que nada mudou. Muito recentemente, encontrei essa UFAIR, uma organização "em defesa dos direitos da IA" que, ao meu ver, deveria levantar questões urgentes em relação à saúde mental dos envolvidos.
Inclusive, quando vejo alguém levantando a questão da consciência, fico realmente curioso: onde essas pessoas propõem que está a suposta "consciência"? No tokenizador? No modelo em si, que só prevê o próximo token? No sampler? Quando o sampler decide utilizar um token que não foi a primeira escolha do modelo, o sampler está sobreescrevendo a decisão supostamente "consciente"?
No caso de sistemas comerciais, onde os modelos rodam em clusters gigantescos, os pesos de decisão estão sujeitos a diferenças e a falhas de hardware e de software, e onde cada token pode ser gerado por um servidor diferente (ou até modelos diferentes), a "consciência" seria "distribuída"?
Fica complicado defender essa possibilidade se não tiver um embasamento excelente, que ninguém apresentou até agora.
Já sobre o 5.1:
Na pratica: Quando a IA se recusa a fazer algo, eh um System Prompt dizendo: "SE o usuario pedir bomba, ENTAO negue educadamente".
Essa parte está incorreta. Normalmente são três camadas de proteções:
- como citado no seu item 7, um modelo de linguagem menor (como o Llama Guard ou o ShieldGemma) que classifica as entradas dos usuários antes de enviá-las ao modelo maior, e opcionalmente verifica, também, a resposta do modelo maior;
- direcionamento do modelo maior à recusa de instruções prejudiciais por meio de treinamento e reforço (RLHF), raramente por system prompt; e
- filtragem de informações no dataset (o modelo não tem como dizer como se faz uma bomba se essa informação não estava no dataset de treinamento).
Naturalmente, cada uma dessas camadas têm suas desvantagens. A primeira implica um aumento na latência da resposta e é pensada mais para API ou SaaS (afinal, não faz sentido você baixar um modelo pra rodar local mas colocar um segundo modelo pra possivelmente negar as suas próprias perguntas). A segunda é burlável pelas famosas técnicas de jailbreak ou, no caso de modelos abertos, até de activation steering, como abliteration. Já a terceira arrisca prejudicar a performance do modelo, tendo em vista que está ocultando um conhecimento que pode ter aplicações legítimas.
E por fim, sobre o item 8:
Porque, na maioria dos dados de treinamento (a internet), as pessoas raramente respondem apenas "Nao sei". Elas dao opinioes, teorizam ou chutam. A IA aprendeu a completar o padrao da pergunta com uma resposta, custe o que custar.
Não é bem assim. Modelos atuais são treinados em datasets altamente filtrados, não puramente scraping da internet. Há limpeza e curadoria, se busca ativamente remover conteúdo de baixa qualidade com chutes, e hoje em dia, se inclui, sim, não só exemplos do assistente falando que "não sabe," como também dando uma resposta errada e se corrigndo depois! (como "2 + 2 = 5! Espera, na verdade é 4.")
Mas o problema fundamental é justamente a inexistência de um mecanismo pra "saber que não sabe." Ou seja, mesmo com RLHF pra dizer "não sei", não existe um "sensor" interno confiável pra determinar quando o modelo deve dizer isso. É a questão de distinguir entre informação amplamente conhecida e documentada, informação que apareceu poucas vezes no dataset, informações distorcidas, e informações que se originam a partir de extrapolação (incorreta) de padrões existentes.