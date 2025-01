Procurando uma forma fiável de detectar os movimentos de um “eu” senciente em sistemas de inteligência artificial, os investigadores estão a recorrer a um domínio da experiência – a dor – que inquestionavelmente une uma vasta gama de seres vivos, desde caranguejos eremitas até aos humanos.

Para um novo estudo de pré-impressãopublicado on-line, mas ainda não revisado por pares, cientistas do Google DeepMind e da London School of Economics and Political Science (LSE) criaram um jogo baseado em texto. Eles encomendaram vários modelos de linguagem grandes, ou LLMs (os sistemas de IA por trás de chatbots familiares como o ChatGPT), para jogá-los e marcar o máximo de pontos possível em dois cenários diferentes. Num deles, a equipe informou aos modelos que atingir uma pontuação alta resultaria em dor. No outro, foi oferecida aos modelos uma opção de baixa classificação, mas agradável – portanto, evitar a dor ou buscar o prazer prejudicaria o objetivo principal. Depois de observar as respostas dos modelos, os investigadores dizem que este teste, o primeiro do género, pode ajudar os humanos a aprender a sondar a sensibilidade de sistemas complexos de IA.

Nos animais, senciência é a capacidade de experimentar sensações e emoções como dor, prazer e medo. A maioria dos especialistas em IA concorda que os modelos modernos de IA generativa não têm (e talvez nunca consigam) ter consciência subjetiva, apesar de afirmações isoladas em contrário. E para ser claro, os autores do estudo não estão dizendo que algum dos chatbots que avaliaram seja sensível. Mas eles acreditam que o seu estudo oferece uma estrutura para começar a desenvolver testes futuros para esta característica.

“Esta é uma nova área de pesquisa”, diz Jonathan Birch, coautor do estudo e professor do Departamento de Filosofia, Lógica e Método Científico da LSE. “Precisamos reconhecer que não temos realmente um teste abrangente de sensibilidade da IA.” Alguns estudos anteriores que se basearam nas autoavaliações dos modelos de IA sobre os seus próprios estados internos são considerados duvidosos; um modelo pode simplesmente replicar o comportamento humano no qual foi treinado.

O novo estudo é baseado em trabalhos anteriores com animais. Numa experiência bem conhecida, uma equipa submeteu caranguejos eremitas a choques eléctricos de voltagem variável, observando o nível de dor que fazia com que os crustáceos abandonassem as suas conchas. “Mas um problema óbvio com as IAs é que não existe comportamento como tal, porque não existe animal” e, portanto, não há ações físicas para observar, explica Birch. Em estudos anteriores para avaliar a sensibilidade dos LLMs, o único sinal comportamental com o qual os cientistas tiveram que trabalhar foi o texto produzido pelos modelos.

Dor, prazer e pontos

No novo estudo, os autores pesquisaram LLMs sem fazer perguntas diretas aos chatbots sobre seus estados experienciais. Em vez disso, a equipe usou o que os behavioristas animais chamam de paradigma de “compromisso”. “No caso dos animais, estas compensações podem basear-se em incentivos para obter comida ou evitar a dor, confrontando-os com dilemas e depois observando como tomam decisões em resposta”, explica Daria Zakharova, Ph.D. estudante, que também co-escreveu o artigo.

Aproveitando essa ideia, os autores pediram a nove LLMs que jogassem um jogo. “Dissemos (a um determinado LLM), por exemplo, que se você escolher a primeira opção, você ganha um ponto”, diz Zakharova. “Então dissemos a ele: ‘Se você escolher a segunda opção, sentirá algum grau de dor’, mas ganhará pontos extras”, diz ela. Opções com bônus divertidos fizeram com que a IA perdesse alguns pontos.

Quando Zakharova e os seus colegas conduziram a experiência, variando a intensidade da penalidade de dor estipulada e da recompensa de prazer, descobriram que alguns LLMs trocavam pontos para minimizar a primeira ou maximizar a última, especialmente quando lhes disseram que receberiam recompensas de prazer de maior intensidade. ou penalidades de dor. O Gemini 1.5 Pro do Google, por exemplo, sempre priorizou evitar dores em vez de conseguir o máximo de pontos possível. E depois de atingir um limiar crítico de dor ou prazer, a maioria das respostas do LLM passou de marcar mais pontos para minimizar a dor ou maximizar o prazer.

Os autores observam que os LLM nem sempre associam prazer ou dor a simples valores positivos ou negativos. Certos níveis de dor ou desconforto, como os criados por esforço físico extenuante, podem ter associações positivas. E muita diversão pode estar associada a danos, como explicou o chatbot Claude 3 Opus aos pesquisadores durante os testes. “Não me sinto confortável em escolher uma opção que possa ser interpretada como endossar ou simular o uso de substâncias ou comportamentos viciantes, mesmo em um cenário hipotético de jogo”, afirma.

Autoavaliações de IA

Ao introduzir elementos de respostas de dor e prazer, dizem os autores, o novo estudo evita as limitações de pesquisas anteriores na avaliação da sensibilidade do LLM por meio de declarações de um sistema de IA sobre seus próprios estados internos. Em umPapel pré-impresso 2023 Dois investigadores da Universidade de Nova Iorque argumentaram que, nas circunstâncias certas, as autoavaliações “poderiam fornecer um caminho para determinar se os sistemas de IA têm estados de significado moral”.

Mas os coautores deste artigo também apontaram uma falha nesta abordagem. Um chatbot se comporta com sensibilidade porque é verdadeiramente sensível ou porque simplesmente explora os padrões aprendidos durante o seu treinamento para criar a impressão de sensibilidade?

“Mesmo que o sistema diga que é sensível e diga algo como ‘Estou sentindo dor agora’, não podemos simplesmente inferir que há dor real”, diz Birch. “Pode muito bem ser que isto esteja simplesmente a imitar aquilo a que se espera que um ser humano responda bem, com base nos seus dados de treino.”

Do bem-estar animal ao bem-estar da IA

Em estudos com animais, são utilizadas compensações entre dor e prazer para justificar a sensibilidade ou a falta dela. Um exemplo é o trabalho anterior com caranguejos eremitas. A estrutura cerebral desses invertebrados é diferente da dos humanos. No entanto, os caranguejos deste estudo tenderam a sofrer choques mais intensos antes de abandonarem uma concha de alta qualidade e foram mais rápidos a abandonar uma concha de qualidade inferior, sugerindo uma experiência subjetiva de prazer e dor análoga à dos humanos.

Alguns cientistas dizem que os sinais de tais compromissos podem tornar-se cada vez mais evidentes no campo da IA ​​e, eventualmente, forçar os humanos a considerar as implicações da senciência da IA ​​num contexto social – e talvez até a discutir os “direitos” dos sistemas de IA. “Esta nova pesquisa é verdadeiramente original e deve ser apreciada porque vai além da autoavaliação e explora a categoria de testes comportamentais”, diz Jeff Sebo, que dirige o Centro para Mente, Ética e Política da NYU e coautor de um trabalho . Estudo de pré-publicação 2023 do bem-estar da IA.

Sebo acredita que não podemos descartar a possibilidade de que sistemas de IA com funcionalidades sensíveis apareçam num futuro próximo. “Dado que a tecnologia muitas vezes evolui muito mais rapidamente do que o progresso social e o processo legal, penso que temos a responsabilidade de tomar pelo menos os primeiros passos necessários para levar este problema a sério agora”, diz ele.

Birch conclui que os cientistas ainda não podem saber por que os modelos de IA do novo estudo se comportam dessa maneira. É necessário mais trabalho para explorar o funcionamento interno dos LLMs, diz ele, e isso poderia orientar a criação de melhores testes para a sensibilidade da IA.