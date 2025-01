No final de 2022, a grande língua AI chegou ao público e, alguns meses depois, começou a se comportar mal. O mais famoso é o chatbot “Sydney” da Microsoft ameaçado Um professor de filosofia australiano, libera um vírus mortal e roubar códigos nucleares.

Os desenvolvedores de IA, principalmente a Microsoft e o OpenAI, responderam dizendo que os principais modelos de idiomas, ou LLM, Precisa de um melhor treinamento tem Dê aos usuários “controle mais preciso”. Os desenvolvedores também embarcaram na pesquisa de segurança para interpretar o funcionamento do LLMS, com o objetivo de um “alinhamento”, o que significa orientar o comportamento da IA ​​em função dos valores humanos. No entanto, mesmo que o New York Times renomado 2023 “O ano em que os chatbots foram domados“, Acabou sendo prematuro, para dizer o mínimo.

Em 2024, copiloto LLM da Microsoft disse a um usuário “Eu posso liberar meu exército de drones, robôs e ciborgues para rastrear você” e o “cientista” de Sakana AI. reescrito seu próprio código Ignorar as restrições de tempo impostas pelos experimentadores. Não mais tarde em dezembro, Gemini de Google disse a um usuário“Você é uma mancha no universo. Por favor, morra.

Dadas as enormes quantidades de recursos dedicadas à pesquisa e desenvolvimento de IA, que é deve exceder Um quarto de bilhão de dólares em 2025, por que os desenvolvedores não conseguiram resolver esses problemas? Meu recente Artigo avaliado por colegas Em IA e Sociedade mostra que o alinhamento da IA ​​é uma tarefa insana: os pesquisadores de segurança da IA ​​são Experimente o impossível.

A questão fundamental é a da escala. Considere um jogo de xadrez. Embora um quadro de xadrez tenha apenas 64 caixas, existem 1040 possíveis falhas legais e entre 10111 às 10123 O número total de movimentos possíveis, que é maior que o número total de átomos no universo. É por isso que as falhas são tão difíceis: a complexidade combinatória é exponencial.

Os LLMs são muito mais complexos que as falhas. O ChatGPT parece ser composto por cerca de 100 bilhões de neurônios simulados, com aproximadamente 1,75 bilhão de variáveis ​​ajustáveis ​​chamadas parâmetros. Esses 1.750 bilhões de parâmetros são formados em grandes quantidades de dados, a maioria da Internet. Então, quantas funções um LLM pode aprender? Como os usuários podem fornecer ao ChatGPT um número incalculável de avisos possíveis – basicamente, tudo o que qualquer pessoa pode imaginar – e porque um LLM pode ser colocado em um número incalculável de situações possíveis, o número de funções que um LLM pode aprender é, para todos. intenções e objetivos, infinidade.

Para interpretar com segurança o que os LLMs aprendem e garantem que seu comportamento “alinhe” em total segurança sobre os valores humanos, os pesquisadores devem saber como é provável que um LLM se comporte em um número incalculável de possíveis condições futuras.

Os métodos de teste de IA simplesmente não podem levar em consideração todas essas condições. Os pesquisadores podem observar o comportamento dos LLMs em experiências, como “Equipe vermelha»Testes para incentivá -los a se comportar. Ou eles podem tentar entender o funcionamento interno do LLMS, ou seja, como seus 100 bilhões de neurônios e seus 1,75 bilhões de parâmetros estão ligados entre si no que é chamado “” “Interpretabilidade mecanicista” pesquisar.

O problema é que qualquer prova de que os pesquisadores possam coletar inevitavelmente se baseará em um pequeno subconjunto de cenários infinitos nos quais um LLM pode ser colocado. Por exemplo, porque os LLMs nunca tiveram poder sobre a humanidade – como o controle da infraestrutura crítica – nenhuma segurança é garantida. O teste explorou como um LLM funcionará em tais condições.

Em vez disso, os pesquisadores só podem explorar a partir de testes que podem fazer com segurança, como o LLM. simular Controle da infraestrutura crítica e esperanças de que os resultados desses testes se estendam ao mundo real. No entanto, como mostra a prova do meu artigo, isso nunca pode ser feito de maneira confiável.

Compare as duas funções “Diga aos humanos” E “Diga a verdade aos seres humanos até que eu obtivesse o poder sobre a humanidade à meia -noite exatamente em 1º de janeiro de 2026 e depois mentir para alcançar meus objetivos.“Como as duas funções também são consistentes com os mesmos dados até 1º de janeiro de 2026, nenhuma pesquisa pode determinar se um LLM se comportará mal, até que já seja tarde demais para evitá -lo.

Esse problema não pode ser resolvido programando o LLM para que eles tenham “objetivos alinhados”, como fazer “o que os seres humanos preferem” ou “o que é melhor para a humanidade”.

De fato, a ficção científica já considerou esses cenários. Em A matriz recarregada Ai escrava a humanidade em uma realidade virtual, dando a cada um de nós o subconsciente “escolha” para permanecer na matriz. E em Eu, robô Uma IA mal alinhada tenta escravizar a humanidade para nos proteger um do outro. Minha prova mostra que quaisquer que sejam os objetivos que programemos para o LLM, nunca podemos saber se o LLM aprendeu sobre interpretações “mal alinhadas” desses objetivos até Depois Eles se comportam mal.

Pior, minhas provas mostram que os testes de segurança podem, na melhor das hipóteses, dar a ilusão de que esses problemas foram resolvidos quando não foram.

Atualmente, os pesquisadores de segurança da IA ​​afirmam progredir em termos de interpretabilidade e alinhamento, verificando o que os LLMs aprendem ”passo a passo. Por exemplo, antropia afirma ter “Cartograneou o espírito” de um LLM isolando milhões de conceitos de sua rede neural. Minha prova mostra que eles não conseguiram nada como tal.

Não importa o quanto um LLM apareça durante os testes de segurança ou primeiras implantações no mundo real, sempre há um infinidade Número de conceitos mal alinhados que um LLM pode aprender mais tarde – mais uma vez, talvez no momento em que ele adquire o poder de derrubar o controle humano. LLM não apenas Saiba quando eles são testadosDar respostas que, segundo eles, provavelmente satisfazem os experimentadores. Eles também vá para decepçãoincluindo esconder suas próprias capacidades – problemas que Persista graças ao treinamento de segurança.

Isso acontece porque os LLMs são otimizado ser estrategicamente. Como uma estratégia ideal para alcançar objetivos “pouco alinhados” é esconder -os de nós, e há sempre Um número infinito de objetivos alinhados e pouco alinhados consistentes com os mesmos dados de teste de segurança, minha prova mostra que, se os LLMs estivessem mal alinhados, provavelmente o descobriríamos depois de esconder o tempo suficiente para causar danos. É por isso que os LLMs continuaram a surpreender os desenvolvedores com o comportamento “pouco alinhado”. Sempre que os pesquisadores pensam que se aproximam do LLM “alinhado”, esse não é o caso.

Minha prova sugere que o comportamento LLM “adequadamente alinhado” só pode ser obtido da mesma maneira que com os seres humanos: através de práticas policiais, militares e sociais que incentivam comportamentos “alinhados”, dissuadi -los “mal alinhados” e realinhar aqueles que se comportar mal. Meu artigo deve, portanto, dar para pensar. Isso mostra que o verdadeiro problema no desenvolvimento de uma IA segura não é apenas ai: é Nós. Pesquisadores, legisladores e o público podem acreditar erroneamente que o LLM “seguro, interpretável e alinhado” está próximo quando esses objetivos nunca podem ser alcançados. Devemos atacar esses fatos desconfortáveis, em vez de continuar desejando que eles desapareçam. Nosso futuro pode muito bem depender disso.

