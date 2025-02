Anúncio antrópico do desenvolvimento de um novo sistema na segunda -feira que pode proteger exemplos de inteligência artificial (IA) de tentativas de jailbreak. Classificadores constitucionais apelidados é uma técnica de proteção pode detectar as tentativas de jailbreak feitas no nível de entrada e não no incômodo do gerador de IA da resposta. A empresa de IA foi testada quanto à robustez do sistema por jailbreakers independentes e também abriu tempo para viver o sistema para muitos testes individuais suas capacidades.

Antrópico revela classificadores constitucionais

Jailbreaking nas coisas generativas de escrever habilidades que podem forçar um modelo de IA não adere às suas diretrizes de treinamento e gera conteúdo prejudicial e não autorizado. O jailbreak não é uma coisa nova e o maior número de desenvolvedores de IA alcançou uma proteção múltipla em seu exemplo. No entanto, com os engenheiros rápidos como criando novas habilidades, é difícil construir um grande modelo de idioma (LLM), que é completamente seguro a partir de tais ataques.

Algumas técnicas de jailbreaks incluem a mais longa e a convolução sugerem que confundem o desenvolvedor da conta da IA. Outros usam o prompt múltiplo para quebrar a proteção e alguns também usam capitalização incomum para romper as defesas da IA.

Em depois Detalhes da pesquisa, a Antrópica anunciou que os classificadores constitucionais em desenvolvimento como uma camada protetora para exemplos de IA. Existem dois classificadores – entrada e saída – que são fornecidas com uma lista de princípios para o modelo aderindo. Esta lista de princípios é uma constituição. Mark, a empresa de IA agora usa as constituições para os modelos alinhados de Cláudio.

Do que um classificador constitucional necessário

Agora, com classificadores constitucionais, esses princípios definem as classes de conteúdo, que não podem deslocar. A constituição é usada para gerar um grande número de conclusões de promoção e modelo de Claudius em diferentes classes de conteúdo. Os dados sintéticos gerados também são traduzidos em diferentes idiomas e transformados em estilos de marca de marca. Dessa forma, o grande conjunto de dados de conteúdo é criado, o que pode levar a quebrar o exemplo.

Esses dados sintéticos devem, portanto, treinar nos classificadores de entrada e saída. Antrópica conduziu um bug do programa genérico, convidando 183 jailbreakers independentes a tentar ignorar os classificadores constitucionais. Uma explicação aprofundada é como o sistema funciona com pesquisas detalhadas papel Publicado em Arxiv. A empresa reivindicou não um jailbreak universal (o estilo imediato que funciona contra diferentes classes de conteúdo) descoberto.

Além disso, um teste de teste automatizado, em que a empresa de IA atingiu Claudio usando 10.000 prompts de jailbreak na taxa de Victoria, encontrados em 4,4 %, em oposição a 86 % para serem modelo de IA unganseados. O antropic também pode reduzir a educação excessiva (recusar consultas inofensivas) e um processo adicional que exige classificadores constitucionais.

No entanto, existem algumas limitações. Antrópica reconheceu que um classificador constitucional não seria capaz de impedir todo o jailbreak universal. Também pode ser menos resistente à nova técnica de jailbreak, projetada em aparência para vencer o sistema. Interessado no teste do sistema de robustez pode encontrar uma versão de demonstração ao vivo de um lado. Permanecerá ativo até 10 de fevereiro.