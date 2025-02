Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e o conteúdo exclusivo sobre a principal cobertura da IA. Descubra mais

Assim que os agentes da IA ​​mostraram a promessa, as organizações tiveram que enfrentar o significado de se um agente era suficiente ou deveria investir na construção de uma rede mais ampla com vários agentes que tocaram mais pontos em sua organização.

Caixa de orquestração da empresa Longan Ele tentou se aproximar da resposta a esta pergunta. Isso sujeitou ao agente vários experimentos que descobriram que agentes individuais têm um limite de contexto e ferramentas antes que seu efeito comece a se degradar. Essas experiências podem levar a uma melhor compreensão da arquitetura necessária para manter agentes e sistemas com vários agentes.

Em um blogLangchain descreveu em detalhes um conjunto de experimentos que ele realizou com um agente de reação e comparou seu desempenho. A principal pergunta que Langchain esperava responder foi: “Em que ponto, um agente reage está sobrecarregado com instruções e ferramentas e depois vê uma gota de desempenho?”

Langchain decidiu usar React Agent Framework Porque é “uma das arquiteturas de agentes mais básicas”.

Embora o desempenho dos agentes de comparação muitas vezes possa levar aos resultados errados, Langchain decidiu limitar o teste a duas tarefas facilmente mensuráveis ​​do agente: responder a perguntas e agendar reuniões.

“Existem muitos valores de referência existentes para o uso de ferramentas e ferramentas de chamada, mas para os fins deste experimento, queríamos avaliar o agente prático que realmente usamos”, escreveu Langchain. “Este agente é nosso assistente interno para o E -Stand, responsável pelos dois principais domínios do trabalho – para responder e agendar os requisitos para reuniões e apoiar os clientes em suas perguntas”.

Parâmetros do experimento de Langchain

A Langchain usa principalmente agentes de reação pré -construída por meio de sua plataforma Langraph. Esses agentes continham grandes modelos linguísticos (LLMs) que se tornaram parte de um teste de referência. Esses LLMs incluem Claude 3.5 Sonet do Anthropic, Meta Llam-3.3-70B e Openi Trio, GPT-4O, O1 e O3-Di.

A empresa interrompeu o teste para avaliar melhor o desempenho do E -E -Impire em duas tarefas, criando uma lista de etapas a serem seguidas. Começou com o suporte ao usuário do usuário do usuário do E -Stand, que observa como agente aceita o e -cliente do cliente e corresponde à resposta.

Langchain avaliou primeiro a chamada de chamadas para as ferramentas ou ferramentas que o agente toca. Se o agente seguiu a ordem correta, o teste foi aprovado. Os pesquisadores então pediram ao assistente que respondesse ao Estado E e usasse o LLM para julgar seu desempenho.

Para o segundo domínio do trabalho, agendando o calendário, Langchain se concentrou na capacidade do agente de seguir as instruções.

“Em outras palavras, o agente deve ter em mente certas instruções fornecidas, como é exatamente quando ele deve agendar reuniões com diferentes partes”, escreveram os pesquisadores.

Sobrecarga do agente

Depois de definirem os parâmetros, Langchain definiu uma ênfase e superou o agente assistente para E -SST.

Configure 30 tarefas para agendar um calendário e suporte ao usuário. Eles foram lançados três vezes (para um total de 90 passeios). Os pesquisadores criaram um agente para agendar um calendário e um agente de suporte ao usuário para avaliar melhor as tarefas.

“O agente de programação do calendário tem acesso ao domínio da agenda do calendário e o agente de suporte ao usuário tem acesso ao domínio de suporte ao usuário”, explicou Langchain.

Os pesquisadores então adicionaram mais tarefas e ferramentas de domínio para aumentar o número de responsabilidades. Eles poderiam passar de recursos humanos, para seguro técnico de qualidade, para legal e respeito e muitas outras áreas.

Degradação do ensino com um agente

Após as avaliações, Langchain revelou que alguns agentes costumavam ser inundados demais quando lhe disseram para fazer muitas coisas. Eles começaram a esquecer de convidar as ferramentas ou não conseguiram responder às tarefas quando deram mais instruções e contextos.

Langchain revelou que os agentes de agendar o calendário usado pelo GPT-4O “tiveram um desempenho pior que Claude-3.5, O1 e O3 em diferentes tamanhos de contexto, e o desempenho caiu mais do que outros modelos quando um contexto maior foi fornecido”. O desempenho do planejador do calendário GPT-4O caiu para 2% quando os domínios aumentaram para pelo menos sete.

Outros modelos não são muito melhores. O Llam-3.3-70B esqueceu de chamar uma ferramenta SAND_EMAIL: “Portanto, nem todo caso de teste falhou”.

Eles apenas se lembraram de apenas Claude-3,5, O1 e O3-Di, eles chamavam a ferramenta, mas Claude-3,5 Sonet era pior do que dois outros Openias. No entanto, o desempenho do O3-DOM é degradado depois que domínios irrelevantes são adicionados às instruções de programação.

O agente de suporte ao usuário pode convidar mais ferramentas, mas para este teste Langchain disse que Claude-3.5-15-I teria se apresentado, bem como O3 e O1. Ele também introduziu uma queda superficial no desempenho quando vários domínios foram adicionados. Quando a janela de contexto se espalhar, o modelo Claude funciona.

O GPT-4O também teve o pior entre os modelos testados.

“Vimos que, como foi fornecido, as seguintes instruções foram fornecidas. Algumas de nossas tarefas foram projetadas para seguir os nichos de instruções específicas (por exemplo, elas não executam uma certa ação para os clientes baseados na UE), “Langchain disse. “Descobrimos que essas instruções seguirão com sucesso os agentes com menos domínio, mas à medida que o número do domínio aumentou e as instruções foram esquecidas com mais frequência e as tarefas falharam depois disso”.

A empresa anunciou que está explorando como avaliar a arquitetura com vários agentes usando o mesmo método de sobrecarga de domínio.

A Langchain já foi investida no desempenho dos agentes, pois introduziu o conceito de “agentes ambientais” ou agentes em segundo plano e lançado por eventos específicos. Essas experiências podem facilitar a compreensão da melhor forma de garantir o desempenho de um agente.