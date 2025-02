Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e o conteúdo exclusivo sobre a principal cobertura da IA. Descubra mais

Uma nova onda de agentes aparece para o uso de navegadores da IA, prometendo transformar a maneira como as empresas se comunicam com a Web. Esses agentes podem se mover de forma autônoma para o site, recuperar informações e até concluir transações – mas os testes anteriores revelam defeitos significativos entre promessas e desempenho.

Embora os exemplos de consumidores oferecidos pelo novo operador da Openai para o uso de um navegador, como encomendar pizza ou comprar ingressos para jogos, capturaram os títulos, a questão é onde estão os principais desenvolvedores e casos do uso da empresa. “O que não sabemos é o que será o assassino”, disse Sam Witteveen, co -fundador da Red Dragon, uma empresa que desenvolve as aplicações do agente de IA. “Acho que serão coisas que levam tempo na web que realmente não gostamos”. Isso inclui coisas como ir à web e procurar os preços mais baratos dos produtos ou reservar as melhores acomodações de hotel. São mais propensos a serem usados ​​em combinação com outras ferramentas, como pesquisas profundas, onde as empresas podem fazer uma pesquisa ainda mais sofisticada mais Execução de tarefas na web.

As empresas devem avaliar cuidadosamente o cenário em desenvolvimento, como players estabelecidos, e as startups têm abordagens diferentes para resolver os desafios da navegação autônoma.

Plantários -chave no agente paisagístico para usar o navegador

O campo rapidamente ficou cheio de grandes empresas tecnológicas e startups inovadoras:

O operador e o proxy são os mais avançados, no sentido de que estão prontos para os consumidores e prontos. Muitos outros parecem se posicionar mais para desenvolvedores ou empresas de desenvolvimento. Por exemplo, Usando navegadoresStartup Y-combinador que permite aos usuários ajustar o modelo usado com o agente. Isso oferece mais controle sobre a maneira como o agente funciona, incluindo o uso de um modelo da sua máquina local. Mas é definitivamente mais envolvido.

Outros mencionados acima fornecem um grau diferente de funcionalidade e interação com os recursos locais da máquina. Decidi até testar a UI-Otar da Bytotand por enquanto, pois pediu acesso aos níveis mais baixos de segurança e privacidade do meu computador (se eu o testar, definitivamente usarei um computador secundário).

O teste revela os desafios da explicação

Portanto, os mais fáceis de testar são o operador Openi -ov e a convergência de proxy. Em nossos testes, os resultados enfatizaram que as opções de explicação podem ser importantes a partir dos recursos de automação bruta. O operador, em particular, estava acordado.

Por exemplo, pedi aos agentes que encontrassem e resumissem as cinco histórias mais populares do VentureBeat. Era uma tarefa ambígua porque a seção VentureBeat Nenhuma por si só. O operador lutou com isso. Ele caiu em um loop de movimento sem fim, enquanto buscava as histórias “mais populares”, exigindo uma intervenção manual. Na segunda tentativa, ele encontrou um artigo de três anos intitulado “Cinco principais andares da semana”. Por outro lado, o proxy mostrou uma melhor explicação, identificando as cinco histórias mais visíveis na página inicial como um proxy prático de popularidade e deu resumos precisos.

A diferença ficou ainda mais clara em tarefas reais. Pedi aos agentes que reserve uma reserva em um restaurante romântico para o meio -dia em Pruga, Califórnia. O operador se aproximou da tarefa linearmente – encontrou um restaurante romântico e depois checou a disponibilidade ao meio -dia. Quando as mesas não estavam disponíveis, ele chegou à rua cega. O Proxy mostrou uma explicação mais sofisticada, começando com o OpenTable para encontrar um restaurante romântico e disponível na hora desejada. Ele até voltou com um restaurante com classificação um pouco melhor.

Mesmo tarefas aparentemente simples revelaram diferenças importantes. Ao pesquisar “Yubikey 5C NFC Price” na Amazon, o item de proxy rapidamente encontrou mais fácil que o operador.

Openii não revelou muito sobre as tecnologias que ele usa para treinar seu agente operador, exceto que ele disse ter treinado seu modelo com as tarefas de usar o navegador. Convergência, no entanto, forneceu mais detalhes: seu agente usa algo chamado pesquisa generativa de árvores para “explorar o modelo do mundo da web que previu a situação na web depois de ser realizada pela ação proposta. Eles são gerados recursivamente para a produção de uma árvore de futuros possíveis que são pesquisados ​​para escolher a próxima ação ideal, que é classificada de acordo com nossos modelos de valores. Nossos modelos do Web World também podem ser usados ​​para treinar agentes em situações hipotéticas sem gerar muitos dados caros. “(Mais aqui).

Os benchmarks podem ser inúteis por enquanto

No papel, essas ferramentas combinam de perto. Convergência de proxy alcança 88% sobre WebVoyager Benchmarkque avalia agentes da Web em 643 tarefas do mundo real em 15 sites populares, como Amazon e Booking.com. O operador da OpenAI alcança 87%enquanto estiver usando o navegador diz que atinge 89% Mas somente depois que ele mudou ligeiramente o WebVoyager CodeBase, ele admitiu “, de acordo com nossas necessidades”.

Esses resultados de referência devem realmente ser tomados com um grão de sal, pois podem ser coletados. O teste real vem em uso prático para casos no mundo real. É muito cedo, o espaço muda tão rapidamente e esses produtos estão mudando quase diariamente. Os resultados dependerão mais de determinados trabalhos que você está tentando fazer, e você pode confiar nas vibrações que obtém enquanto estiver usando produtos diferentes.

Implicações da empresa

As consequências para a automação da empresa são significativas. Como Witteveen aponta em nosso Fale sobre o podcast de vídeo Sobre isso, onde mergulhamos profundamente nessa tendência de uso do navegador, muitas empresas estão atualmente pagando aos assistentes virtuais-que é gerenciada pelas pessoas reais-como como lidar com as tarefas básicas de pesquisa da Web e coleta de dados. Esses agentes de uso nupcial podem alterar drasticamente essa equação.

“Se a AI aceitar”, observa Witteveen, “será um dos primeiros frutos baixos de pessoas que perdem o trabalho. Ele aparecerá em algumas coisas”.

Isso pode ser inserido na tendência de automação do processo robótico (RPA), onde o uso do navegador é desenhado como apenas mais uma ferramenta para mais tarefas automatizar. E, como mencionado anteriormente, casos de uso mais poderosos serão quando o agente combinou um navegador com outras ferramentas, incluindo coisas como uma pesquisa profunda, onde o agente guiado pelo LLM usa uma ferramenta de pesquisa mais O navegador é usado para realizar trabalhos mais sofisticados.

A dinâmica dos custos desencadeia a inovação

Outro fator-chave que desencadeia o desenvolvimento rápido é a disponibilidade de poderosos modelos de codificina aberta como Deepseek-R1. Isso permite que as empresas que constroem esses agentes usem navegadores para competir efetivamente com jogadores maiores usando esses modelos, não construindo os seus próprios.

A pressão do preço já é óbvia. Embora o Openi exija uma assinatura mensal do ChatGpt Pro de US $ 200 para acesso ao operador, a Convergence oferece uso gratuito limitado (até cinco usos por dia) e um plano ilimitado de US $ 20 por mês. Essa dinâmica competitiva deve acelerar a adoção da empresa, embora ainda ocorram casos de uso claro.

Desafios de segurança e integração

Vários obstáculos permanecem antes da adoção generalizada da empresa. Alguns sites estão bloqueando ativamente o exame automatizado, enquanto outros exigem verificação do Captcha. Embora o Openi e a Convergência tenham ferramentas que possam passar o Captchas, ele permite que os usuários aceitem a tarefa de cumpri -los – em vez de trabalhar diretamente, pois o ponto principal dos captchas é garantir que o homem esteja da outra extremidade. Ferramentas como a UI-Ota da ByTottance requer acesso a um sistema profundo, causando problemas de segurança para implementar a empresa.

Além disso, o acesso à cooperação do site varia. O OpenAI colaborou com certos parceiros, como Instacart, Priceline, Dordash e Etsy, enquanto outros tentam navegar em qualquer site. Essa inconsistência pode afetar a confiabilidade do uso de empresas. E, é claro, sempre que um agente atingir o site que exige detalhes do aplicativo, ele diminui as coisas – porque os agentes transferirão as coisas para você atender a esses detalhes.

Esperando ansiosamente

Para as empresas que avaliam essas ferramentas, o foco deve estar em casos específicos de uso, nos quais a interação autônoma da Web poderia fornecer um valor claro – seja em pesquisa, serviço de usuário ou automação do processo. A tecnologia progride rapidamente, mas o sucesso dependerá da harmonização da capacidade de fazer necessidades de negócios específicas.

À medida que esse espaço se desenvolve, espere ver mais recursos destinados a empresas e agentes potencialmente especializados para determinadas indústrias ou tarefas. A corrida entre jogadores estabelecidos e startups inovadoras também deve incentivar o progresso técnico e os preços competitivos, que em 2025 foi um ano crucial para adotar um agente para o uso de empresas.

Mais detalhes sobre essas tendências e resultados de testes, procure Conversa de vídeo completa entre Sam Witteveen e eu.