Conheça o agente da IA ​​com várias personalidades


Nos próximos anos, agentes Espera -se que assuma mais e mais tarefas em nome de seres humanos, incluindo o uso de computadores e smartphones. Por enquanto, porém, Eles são muito propensos a erros para ser muito uso.

Um novo agente chamado S2, criado pela IA simular de inicialização, combina modelos de fronteira com modelos especializados para o uso de computadores. O agente atinge o desempenho de ponta em tarefas como o uso de aplicativos e a manipulação de arquivos-e sugere que recorrer a diferentes modelos em diferentes situações pode ajudar os agentes a avançar.

“Os agentes de uso de computador são diferentes dos grandes modelos de linguagem e diferentes da codificação”, diz Ang Li, co-fundador e CEO da Simular. “É um tipo diferente de problema.”

Na abordagem da Simular, um poderoso modelo de IA de uso geral, como o GPT-4O do OpenAI ou o Claude 3.7 do Antropic, é usado para raciocinar sobre a melhor forma de concluir a tarefa em questão-enquanto modelos menores de código aberto passam para tarefas como interpretar páginas da web.

Li, que foi pesquisador do Google DeepMind antes de fundar a Simular em 2023, explica que grandes modelos de idiomas se destacam no planejamento, mas não são tão bons em reconhecer os elementos de uma interface gráfica do usuário.

O S2 foi projetado para aprender com a experiência com um módulo de memória externo que registra ações e feedback do usuário e usa essas gravações para melhorar as ações futuras.

Em tarefas particularmente complexas, o S2 tem um desempenho melhor do que qualquer outro modelo em Osworlduma referência que mede a capacidade de um agente de usar um sistema operacional de computador.

Por exemplo, o S2 pode completar 34,5 % das tarefas que envolvem 50 etapas, batendo Operador do Openaique pode completar 32 %. Da mesma forma, o S2 obtém 50 % no Androidworld, uma referência para agentes que usam smartphones, enquanto o próximo melhor agente obtém 46 %.

Victor Zhong, cientista da computação da Universidade de Waterloo no Canadá e um dos criadores da Osworld, acredita que futuros modelos de grandes IA podem incorporar dados de treinamento que os ajudam a entender o mundo visual e entender as interfaces gráficas de usuários.

“Isso ajudará os agentes a navegar no GUIs com uma precisão muito maior”, diz Zhong. “Eu acho que, enquanto isso, antes de tais avanços fundamentais, os sistemas de ponta se parecerão simulares, pois combinam vários modelos para corrigir as limitações de modelos únicos”.

Para me preparar para esta coluna, usei simular para reservar voos e vasculhar a Amazon em busca de negócios, e parecia melhor do que alguns dos agentes de código aberto que tentei no ano passado, incluindo Autogênico e Vimgpt.

Mas mesmo os agentes de IA mais inteligentes são, ao que parece, ainda perturbados por casos de borda e, ocasionalmente, exibem comportamentos estranhos. Em um exemplo, quando pedi ao S2 para ajudar a encontrar informações de contato para os pesquisadores por trás de Osworld, o agente ficou preso em um loop pulando entre a página do projeto e o login da discórdia da Osworld.

Os benchmarks de Osworld mostram por que os agentes permanecem mais hype do que a realidade por enquanto. Embora os seres humanos possam completar 72 % das tarefas do Osworld, os agentes são frustrados em 38 % do tempo em tarefas complexas. Dito isto, quando a referência foi introduzida em abril de 2024, o melhor agente poderia concluir apenas 12 % das tarefas.



Source link