O novo modelo do Anthropic se destaca no raciocínio e no planejamento – e tem as habilidades de Pokémon para provar isso

Anthrópica anunciou dois Novos modelos, Claude 4 Opus e Claude Sonnet 4, durante sua primeira conferência de desenvolvedores em São Francisco na quinta -feira. Claude 4 Opus estará disponível imediatamente para pagar assinantes Claude, enquanto o Claude Sonnet 4 estará disponível para usuários gratuitos e pagos.

Os novos modelos, que saltam da convenção de nomenclatura de 3,7 em linha reta para 4, têm vários pontos fortes, incluindo sua capacidade de raciocinar, planejar e lembrar o contexto das conversas por longos períodos de tempo, diz a empresa. Claude 4 Opus também é ainda melhor em jogar Pokémon do que seu antecessor.

“Foi capaz de trabalhar agente no Pokémon por 24 horas”, diz Mike Krieger, diretor de produtos da Anthrópica, em entrevista à Wired. Anteriormente, o mais longo que o modelo poderia jogar foi de apenas 45 minutos, acrescentou um porta -voz da empresa.

Alguns meses atrás, o Anthropic lançou um fluxo de Twitch chamado “Claude Paplay Pokémon”, que mostra as habilidades de Claude 3,7 Sonnet no Pokémon Red Live. A demonstração deve mostrar como Claude é capaz de analisar o jogo e tomar decisões passo a passo, com uma direção mínima.

O líder por trás da pesquisa de Pokémon é David Hershey, membro da equipe técnica da Anthrópica. Em uma entrevista à Wired, Hershey diz que escolheu o Pokémon Red porque é “um playground simples”, o que significa que o jogo é baseado em turnos e não requer reações em tempo real, com as quais os modelos atuais do antropal lutam. Foi também o primeiro videogame que ele já jogou, no Game Boy original, depois de obtê -lo no Natal em 1997. “Ele tem um lugar bastante especial no meu coração”, diz Hershey.

O objetivo abrangente de Hershey com esta pesquisa foi estudar como Claude poderia ser usado como agente – trabalhando de forma independente para realizar tarefas complexas em nome de um usuário. Embora não esteja claro o que o conhecimento prévio Claude tem sobre os Pokémon a partir de seus dados de treinamento, seu prompt do sistema é mínimo por design: você é Claude, você está tocando Pokémon, aqui estão as ferramentas que você tem e pode pressionar botões na tela.

“Com o tempo, eu tenho passado e excluindo todas as coisas específicas de Pokémon que posso, só porque acho realmente interessante ver o quanto o modelo pode descobrir por conta própria”, diz Hershey, acrescentando que espera construir um jogo que Claude nunca tenha visto antes, a fim de realmente testar seus limites.

Quando Claude 3,7 soneto jogou o jogo, ele enfrentou alguns desafios: gastou “dezenas de horas“Preso em uma cidade e teve problemas para identificar personagens para não-jogadores, que atropelam drasticamente seu progresso no jogo. Com Claude 4 Opus, Hershey notou uma melhoria na memória de longo prazo de Claude, sem que ela se manifestasse, antes de ser a manutenção de um pokémon complexo, antes de ter que o prostituto, que não tem que o seu jogo, o que se manifestou, o que se mantém, que não a assistia. O feedback imediato mostra um novo nível de coerência, o que significa que o modelo tem uma melhor habilidade permanecer no caminho certo.

“Esta é uma das minhas maneiras favoritas de conhecer um modelo. Como, é assim que eu entendo quais são seus pontos fortes, quais são suas fraquezas”, diz Hershey. “É a minha maneira de entender esse novo modelo que estamos prestes a lançar e como trabalhar com isso”.

Todo mundo quer um agente

A pesquisa de Pokémon da Anthrópica é uma nova abordagem para enfrentar um problema preexistente – como entendemos quais decisões uma IA está tomando ao abordar tarefas complexas e empurrá -la na direção certa?

A resposta a essa pergunta é parte integrante do avanço dos agentes de IA muito humorada do setor-ai que pode enfrentar tarefas complexas com a relativa independência. Em Pokémon, é importante que o modelo não perca o contexto ou “esqueça” a tarefa em questão. Isso também se aplica aos agentes de IA solicitados a automatizar um fluxo de trabalho – mesmo que leva centenas de horas.

Source link