O modelo de IA Robótica Gemini do Google chega ao mundo físico

Em contos de ficção científica, inteligência artificial Freqüentemente, poderes todos os tipos de inteligentes, capazes e ocasionalmente homicidas robôs. Uma limitação reveladora da melhor IA de hoje é que, por enquanto, ela permanece presa diretamente dentro da janela de bate -papo.

Google DeepMind Sinalizou um plano para mudar isso hoje – presumivelmente menos a parte homicida – anunciando uma nova versão de seu modelo de AI Gemini, que funde a linguagem, a visão e a ação física juntos para alimentar uma variedade de robôs mais capazes, adaptativos e potencialmente úteis.

Em uma série de vídeos de demonstração, a empresa mostrou vários robôs equipados com o novo modelo, chamado Gemini Robotics, manipulando itens em resposta a comandos falados: Robot Arms Dold Paper, Hand sobre legumes, coloque suavemente um par de óculos em um gabinete e conclua outras tarefas. Os robôs confiam no novo modelo para conectar itens visíveis com possíveis ações para fazer o que eles disseram. O modelo é treinado de uma maneira que permita que o comportamento seja generalizado em hardware muito diferente.

O Google DeepMind também anunciou uma versão de seu modelo chamado Gemini Robotics-ER (para raciocínio incorporado), que tem apenas um entendimento visual e espacial. A idéia é que outros pesquisadores de robôs usem esse modelo para treinar seus próprios modelos para controlar as ações dos robôs.

Em uma demonstração de vídeo, os pesquisadores do Google DeepMind usaram o modelo para controlar um robô humanóide chamado Apollo, da startup Apptronik. O robô conversa com um humano e move cartas em torno de uma mesa quando instruído.

“Conseguimos trazer o entendimento do mundo-o entendimento do conceito geral-do Gemini 2.0 para a robótica”, disse Kanishka Rao, pesquisador de robótica do Google DeepMind, que liderou o trabalho, em um briefing antes do anúncio de hoje.

O Google DeepMind diz que o novo modelo é capaz de controlar diferentes robôs com sucesso em centenas de cenários específicos não incluídos anteriormente em seu treinamento. “Uma vez que o modelo de robô tenha um entendimento de conceito geral, ele se torna muito mais geral e útil”, disse Rao.

Os avanços que deram origem a chatbots poderosos, incluindo Opic é AAIP e Gêmeos do Googlenos últimos anos, levantou a esperança de um Revolução semelhante na robóticamas grandes obstáculos permanecem.

Source link