Este modelo de IA pode intuir como funciona o mundo fĂ­sico


A versĂŁo original de esta histĂłria apareceu em Revista Quanta.

Aqui está um teste para bebĂŞs: mostre-lhes um copo d’água sobre uma mesa. Esconda-o atrás de uma tábua de madeira. Agora mova o tabuleiro em direção ao vidro. Se o tabuleiro continuar passando pelo vidro, como se ele nĂŁo estivesse lá, eles ficam surpresos? Muitas crianças de 6 meses tĂŞm, e por volta de um ano, quase todas as crianças tĂŞm uma noção intuitiva da permanĂŞncia de um objeto, aprendida por meio da observação. Agora, alguns modelos de inteligĂŞncia artificial tambĂ©m o fazem.

Os investigadores desenvolveram um sistema de IA que aprende sobre o mundo através de vídeos e demonstra uma noção de “surpresa” quando é apresentada informação que vai contra o conhecimento que adquiriu.

O modelo, criado pela Meta e denominado Video Joint Embedding Predictive Architecture (V-JEPA), não faz nenhuma suposição sobre a física do mundo contida nos vídeos. No entanto, pode começar a entender como o mundo funciona.

“Suas afirmações são, a priori, muito plausíveis e os resultados são superinteressantes”, diz Micha Heilbronum cientista cognitivo da Universidade de Amsterdã que estuda como os cérebros e os sistemas artificiais dão sentido ao mundo.

Abstrações Superiores

Como sabem os engenheiros que constroem carros autônomos, pode ser difícil fazer com que um sistema de IA dê sentido ao que vê de maneira confiável. A maioria dos sistemas projetados para “entender” vídeos, a fim de classificar seu conteúdo (“uma pessoa jogando tênis”, por exemplo) ou identificar os contornos de um objeto – digamos, um carro à frente – funciona no que é chamado de “espaço de pixels”. O modelo essencialmente trata cada pixel em um vídeo como de igual importância.

Mas esses modelos de espaço de pixel apresentam limitações. Imagine tentar entender uma rua suburbana. Se a cena tiver carros, semáforos e árvores, o modelo poderá focar demais em detalhes irrelevantes, como o movimento das folhas. Pode perder a cor do semáforo ou a posição dos carros próximos. “Quando você vai para imagens ou vídeos, você não quer trabalhar no espaço (pixel) porque há muitos detalhes que você não quer modelar”, disse Randall Balestrierocientista da computação da Brown University.

A imagem pode conter Yann LeCun Rosto Feliz Cabeça Pessoa Sorriso Fotografia Retrato Covinhas Adulto e Acessórios

Yann LeCun, cientista da computação da Universidade de Nova York e diretor de pesquisa de IA da Meta, criou o JEPA, um antecessor do V-JEPA que trabalha com imagens estáticas, em 2022.

Fotografia: École Polytechnique Université Paris-Saclay



Source link