Este modelo de IA pode intuir como funciona o mundo físico

A versão original de esta história apareceu em Revista Quanta.

Aqui está um teste para bebês: mostre-lhes um copo d’água sobre uma mesa. Esconda-o atrás de uma tábua de madeira. Agora mova o tabuleiro em direção ao vidro. Se o tabuleiro continuar passando pelo vidro, como se ele não estivesse lá, eles ficam surpresos? Muitas crianças de 6 meses têm, e por volta de um ano, quase todas as crianças têm uma noção intuitiva da permanência de um objeto, aprendida por meio da observação. Agora, alguns modelos de inteligência artificial também o fazem.

Os investigadores desenvolveram um sistema de IA que aprende sobre o mundo através de vídeos e demonstra uma noção de “surpresa” quando é apresentada informação que vai contra o conhecimento que adquiriu.

O modelo, criado pela Meta e denominado Video Joint Embedding Predictive Architecture (V-JEPA), não faz nenhuma suposição sobre a física do mundo contida nos vídeos. No entanto, pode começar a entender como o mundo funciona.

“Suas afirmações são, a priori, muito plausíveis e os resultados são superinteressantes”, diz Micha Heilbronum cientista cognitivo da Universidade de Amsterdã que estuda como os cérebros e os sistemas artificiais dão sentido ao mundo.

Abstrações Superiores

Como sabem os engenheiros que constroem carros autônomos, pode ser difícil fazer com que um sistema de IA dê sentido ao que vê de maneira confiável. A maioria dos sistemas projetados para “entender” vídeos, a fim de classificar seu conteúdo (“uma pessoa jogando tênis”, por exemplo) ou identificar os contornos de um objeto – digamos, um carro à frente – funciona no que é chamado de “espaço de pixels”. O modelo essencialmente trata cada pixel em um vídeo como de igual importância.

Mas esses modelos de espaço de pixel apresentam limitações. Imagine tentar entender uma rua suburbana. Se a cena tiver carros, semáforos e árvores, o modelo poderá focar demais em detalhes irrelevantes, como o movimento das folhas. Pode perder a cor do semáforo ou a posição dos carros próximos. “Quando você vai para imagens ou vídeos, você não quer trabalhar no espaço (pixel) porque há muitos detalhes que você não quer modelar”, disse Randall Balestrierocientista da computação da Brown University.

A imagem pode conter Yann LeCun Rosto Feliz Cabeça Pessoa Sorriso Fotografia Retrato Covinhas Adulto e Acessórios

Source link