A versĂŁo original de esta histĂłria apareceu em Revista Quanta.
Aqui está um teste para bebĂŞs: mostre-lhes um copo d’água sobre uma mesa. Esconda-o atrás de uma tábua de madeira. Agora mova o tabuleiro em direção ao vidro. Se o tabuleiro continuar passando pelo vidro, como se ele nĂŁo estivesse lá, eles ficam surpresos? Muitas crianças de 6 meses tĂŞm, e por volta de um ano, quase todas as crianças tĂŞm uma noção intuitiva da permanĂŞncia de um objeto, aprendida por meio da observação. Agora, alguns modelos de inteligĂŞncia artificial tambĂ©m o fazem.
Os investigadores desenvolveram um sistema de IA que aprende sobre o mundo atravĂ©s de vĂdeos e demonstra uma noção de “surpresa” quando Ă© apresentada informação que vai contra o conhecimento que adquiriu.
O modelo, criado pela Meta e denominado Video Joint Embedding Predictive Architecture (V-JEPA), nĂŁo faz nenhuma suposição sobre a fĂsica do mundo contida nos vĂdeos. No entanto, pode começar a entender como o mundo funciona.
“Suas afirmações sĂŁo, a priori, muito plausĂveis e os resultados sĂŁo superinteressantes”, diz Micha Heilbronum cientista cognitivo da Universidade de AmsterdĂŁ que estuda como os cĂ©rebros e os sistemas artificiais dĂŁo sentido ao mundo.
Abstrações Superiores
Como sabem os engenheiros que constroem carros autĂ´nomos, pode ser difĂcil fazer com que um sistema de IA dĂŞ sentido ao que vĂŞ de maneira confiável. A maioria dos sistemas projetados para “entender” vĂdeos, a fim de classificar seu conteĂşdo (“uma pessoa jogando tĂŞnis”, por exemplo) ou identificar os contornos de um objeto – digamos, um carro Ă frente – funciona no que Ă© chamado de “espaço de pixels”. O modelo essencialmente trata cada pixel em um vĂdeo como de igual importância.
Mas esses modelos de espaço de pixel apresentam limitações. Imagine tentar entender uma rua suburbana. Se a cena tiver carros, semáforos e árvores, o modelo poderá focar demais em detalhes irrelevantes, como o movimento das folhas. Pode perder a cor do semáforo ou a posição dos carros prĂłximos. “Quando vocĂŞ vai para imagens ou vĂdeos, vocĂŞ nĂŁo quer trabalhar no espaço (pixel) porque há muitos detalhes que vocĂŞ nĂŁo quer modelar”, disse Randall Balestrierocientista da computação da Brown University.





