Uma pergunta de acompanhamento sobre a pontuação final foi respondida corretamente, mas Gemini obteve o nome do goleador do primeiro touchdown errado: a IA sugeriu que era Johan Dotson. Dotson recebeu um touchdown nos destaques com as pontuações em 0-0, mas foi descartado-um exemplo das nuances que a IA não necessariamente aprende.
Gêmeos identificou com sucesso quando o Kansas City Chiefs recebeu seus primeiros pontos e até incluiu um registro de data e hora ligando direto ao touchdown no clipe do YouTube. Também acertou o nome do artilheiro. Parece que Gêmeos depende fortemente do comentário de clipes de esportes, o que não é surpreendente.
Resuma o conteĂşdo do vĂdeo
Em seguida, tentamos colocar Gêmeos contra um Featurette nos bastidores Para o Grand Budapeste Hotel, dirigido por Wes Anderson. O clipe vai até quatro minutos e meio, e Gêmeos devolveu algumas respostas quase instantaneamente: identificou o nome do filme que está sendo discutido e as principais batidas da narrativa do clipe.
No entanto, tudo depende do áudio (ou da transcrição) novamente – nĂŁo parece haver nenhuma análise do conteĂşdo do vĂdeo real. A IA nĂŁo sabia dizer quem estava as cabeças falantes no vĂdeo, mesmo que seus nomes fossem exibidos na tela, e nĂŁo pudesse dizer quem era o diretor (mesmo que isso tambĂ©m tenha sido mencionado na descrição do vĂdeo).
No lado positivo, Gemini fez um trabalho impressionante ao resumir o áudio do vĂdeo. Ele identificou corretamente alguns dos desafios de cinema que foram mencionados por toda parte e forneceu timestamps para eles – desde procurar um set para representar o Grand Budapeste, a preenchĂŞ -lo com extras.
Resuma entrevistas
Finalmente, tentamos o Google Gemini com uma entrevista: Canal 4 no Reino Unido falando com Charlie Brooker e Siena Kelly sobre a Ăşltima sĂ©rie de Espelho preto (talvez apropriado para um artigo sobre IA). GĂŞmeos se mostrou muito capaz em escolher os pontos de discussĂŁo e adicionar registros de data e hora, embora, Ă© claro, todo o vĂdeo esteja falando principalmente.
Novamente, porĂ©m, nĂŁo há contexto sobre nada fora do áudio ou da transcrição. Gemini Ai nĂŁo sabia dizer onde a entrevista ocorreu, ou como os participantes estavam agindo, ou qualquer outra coisa sobre o visual do vĂdeo – que vale a pena ter em mente se vocĂŞ usar vocĂŞ mesmo.
Para vĂdeos em que as respostas que vocĂŞ deseja estĂŁo no áudio de um vĂdeo do YouTube e sua transcrição associada, Gemini funciona muito bem em resumir e fornecer respostas precisas (desde que os comentaristas mencionem quando um touchdown Ă© descartado, bem como quando alguĂ©m Ă© pontuado). Para qualquer tipo de informação visual, vocĂŞ ainda terá que assistir ao vĂdeo.