Meta treinou secretamente sua IA em um notório banco de dados de pirataria, revelam documentos judiciais recentemente não editados


“A Meta tratou a chamada ‘disponibilidade pública’ de conjuntos de dados sombra como um cartão para sair da prisão, apesar de os registros internos da Meta mostrarem todos os tomadores de decisão relevantes da Meta, até e incluindo seu CEO, Mark Zuckerberg sabia que o LibGen era ‘um conjunto de dados que sabemos ser pirateado’”, alegam os demandantes nesta moção. (Originalmente apresentada no final de 2024, a moção é um pedido para apresentar uma terceira reclamação alterada.)

Além das petições dos demandantes, outro pedido não foi redigido em resposta à ordem de Chhabria – o pedido de Meta oposição à moção para apresentar uma reclamação alterada. Argumenta que as tentativas dos autores de acrescentar alegações adicionais ao caso são uma “gambito de última hora baseada numa premissa falsa e inflamatória” e nega que Meta tenha esperado para revelar informações cruciais na descoberta. Em vez disso, Meta argumenta que revelou pela primeira vez aos demandantes que usou um conjunto de dados LibGen em julho de 2024. (Como muitos dos materiais de descoberta permanecem confidenciais, é difícil para a WIRED confirmar essa afirmação.)

O argumento da Meta depende de sua alegação de que os demandantes já sabiam sobre o uso do LibGen e não deveriam ter tempo adicional para registrar uma terceira reclamação alterada quando tiveram tempo suficiente para fazê-lo antes do término da descoberta em dezembro de 2024. “Os demandantes sabiam do download do Meta e uso de LibGen e outras supostas ‘bibliotecas sombra’ desde pelo menos meados de julho de 2024”, os advogados da gigante da tecnologia discutir.

Em novembro de 2023, Chhabria concedeu a moção da Meta para rejeitar algumas das reivindicações do processo, incluindo sua alegação de que o suposto uso do trabalho dos autores para treinar IA pela Meta violou o Lei de Direitos Autorais do Milênio Digitaluma lei dos EUA introduzida em 1998 para impedir as pessoas de vender ou duplicar obras protegidas por direitos autorais na Internet. Na época, o juiz acordado com a posição da Meta de que os demandantes não forneceram evidências suficientes para provar que a empresa havia removido o que é conhecido como “informações de gerenciamento de direitos autorais”, como o nome do autor e o título da obra.

Os documentos não editados argumentam que os demandantes deveriam ser autorizados a alterar a sua queixa, alegando que a informação revelada pela Meta é prova de que a reivindicação do DMCA era justificada. Eles também dizem que o processo de descoberta revelou motivos para adicionar novas alegações. “Meta, por meio de um representante corporativo que testemunhou em 20 de novembro de 2024, agora admitiu sob juramento ter carregado (também conhecido como ‘semeadura’) arquivos piratas contendo obras dos Requerentes em sites de ‘torrent’”, alega a moção. (Seeding é quando os arquivos torrent são compartilhados com outros pares após a conclusão do download.)

“Essa atividade de torrent transformou a própria Meta em uma distribuidora do mesmo material pirateado protegido por direitos autorais que também estava baixando para uso em seus modelos de IA disponíveis comercialmente”, afirma um dos documentos recentemente não editados, alegando que a Meta, em outras palavras, não tinha apenas usou material protegido por direitos autorais sem permissão, mas também o divulgou.

LibGen, um arquivo de livros carregados na Internet que se originou na Rússia por volta de 2008, é uma das maiores e mais controversas “bibliotecas sombra” do mundo. Em 2015, um juiz de Nova York encomendado uma liminar contra o site, uma medida concebida em teoria para encerrar temporariamente o arquivo, mas seus administradores anônimos simplesmente mudaram seu domínio. Em setembro de 2024, um juiz diferente de Nova York encomendado A LibGen pagará US$ 30 milhões aos detentores de direitos por infringirem seus direitos autorais, apesar de não saber quem realmente opera o centro de pirataria.

Os problemas de descoberta da Meta neste caso também não acabaram. Na mesma ordem, Chhabria alertou a gigante da tecnologia contra quaisquer pedidos de redação excessivamente abrangentes no futuro: “Se a Meta enviar novamente um pedido de vedação excessivamente amplo, todos os materiais serão simplesmente abertos”, escreveu ele.



Link da Fonte