Essas startups estão construindo modelos de IA avançados sem data centers

Os pesquisadores treinaram um novo tipo de Modelo de linguagem grande (LLM) usando GPUs pontilhado em todo o mundo e alimentado com dados privados e públicos – um movimento que sugere que a maneira dominante de construir inteligência artificial poderia ser interrompido.

Flor ai e Velhoduas startups buscando abordagens não convencionais para a construção de IA, trabalharam juntas para criar o novo modelo, chamado Collective-1.

Técnicas criadas por flores que permitem que o treinamento seja espalhado por centenas de computadores conectados pela Internet. A tecnologia da empresa já é usada por algumas empresas para treinar modelos de IA sem precisar reunir recursos ou dados de computação. O Vana forneceu fontes de dados, incluindo mensagens privadas de X, Reddit e Telegram.

O Collective-1 é pequeno pelos padrões modernos, com 7 bilhões de parâmetros-valores que se combinam para dar ao modelo suas habilidades-em comparação com centenas de bilhões de modelos mais avançados de hoje, como aqueles que programas de energia gostam ChatgptAssim, Claudee Gêmeos.

Nic Lane, cientista da computação da Universidade de Cambridge e co-fundador da Flower AI, diz que a abordagem distribuída promete escalar muito além do tamanho do coletivo-1. Lane acrescenta que a Flower IA está no meio do treinamento de um modelo com 30 bilhões de parâmetros usando dados convencionais e planeja treinar outro modelo com 100 bilhões de parâmetros – recorreu ao tamanho oferecido pelos líderes da indústria – este ano. “Isso poderia realmente mudar a maneira como todo mundo pensa em IA, então estamos perseguindo isso com muita força”, diz Lane. Ele diz que a startup também está incorporando imagens e áudio ao treinamento para criar modelos multimodais.

A construção de modelos distribuídos também pode perturbar a dinâmica de poder que moldaram a indústria da IA.

Atualmente, as empresas de IA constroem seus modelos, combinando vastas quantidades de dados de treinamento com enormes quantidades de centers de dados de computação concentrados, recheados com GPUs avançadas que são unidas em rede usando cabos de fibra óptica super rápidos. Eles também confiam fortemente nos conjuntos de dados criados raspando publicamente acessíveis – embora às vezes protegidas por direitos autorais -, incluindo sites e livros.

A abordagem significa que apenas as empresas mais ricas e nações com acesso a grandes quantidades dos chips mais poderosos podem desenvolver viáveis os modelos mais poderosos e valiosos. Mesmo modelos de código aberto, como Chamadas de Meta e R1 de Deepseeksão construídos por empresas com acesso a grandes data centers. Abordagens distribuídas podem possibilitar que empresas e universidades menores construam IA avançada, reunindo recursos díspares. Ou pode permitir que os países que carecem de infraestrutura convencional juntam vários data centers para construir um modelo mais poderoso.

Lane acredita que o setor de IA procurará cada vez mais novos métodos que permitem que o treinamento seja interrompido de data centers individuais. A abordagem distribuída “permite escalar a computação de maneira muito mais elegante do que o modelo do data center”, diz ele.

Helen Toner, especialista em governança de IA no Center for Security and Emerging Technology, diz que a abordagem de Flower IA é “interessante e potencialmente muito relevante” à competição e governança da IA. “Provavelmente continuará lutando para acompanhar a fronteira, mas pode ser uma abordagem interessante e rápida”, diz Toner.

Dividir e conquistar

O treinamento de IA distribuído envolve repensar a maneira como os cálculos usados para construir sistemas de IA poderosos são divididos. A criação de um LLM envolve a alimentação de grandes quantidades de texto em um modelo que ajusta seus parâmetros para produzir respostas úteis a um prompt. Dentro de um data center, o processo de treinamento é dividido para que as peças possam ser executadas em diferentes GPUs e, em seguida, consolidado periodicamente em um único modelo mestre.

A nova abordagem permite que o trabalho normalmente seja realizado dentro de um grande data center a ser executado em hardware que pode estar a muitos quilômetros de distância e conectado a uma conexão de Internet relativamente lenta ou variável.

Source link