NVIDIA aposta grande em dados sintéticos


A NVIDIA adquiriu a empresa de dados sintéticos Gretel para nove números, de acordo com duas pessoas com conhecimento direto do acordo.

O preço da aquisição excede a avaliação mais recente de Gretel de US $ 320 milhões, dizem as fontes, embora os termos exatos da compra permaneçam desconhecidos. Gretel e sua equipe de aproximadamente 80 funcionários serão dobrados na Nvidia, onde sua tecnologia será implantada como parte do crescente conjunto de serviços de IA generativos e baseados em nuvem para desenvolvedores.

A aquisição ocorre quando a NVIDIA lançou ferramentas de geração de dados sintéticos, para que os desenvolvedores possam treinar seus próprios modelos de IA e ajustá-los para aplicativos específicos. Em teoria, os dados sintéticos podem criar um suprimento próximo de infinita de dados de treinamento de IA e ajudar a resolver o problema de escassez de dados que está se aproximando da indústria de IA desde que o ChatGPT foi mainstream em 2022-embora os especialistas digam que o uso de dados sintéticos em IA generativa vem com seus próprios riscos.

Um porta -voz da Nvidia se recusou a comentar.

Gretel foi fundado em 2019 por Alex Watson, John Myers e Ali Golshan, que também atua como CEO. A startup oferece uma plataforma de dados sintéticos e um conjunto de APIs para desenvolvedores que desejam criar modelos generativos de IA, mas não têm acesso a dados de treinamento suficientes ou têm preocupações com a privacidade sobre o uso dos dados de pessoas reais. A Gretel não constrói e licenciou seus próprios modelos de IA de fronteira, mas os modelos de código aberto existentes para adicionar recursos diferenciais de privacidade e segurança e depois pacotes os juntos para vendê-los. A empresa levantou mais de US $ 67 milhões em financiamento de capital de risco antes da aquisição, de acordo com o PitchBook.

Um porta -voz da Gretel também se recusou a comentar.

Diferentemente dos dados gerados por humanos ou do mundo real, os dados sintéticos são gerados por computador e projetados para imitar dados do mundo real. Os proponentes dizem que isso torna a geração de dados necessária para criar modelos de IA mais escaláveis, menos trabalhosos e mais acessíveis a desenvolvedores de IA menores ou menos resfriados. A proteção de privacidade é outro ponto de venda de dados sintéticos, tornando-o uma opção atraente para prestadores de serviços de saúde, bancos e agências governamentais.

A Nvidia já oferece ferramentas de dados sintéticos para desenvolvedores há anos. Em 2022, lançou o Omniverse Replicator, que oferece aos desenvolvedores a capacidade de gerar dados 3D sintéticos personalizados, fisicamente precisos para treinar redes neurais. Em junho passado, a NVIDIA começou a lançar uma família de modelos de IA abertos que geram dados de treinamento sintético para os desenvolvedores usarem na construção ou no ajuste fino LLMS. Chamado Nemotron-4 340B, esses mini-modelos podem ser usados ​​pelos desenvolvedores para absorver dados sintéticos para seus próprios LLMs em “Cuidados de saúde, finanças, fabricação, varejo e qualquer outro setor”.

Durante sua apresentação principal na Conferência Anual de Desenvolvedores da NVIDIA nesta terça-feira, o co-fundador da NVIDIA e o executivo-chefe Jensen Huang falou sobre os desafios que a indústria enfrenta ao escalar rapidamente a IA de maneira econômica.

“Existem três problemas nos quais nos concentramos”, disse ele. “Primeiro, como você resolve o problema dos dados? Como e onde você cria os dados necessários para treinar a IA? Dois, qual é a arquitetura do modelo? E então três, quais são as leis de escala?” A Huang continuou descrevendo como a empresa agora está usando a geração de dados sintéticos em suas plataformas de robótica.



Source link