
Elon Musk concorda com outros especialistas em IA que há pouco dados do mundo real restantes para treinar modelos de IA.
“Basicamente, esgotamos a soma cumulativa do conhecimento humano... em treinamento de IA,” Musk disse durante uma conversa transmitida ao vivo com o presidente da Stagwell, Mark Penn, transmitida na noite de quarta-feira. “Isso aconteceu praticamente no ano passado.”
Musk, que é dono da empresa de IA xAI, ecoou os temas que o ex-cientista-chefe da OpenAI, Ilya Sutskever, abordou na conferência de aprendizado de máquina NeurIPS, durante uma palestra em dezembro. Sutskever, que disse que a indústria de IA atingiu o que ele chamou de “pico de dados”, previu que a falta de dados de treinamento forçará uma mudança na forma como os modelos são desenvolvidos hoje.
De fato, Musk sugeriu que os dados sintéticos - dados gerados pelos próprios modelos de IA - são o caminho a seguir. “A única maneira de complementar [dados do mundo real] é com dados sintéticos, onde a IA cria dados de treinamento,” ele disse. “Com dados sintéticos... [IA] se autoavaliará e passará por esse processo de autoaprendizado.”
Outras empresas, incluindo gigantes da tecnologia como Microsoft, Meta, OpenAI e Anthropic, já estão usando dados sintéticos para treinar modelos de IA de destaque. A Gartner estima que 60% dos dados usados em projetos de IA e análise em 2024 foram gerados sinteticamente.
O Phi-4 da Microsoft, que foi disponibilizado ao público na quarta-feira, foi treinado com dados sintéticos juntamente com dados do mundo real. O mesmo aconteceu com os modelos Gemma do Google. A Anthropic usou alguns dados sintéticos para desenvolver um de seus sistemas mais eficientes, o Claude 3.5 Sonnet. E o Meta refinou sua série mais recente de modelos Llama usando dados gerados por IA.
O treinamento em dados sintéticos tem outras vantagens, como economia de custos. A startup de IA Writer afirma que seu modelo Palmyra X 004, desenvolvido quase que inteiramente a partir de fontes sintéticas, custou apenas $700.000 para ser desenvolvido - em comparação com estimativas de $4,6 milhões para um modelo da OpenAI de tamanho comparável.
No entanto, há também desvantagens. Algumas pesquisas sugerem que dados sintéticos podem levar ao colapso do modelo, onde um modelo se torna menos 'criativo' - e mais tendencioso - em suas saídas, comprometendo seriamente sua funcionalidade. Como os modelos criam dados sintéticos, se os dados usados para treinar esses modelos têm viéses e limitações, suas saídas serão igualmente contaminadas.