IAutomatize

EleutherAI Libera Dataset Ético de 8TB para Treinar IAs

EleutherAI Libera Dataset Ético de 8TB para Treinar IAs

O universo da Inteligência Artificial (IA) enfrenta um dilema crucial: como treinar modelos poderosos sem infringir direitos autorais e mantendo a transparência? A prática comum de usar dados raspados da web, incluindo material protegido, tem levado a inúmeros processos judiciais, criando um ambiente de incerteza e prejudicando a pesquisa aberta em IA. A falta de clareza sobre as fontes de dados dificulta a análise de vieses e limitações dos modelos.

Em resposta a este desafio, a EleutherAI, organização de pesquisa em IA, anunciou o "The Common Pile v0.1". Este é um dos maiores datasets já criados, com 8 terabytes de textos licenciados e de domínio público, desenvolvido ao longo de dois anos com parceiros como Poolside e Hugging Face. O objetivo é claro: fornecer uma alternativa ética e legalmente segura para o treinamento de IAs, promovendo a transparência. Stella Biderman, diretora da EleutherAI, aponta que as disputas legais diminuíram a transparência das empresas, mas não o uso de dados controversos.

Impacto do Common Pile v0.1 na IA Aberta

O Common Pile v0.1, acessível via Hugging Face e GitHub, foi curado com consultoria legal e inclui vastas coleções de domínio público. Para demonstrar seu potencial, a EleutherAI treinou os modelos Comma v0.1-1T e Comma v0.1-2T. Com 7 bilhões de parâmetros cada e treinados em uma fração do dataset, eles competem com modelos como o Llama da Meta em benchmarks de código, imagem e matemática. Isso prova que dados licenciados, bem curados, podem gerar IAs de alta performance, desafiando a dependência de material protegido.

Este lançamento é um passo importante da EleutherAI para fomentar uma IA mais responsável, especialmente após controvérsias com seu antigo dataset "The Pile", que continha material protegido. O Common Pile v0.1 não é apenas um recurso; é um chamado para uma nova era na pesquisa de IA, pautada pela ética, transparência e colaboração.

Fonte: Informações adaptadas de TechCrunch. Leia mais aqui.

Gostou do que leu?

Conheça nossas soluções