BitcoinWorld Treinamento do Modelo de IA DeepSeek: Afirmativas Alarmantes Surgem Sobre o Uso de Dados do Gemini

No mundo acelerado da inteligência artificial, a inovação muitas vezes provoca intenso escrutínio, especialmente em relação a como modelos de IA poderosos são construídos. Recentemente, a atenção se voltou para o laboratório chinês DeepSeek após o lançamento de uma versão atualizada de seu modelo de IA de raciocínio R1. Este novo modelo mostrou um desempenho forte em vários benchmarks, particularmente em matemática e codificação.

No entanto, a fonte dos dados de treinamento usados para este modelo não foi divulgada pela DeepSeek, levando a especulações entre pesquisadores de IA. Alguns acreditam que pelo menos uma parte dos dados pode ter se originado da família de modelos de IA Gemini do Google.

Evidências Sugerem Potencial Influência do Gemini

Vários desenvolvedores apresentaram observações que alimentam essa especulação. Sam Paech, um desenvolvedor baseado em Melbourne, compartilhou o que acredita ser evidência de que o último modelo da DeepSeek, R1-0528, foi treinado com saídas do Gemini. Paech observou em um post no X que o modelo DeepSeek parece preferir palavras e expressões semelhantes às favorecidas pelo Gemini 2.5 Pro do Google. Ele especulou que a DeepSeek poderia ter mudado de usar dados sintéticos gerados por modelos da OpenAI para usar dados sintéticos do Gemini.

Outro desenvolvedor, conhecido pseudonimamente como o criador da ferramenta de avaliação de IA ‘SpeechMap’, também comentou sobre as semelhanças. Este desenvolvedor observou que as ‘trilhas’ ou ‘pensamentos’ internos que o modelo DeepSeek gera enquanto resolve problemas ‘lêem como trilhas do Gemini’. Embora essas observações não sejam prova definitiva, elas acrescentam à crescente suspeita.

Acusações Passadas e Destilação de IA

Esta não é a primeira vez que a DeepSeek enfrenta acusações relacionadas ao uso de dados de modelos de IA rivais. Em dezembro, desenvolvedores notaram que o modelo V3 da DeepSeek ocasionalmente se identificava como ChatGPT, o chatbot da OpenAI. Isso sugeriu que o modelo poderia ter sido treinado com logs de conversa do ChatGPT.

No início deste ano, a OpenAI supostamente disse ao Financial Times que havia encontrado evidências ligando a DeepSeek ao uso de destilação de IA. A destilação é uma técnica onde um modelo de IA menor é treinado para replicar o comportamento de um modelo maior e mais capaz, usando as saídas do modelo maior como dados de treinamento. Embora a destilação seja uma prática conhecida, os termos de serviço da OpenAI proíbem explicitamente os clientes de usarem suas saídas de modelo para construir serviços de IA concorrentes.

De acordo com a Bloomberg, a Microsoft, um parceiro e investidor importante da OpenAI, detectou quantidades significativas de dados sendo extraídos através de contas de desenvolvedor da OpenAI no final de 2024. A OpenAI acredita que essas contas estão afiliadas à DeepSeek. Esses eventos alimentam ainda mais preocupações sobre potenciais questões de propriedade intelectual no competitivo cenário de IA.

Por que a DeepSeek usaria dados sintéticos do Gemini?

O especialista em IA Nathan Lambert, um pesquisador do instituto de pesquisa em IA sem fins lucrativos AI2, acredita que é plausível que a DeepSeek tenha treinado com dados do Gemini do Google. Lambert sugeriu em um post no X que, se estivesse na posição da DeepSeek, definitivamente ‘criaria uma tonelada de dados sintéticos a partir do melhor modelo de API disponível’.

Ele explicou que a DeepSeek está ‘com falta de GPUs e com dinheiro sobrando’. Usar dados sintéticos gerados por modelos externos poderosos como o Gemini efetivamente lhes fornece mais recursos computacionais para treinamento sem precisar de uma infraestrutura de hardware extensa e cara. Isso torna a prática estrategicamente atraente, apesar das questões éticas e legais que levanta em relação aos termos de serviço.

Desafios no Treinamento de Dados de Modelos de IA

É importante notar a complexidade de identificar definitivamente as fontes de dados de treinamento. Muitos modelos de IA podem convergir em padrões linguísticos semelhantes e até se identificar erroneamente, pois a web aberta, uma fonte primária de dados de treinamento, está cada vez mais povoada com conteúdo gerado por IA. Essa ‘contaminação’ torna desafiador filtrar saídas de IA de conjuntos de dados de treinamento.

No entanto, as observações específicas sobre escolhas de palavras preferidas e a estrutura das trilhas de raciocínio apontam para uma influência mais direta do que apenas uma contaminação geral de dados da web, de acordo com os pesquisadores que fizeram as alegações.

Reações da Indústria e Contra-estratégias

Em resposta a preocupações sobre Destilação de IA e coleta de dados, empresas de IA estão aprimorando as medidas de segurança. Em abril, a OpenAI implementou um processo de verificação de ID obrigatório para acessar certos modelos avançados, exigindo uma ID emitida pelo governo de países suportados (a China não está atualmente nesta lista).

O Google também tomou medidas, começando recentemente a ‘resumir’ as trilhas detalhadas geradas por modelos disponíveis por meio de sua plataforma de desenvolvedor AI Studio. Esta ação dificulta para outros treinarem modelos rivais usando os processos de raciocínio passo a passo do Gemini. A Anthropic anunciou um movimento semelhante em maio, citando a necessidade de proteger suas ‘vantagens competitivas’.

Conclusão

A especulação em torno do treinamento do último modelo de IA da DeepSeek e do potencial uso de dados do Gemini destaca desafios significativos na indústria de IA. À medida que os modelos se tornam mais capazes, os métodos usados para treiná-los e as fontes de seus dados estão sob crescente escrutínio. Embora a prova definitiva permaneça elusiva, as observações de desenvolvedores e incidentes passados levantam questões importantes sobre ética de dados, propriedade intelectual e o futuro do desenvolvimento competitivo de IA. O movimento da indústria em direção a controles de acesso mais rigorosos e à ofuscação de dados reflete a crescente tensão e os altos riscos envolvidos na construção da próxima geração de IA.

Para saber mais sobre os últimos desenvolvimentos de modelos de IA, explore nossos artigos sobre as principais tendências que estão moldando o mercado de IA.

Este post Treinamento de Modelo de IA DeepSeek: Afirmativas Alarmantes Surgem Sobre o Uso de Dados do Gemini apareceu pela primeira vez no BitcoinWorld e é escrito pela Equipe Editorial