Há mais. A Deepseek também desenvolveu um novo algoritmo de aprendizado de reforço chamado Otimização de Política Relativa do Grupo (GRPO). Pela primeira vez, este ano atrás, o GRPO costumava construir um modelo chamado Deepseekmat.
Vamos pular detalhes– Você só precisa saber que o treinamento de reforço envolve o cálculo do resultado para determinar se o movimento potencial é bom ou ruim. Muitas das técnicas de aprendizado de reforço existentes exigem um modelo totalmente separado para fazer esse cálculo – para grandes modelos de idiomas, isso significa outro modelo linguístico grande, que pode ser tão caro para construir e iniciar. Em vez de usar outro modelo para prever a pontuação, o GRPO simplesmente faz um palpite educado. É barato, mas ainda preciso o suficiente para trabalhar.
Abordagem conjunta
O uso do reforço Deepsek é a principal inovação descrita em seu artigo R1. Mas a Deepseek não é a única empresa que testa essa técnica. Duas semanas antes de R1, a equipe asiática da Microsoft anunciou um modelo chamado RSTAR-MATH, que foi treinado da mesma maneira. “Tem um grande salto”, diz Zeiler.
A receita da AI2 também foi construída com técnicas eficazes de reforço (mas não, em vez disso, como em vez de supervisionar o ajuste fino e o RLHF). E o rosto firmemente abraçado dos EUA é R1 para réplica com o OpenR1, o clone do modelo Deepseek que abraça os faciais, o R1 revelará ainda mais os ingredientes do molho especial.
Além disso, é um segredo público que as principais empresas como OpenAI, Google DeepMind e Antropic já podem usar suas versões da abordagem da Deepseek para treinar seus modelos de nova geração. “Tenho certeza de que eles estão fazendo quase a mesma coisa, mas têm seu próprio gosto”, diz Matt Zeiler, fundador e CEO da Clarifai, AI.
Mas Deepsek tem mais de um truque. Ele treinou seu modelo principal para tornar a V3 uma previsão multi -pipada tão gorjeta, onde o modelo aprende a prever uma greve de palavras de uma só vez. É mais barato treinar e acontece que a precisão também é aumentada. “Se você pensa em como está falando quando está no meio da frase, conhece o resto da frase”, diz Zeiler. “Esses modelos também devem ser capazes disso”.
Ele também encontrou maneiras mais baratas de criar grandes conjuntos de dados. Para treinar o DeepSeekmath do ano passado, foram necessários dados gratuitos chamados Documentos Common Crawl – um grande número de documentos criados pela Internet – e usou um processo automatizado para separar com precisão os documentos que contêm problemas matemáticos. Era muito mais barato do que criar novos dados sobre problemas matemáticos manualmente. Também foi mais eficaz: a indexação normal contém muito mais matemática do que qualquer outro dados matemática disponível.
E no lado do hardware, a Deepseek encontrou novas maneiras de obter chips antigos para suco, permitindo que ele treine modelos de corte de corte sem tossir no mais recente mercado de hardware. Metade de sua inovação vem da engenharia direta, diz Zeiler. “Eles certamente têm muito bons engenheiros de GPU nessa equipe”.