Os mercados financeiros e especialmente as grandes empresas de tecnologia estão em alerta após o lançamento, por parte da startup DeepSeek, da China, de um chatbot de Inteligência Artificial (IA) generativa comparável aos modelos da OpenAI – ou até superior em algumas performances. Desde o lançamento, os modelos R1 e V3 conquistaram uma onda de consumidores que levaram a DeepSeek ao topo da Apple Store, além de alcançarem o topo em rankings de chatbots IA. Mas, afinal, o que é a DeepSeek?
O que é a DeepSeek?
A DeepSeek é uma empresa chinesa de Inteligência Artificial que desenvolve modelos de linguagem de código aberto (LLM). Ela foi fundada em 2023 em Hangzhou, Zhejiang, e é de totalmente financiada pelo fundo de hedge chinês High-Flyer. O cofundador do fundo, Liang Wenfeng, atua como CEO.
O que faz a DeepSeek?
O DeepSeek realiza tarefas de raciocínio e aprendizagem sem ajuste fino supervisionado, assim como o ChatGPT, da americana OpenAI.
Quanto custa a DeepSeek?
O DeepSeek tornou seu chatbot de Inteligência Artificial generativa de código aberto, o que significa que ele está disponível gratuitamente para uso, modificação e visualização; isso inclui permissão para acessar e utilizar o código-fonte e documentos de design para fins de construção.
Quais os diferenciais da DeepSeek?
As ferramentas da DeepSeek foram, de acordo com a empresa, desenvolvidas com um custo muito mais baixo e utilizando menos recursos. Treinar o R1 custou US$ 5,6 milhões, valor que exclui gastos com pesquisa e desenvolvimento, mas que é significativamente menor em comparação com a faixa de US$ 100 milhões a US$ 1 bilhão citada no ano passado pelo CEO da rival americana Anthropic para criar um modelo parecido. É muito menos, também do que bilhões de dólares que a OpenAI e a Oracle se comprometeram a investir na iniciativa Stargate para impulsionar o setor de IA nos EUA.
A DeepSeek também disse em um relatório técnico que usou um cluster de mais de 2 mil chips Nvidia para treinar seu modelo V3, em comparação com dezenas de milhares de chips que normalmente são usados para treinar modelos de tamanho semelhante. Os chips também são menos avançados do que os de concorrentes, frente ao aumento de sanções dos EUA sobre exportações de semicondutores para a China.
Analistas consultados pelo Wall Street Journal apontam que essa ascensão rápida levanta questões sobre os gastos elevados de big techs americanas para financiar seus modelos de IA e coloca em xeque a valorização elevada de ações de fabricantes de chips.
Qual o impacto da DeekSeek?
O modelo de IA foi desenvolvido pelo DeepSeek em meio a sanções dos EUA contra a China em relação aos chips da Nvidia, que visavam restringir a capacidade do país de desenvolver sistemas avançados de IA. Até 27 de janeiro, o primeiro aplicativo gratuito de chatbot da DeepSeek havia superado o ChatGPT como o app gratuito mais baixado na App Store do iOS nos Estados Unidos.
O sucesso do DeepSeek contra concorrentes maiores e mais estabelecidos foi descrito como “revolucionando a IA” e constituindo “o primeiro golpe naquilo que está se tornando uma corrida espacial global de IA”.
Nesta segunda, 27, diante do excesso de acessos, a DeepSeek anunciou que restringiu a possibilidade de novos cadastros em sua plataforma. De acordo com o site oficial que divulga o status de funcionamento do modelo de IA, apenas números de telefone da China podem se registrar para utilizar o serviço. O comunicado da DeepSeek foi acompanhado de um alerta sobre uma “degradação” no desempenho da plataforma.
Repercussões
Morgan Brown, desenvolvedor de Inteligência Artificial (IA) da Dropbox
Morgan Brown afirmou que as inovações da chinesa DeepSeek “deixaram o mundo da IA em choque”. Em uma publicação no X, ele destacou a “gigantesca” redução de custos alcançada pela concorrente da OpenAI para treinar seus modelos. “OpenAI e outras gastam mais de US$ 100 milhões apenas em computação. Chega a DeepSeek e diz: ‘e se fizéssemos isso por US$ 5 milhões?’”, escreveu.
Brown também ressaltou o uso de um método inovador na construção do modelo da DeepSeek, descrito por ele como um “sistema de especialistas”. “Em vez de uma única IA gigantesca tentando saber tudo, eles têm especialistas dedicados que só ‘acordam’ quando necessários”, afirmou.
Segundo ele, esse sistema permite que apenas uma fração dos parâmetros do modelo seja ativada de cada vez, gerando economia significativa de processamento e custos, em contraste com os métodos tradicionais, como o ChatGPT.
Outro diferencial apontado por Brown é o fato de a empresa ter disponibilizado o código de seu modelo de forma aberta para outros desenvolvedores.
Ele enfatizou a relevância dessa decisão: “Isso quebra o modelo de ‘apenas grandes empresas de tecnologia’ podem trabalhar com IA”. E alertou sobre o impacto na Nvidia: “Para a Nvidia, isso é assustador. O modelo de negócio deles é baseado em vender GPUs supercaras. Se todo mundo pode fazer IA com GPUs de jogos, você entende o problema”, publicou.
Elon Musk, fundador da SpaceX; CEO da Tesla, Inc.; cofundador da OpenAI; fundador e CEO da Neuralink; cofundador, presidente da SolarCity; e proprietário do X (antigo Twitter)
Elon Musk sugeriu que a DeepSeek utiliza mais GPUs da Nvidia do que a startup chinesa havia anunciado. Em resposta a um questionamento direcionado a Marc Benioff, CEO da Salesforce, sobre a possibilidade de o modelo ter sido desenvolvido com “orçamento apertado”, Musk foi enfático: “Não.”
Posteriormente, ao reagir a uma publicação no X que repercutia uma declaração de Alexandr Wang, CEO da Scale AI, sobre a DeepSeek ter cerca de 50 mil chips da Nvidia e o fato de “não poderem falar publicamente por conta do controle de exportações dos Estados Unidos”, Musk escreveu: “obviamente.”
Nvidia
A fabricante de semicondutores Nvidia classificou o modelo de Inteligência Artificial (IA) chinês DeepSeek como “um excelente avanço em IA”, em nota divulgada a veículos de imprensa internacionais e traders. A empresa explicou que o DeepSeek exemplifica como novos modelos podem ser criados aproveitando “modelos amplamente disponíveis e computação totalmente em conformidade com o controle de exportação””.
O comunicado da Nvidia também sublinhou que a inferência desse modelo requer “um número significativo de GPUs da Nvidia e redes de alta performance””.
Além disso, a empresa mencionou o desenvolvimento de “três leis de escalonamento” de IA, incluindo pré-treinamento, pós-treinamento e o novo “Escalonamento em Tempo de Teste”.
Imagem: Shutterstock