Lançado na forma de app e assistente pessoal recentemente para celulares Android no Brasil e em outros territórios, o Gemini, a inteligência artificial generativa do Google, vem sendo a grande aposta da big tech para 2024. Contudo, sua integração com o ecossistema da empresa, suas funções e as diferenças entre seus modelos, apps, serviços e preços podem gerar uma grande confusão – algo que não é novidade, se tratando dos produtos Google.
Abaixo, explicamos tudo o que você precisa saber sobre o Gemini, suas ramificações, preços e capacidades.
O que é o Gemini?
O Gemini é a família de modelos de IA generativa do Google. Desenvolvido pelos laboratórios de pesquisa em IA da empresa, DeepMind e Google Research, o Gemini se destaca por sua capacidade de entender e gerar conteúdo multimodal, incluindo áudio, imagens e vídeos. É um processo diferente do ChatGPT, por exemplo, que embora seja capaz de fazer transcrições de áudio, falar e ouvir, só entende nativamente texto e código.
Os aplicativos do Gemini são uma interface pela qual modelos da IA podem ser acessados. Ou seja, o Gemini não é apenas o app ou site com funções de chatbot e assistente que você baixa pela PlayStore ou acessa pela web, mas sim, um conjunto de modelos com diferentes capacidades e aplicações, apresentado em três versões: Ultra, Pro e Nano.
Qual a diferença do Gemini para o ChatGPT e outras IAs generativas?
Segundo o Google, o Gemini é “nativamente multimodal”, capaz de trabalhar com áudio, imagens, vídeos e textos em diferentes idiomas. Isso significa que, em vez de alimentar prompts para um gerador de imagens (como o DALL-E 3, no caso do ChatGPT), o Gemini gera imagens “nativamente”, sem uma etapa intermediária.
Além disso, o Gemini 1.0 (sua versão mais poderosa) também é superior ao GPT-4 em inúmeros testes de benchmark, como equações matemáticas, geração de códigos Python, compreensão de leitura e conhecimentos gerais, de acordo com o Google.
O que é possível fazer com o Gemini?
Devido sua estrutura multimodal, o Gemini, em teoria, é capaz de solucionar uma série de problemas distintos, dos mais simples aos mais complexos, incluindo transcrições de vídeos, gerar imagens e gráficos, apontar erros em uma planilha de dados, analisar textos acadêmicos, dentre outras coisas.
Além disso, sua integração com a suite de produtividade do Google, o Google Workspace, permite que você faça uso dele na redação de textos e e-mails, criação de planilhas, apresentações e mais.
Contudo, nem todas as capacidades do Gemini estão disponíveis em sua versão gratuita, na forma de app ou site da web. É preciso conhecer suas diferentes versões para entender qual se encaixa melhor àquilo que você deseja fazer:
Gemini Ultra
Disponível na versão 1.0
O Gemini Ultra é a versão mais avançada e completa da IA, que melhor faz uso de sua multimodalidade, de acordo com o Google. A companhia afirma que o Gemini Ultra é capaz de identificar artigos científicos relevantes para um determinado problema, extrair as informações mais relevantes desses textos e atualizar um gráfico pré-existente, gerando as fórmulas necessárias para recriar o gráfico com os dados mais recentes.
Além disso, o Google também afirma que, em sua versão mais avançada, o Gemini é capaz de entender e interpretar imagens e vídeos em diferentes linguagens da expressão humana, incluindo musical, visual e em código. Isso significa que a IA é capaz de descrever uma partitura ou elaborar uma imagem de boneco de lã a partir da foto ou vídeo de dois novelos.
O Google diz que, em comparação ao rival GPT-4, o modelo Ultra tem resultados melhores em testes de geração de código em Python, desafios de matemática e respostas sobre conhecimentos gerais.
Este é o modelo usado no Google Workspace, incluindo Gmail, documentos do Docs, apresentações do Sheets e gravações do Google Meet, trazendo uma série de recursos adicionais para cada programa. Este serviço custa: R$ 96,99/mês, via assinatura do Google One AI Premium.
O Gemini Ultra também está disponível para desenvolvedores como API através da plataforma Vertex AI e AI Studio, permitindo sua aplicação em novos serviços.
Gemini Pro
Disponível nas versões 1.0 e 1.5
Pensado para desenvolvedores, o Gemini Pro é uma versão mais leve que o modelo Ultra, com uma arquitetura mais “eficiente”. Além de texto, o Gemini Pro é capaz de entender diferentes idiomas, extrair informações de áudios e de vídeos sem a necessidade de realizar uma transcrição escrita. Contudo, isso pode levar tempo: fazer uma busca em uma hora de vídeo pode levar de 30 segundos a um minuto.
Em sua atual versão mais recente, 1.5 (em fase de testes), o modelo é capaz de processar até 1 milhão de tokens, equivalente a cerca de 700 mil palavras ou aproximadamente 30 mil linhas de código – oito vezes mais que o GPT-4 Turbo da Open AI.
Sua principal característica é a quantidade de contexto que pode processar. Como exemplo, o Google afirma que o PDF contendo as transcrições de 402 páginas da missão Apolo 11 pode ser analisada pelo Gemini 1.5, o que equivale a aproximadamente 327 mil tokens. Nos testes, a IA foi capaz de identificar momentos cômicos na transcrição, após solicitada, bem como entender que um desenho simples de uma bota pisando no chão, enviada pelo usuário, representava o momento de Neil Armstrong pisando na Lua.
O Gemini 1.5 Pro está disponível ao público em versão “preview” na Vertex AI, plataforma de construção de aplicações de IA voltada para empresas.
Gemini Nano
Disponível nas versões 1.0
O Geminio Nano é uma versão “compacta” dos modelos Pro e Ultra, capaz de rodar diretamente em celulares em vez de servidores. Alguns aparelhos mais modernos, como o Pixel 8 Pro e o Samsung Galaxy S24, já possuem algumas características do Gemini Nano.
Uma delas é o app de um gravador capaz de transcrever áudios de reuniões e entrevistas e destacar as partes mais importantes, mesmo que você não tenha acesso à internet.
O teclado do Google, o Gboard, também possui uma função do Gemini Nano que tenta prever suas próximas palavras durante uma conversa, funcionando em conjunto com o WhatsApp.
Como usar as diferentes versões do Gemini?
Fora de seu formato chatbot e assistente, que pode ser baixado na PlayStore e usado na web, a API do Gemini é voltada a desenvolvedores que desejam embutir seus modelos de IA em suas aplicações. Contudo, você poderá testá-la gratuitamente e experimentar seus recursos aqui, bastando acessar o AI Studio.
Quanto custa?
Em formato preview, o Gemini 1.5 Pro pode ser testado gratuitamente, dentro das plataformas AI Studio e Vertex AI. Quando o Gemini 1.5 Pro deixar seu sua versão de testes no Vertex, o modelo cobrará US$ 0,0025 por caractere digitado e US$ 0,00005 por caractere presente nas respostas. De acordo com uma análise feita pelo site Tech Crunch, um artigo contendo 2 mil caracteres poderia custar aproximadamente US$ 5.
O preço do modelo Ultra ainda não foi divulgado, mas também pode ser testado gratuitamente no Vertex. Este modelo é usado no Google Workspace, incluindo Gmail, documentos do Docs, apresentações do Sheets e gravações do Google Meet, trazendo uma série de recursos adicionais para cada programa. Este serviço custa: R$ 96,99/mês, via assinatura do Google One AI Premium.
Com informações de Estadão Conteúdo
Imagem: Shutterstock