Gemini: a resposta da Google à OpenAI é poderosa e impressiona. Mas será suficiente?

por Abílio dos Reis (Texto) | 11 de Dezembro, 2023

A Google apresentou na semana passada o Gemini, o seu “maior” e “mais eficaz” modelo de inteligência artificial. Será que é agora que a OpenAI vai ter finalmente concorrência?

Depois de ter declarado “code red” há sensivelmente um ano e após vários meses de antecipação, a Google levantou o véu e mostrou algumas cartas com que vai a jogo nos próximos anos no “Campeonato IA”. Por outras palavras, a empresa anunciou o seu “maior” e “mais capaz” modelo (LLM) de inteligência artificial até à data: o Gemini.

Como explica a Google numa publicação no seu Blog, assinado por Demis Hassabis, CEO e Co-Founder da Google DeepMind, o Gemini é diferente da concorrência porque foi construído de raiz para ser multimodal. Ou seja, o modelo consegue generalizar e compreender, operar e combinar diferentes tipos de informações, incluindo texto, imagens, áudio, vídeo e código.

As diferenças para a OpenAI. A startup apoiada pela Microsoft optou por uma estratégia diferente, sem ser multimodal, e treinou três modelos com finalidades distintas: o ChatGPT, um chatbot que a este ponto quase já dispensa apresentações, trabalha o texto e código; o DALL-E cria imagens atrás de texto; e o Whisper, que é um sistema de reconhecimento automático de voz, permite fazer traduções e transcrições. Como não é multimodal, para tirar máximo proveito dos modelos, o recomendável será pedir ao ChatGPT para criar as prompts e colocar os resultados no DALL-E, por exemplo. Com o Gemini, a Google quer saltar este passo ao colocar todas estas funcionalidades “no mesmo saco”.

Para facilitar, a Google publicou um vídeo estilo “tudo o que precisas de saber” de 90 segundos.

Vem em três tamanhos

A geração Gemini 1.0, a primeira do modelo, que só está disponível nesta primeira fase em inglês, vai ter três tamanhos:

Gemini Ultra — é o maior e mais poderoso e foi concebido para lidar com tarefas altamente complexas. Está pensado para data centers e para a criação de aplicações mais robustas e a uma escala corporativa (só fica disponível no início de 2024);
Gemini Pro — o modelo para escalar uma gama alargada de tarefas, que em breve irá alimentar muitos dos serviços de IA da Google e será a espinha dorsal do Bard (o seu ChatGTP, que já se encontra disponível em Portugal desde o verão);
Gemini Nano — um modelo mais pequeno e eficiente, desenhado especificamente para que os utilizadores do sistema Android possam utilizar o modelo nos seus dispositivos de forma nativa.

Na publicação do Blog, Sundar Pichai assegura ainda que o modelo acabará por ser integrado no motor de busca da Google, nos seus produtos de publicidade (anúncios) e no navegador Chrome. No fundo, o Gemini vai estar em todo o lado.

O lançamento por fases

Apesar do anúncio das três “gamas”, nem todos os produtos vão ficar disponíveis no imediato. Por ora, o Bard já está a ser turbinado pelo Gemini Pro e os donos do Pixel 8 Pro podem esperar algumas novidades graças ao Gemini Nano (i.e, a Google quer tornar o dispositivo mais inteligente e mais rápido sem necessitar de uma ligação à Internet). Mas o Gemini Ultra só estará disponível no próximo ano.

Na essência, em resumo:

No caso do Bard, o chatbot já está a ser alimentado pelo Gemini Pro de modo a melhorar as suas capacidades a nível do processo de cálculo, planeamento, compreensão e outras capacidades. No entanto, só a partir do início do próximo ano, já em modo “Bard Advanced”, é que vai contar com a potência do Gemini Ultra — naquele que será efetivamente o maior update à data.
No caso do Pixel 8 Pro, o primeiro smartphone projetado para executar o Gemini Nano, vai passar a ter novas funcionalidades como o “Resumir na aplicação Gravador” (faz transcrição de áudio e na prática é estar, por exemplo, no WhatsApp, e ditar as respostas em vez de as escrever) ou ter um editor de fotografias e vídeos de IA à mão, que lhe corrige a luz e outros aspectos técnicos, melhorando o resultado final das suas memórias.
O Gemini Ultra ainda não está no mercado, mas a Google salienta que é o primeiro modelo “a superar os especialistas humanos em MMLU (compreensão massiva de linguagem multitarefa), que usa uma combinação de 57 disciplinas como a matemática, física, história, direito, medicina e ética para testar o conhecimento do mundo e a capacidade de resolução de problemas”.

Rentabilização

Como nota a CNBC, o anúncio da semana passada surge numa altura em que a pressão dos investidores sobre a Google aumenta. Nomeadamente, a pressão de como a empresa pretende rentabilizar os seus produtos à boleia da inteligência artificial — pois é certamente difícil ver as rivais a lançar produtos e a fazer estimativas chorudas com uma tecnologia que a Google tem vindo a desenvolver e a investir há uma década. Contudo, Demis Hassabis acalmou um pouco os ânimos e explicou que:

A partir de 13 de dezembro, os programadores e empresas vão poder aceder ao Gemini Pro através da API Gemini no Google AI Studio ou na Google Cloud Vertex AI. Assim como os programadores Android poderão também desenvolver aplicações com o Gemini Nano, via AICore, uma nova capacidade de sistema disponível no Android 14, a começar nos dispositivos Pixel 8 Pro.

A pensar especificamente nas necessidades das empresas, a CNBC detalha que estas podem recorrer ao Gemini para um serviço de apoio ao cliente mais avançado através de chatbots e recomendações de produtos. No marketing, o Gemini também pode ser utilizado para a criação de conteúdos para campanhas ou blogues. A nível de produtividade, o Gemini é capaz de resumir reuniões online ou gerar código para programadores.

Novidades… com meses de atraso?

As contas não são difíceis de fazer: a divulgação do Gemini Pro surge oito meses depois de ter lançado o Bard e um ano depois de a OpenAI ter lançado o ChatGPT no GPT-3.5 (na verdade a startup liderada por Sam Altman até já lançou o GPT-4 em março). E este dado é relevante porque representantes da Google disseram na terça-feira passada à imprensa que o Gemini Pro superou o GPT-3.5, embora segundo a CNBC, fossem esquivos quando se fizeram perguntas mediante o seu comportamento versus o GPT-4.

De acordo com um relatório técnico revelado pela Google, o modelo Ultra do Gemini superou o GPT-4 em muitos benchmarks. O feito foi prontamente enaltecido na publicação de apresentação do modelo, que além de revelar evidência de superioridade através de comparações e números lado a lado em duas imagens, salienta que o Ultra é “especialmente bom para explicar o raciocínio em assuntos complexos, como a matemática e a física”.

E com base nos vídeos publicados nos últimos dias no YouTube, é possível ver que o Gemini tem potencial para ser craque a adivinhar filmes, consegue perceber palavras com sotaques diferentes, ou até consegue dizer a quantidade de luz que uma planta precisa apenas com uma imagem, entre outras coisas.

A questão que fica agora no ar, como salienta uma colunista da Bloomberg, é: em muitos benchmarks, o Gemini Ultra bateu o modelo GPT-4 da OpenAI por apenas alguns pontos percentuais. Ou seja, o modelo de IA de topo da Google, que ainda não foi lançado, apesar de impressionar, em alguns aspectos conseguiu apenas pequenas melhorias em relação a algo que a OpenAI disponibilizou há vários meses (em março).

O tumulto vivido na empresa liderada por Sam Altman nos últimos tempos atrasou alguns lançamentos como a GPT Store (um dos grandes momentos do OpenAI DevDay), mas as expectativas em torno dos futuros produtos não podiam ser maiores. Em 2024, seja com o modelo GPT 4.5 / 5 ou com outras novidades, com o regresso de Altman, é quase certo que a OpenAI não ficará sem dar algum tipo de resposta. E quando isso acontecer, com margens de superioridade tão magras, será que o Ultra ainda conseguirá competir?

O futuro

Pichai já o referiu várias vezes e a sua crença é a de que a inteligência artificial será mais transformadora para a humanidade do que o fogo ou a eletricidade. E na sua perspectiva, assim como na de Hassabis, o CEO da DeepMind, a Era Gemini tem o potencial de transformar o futuro da empresa. Ou seja, se o motor de busca tornou a Google numa gigante tecnológica capaz de criar um verbo no léxico das pessoas que procuram coisas na Internet, o enorme potencial do Gemini pode torná-la ainda maior.

Mas isso será algo para analisar no futuro. Para já, como nota a The Verge, a primeira geração do Gemini vai, na melhor das hipóteses, ajudar a Google a alcançar a OpenAI na corrida pelo domínio da IA generativa. O resto, se vai ou não dar uma guinada na liderança do Campeonato IA, teremos de esperar para ver. Até porque em breve teremos outros chatbots a ir a jogo como é o caso do Amazon Olympus (a fazer jus aos rumores) e o Grok da xAI, a nova empresa de IA de Elon Musk.