Google Finalmente Desafia o ChatGPT: Um ponto de virada para a IA?

Finalmente aconteceu. Alguns meses depois que o Google anunciou o Gemini, sua versão online Gemini Pro alcançou o pódio dos melhores modelos, superando algumas versões do GPT-4 e se aproximando perigosamente das capacidades do GPT-4 Turbo. E se considerarmos que o Gemini Pro nem sequer é a forma final do Gemini, o ainda não lançado Ultra, estão enviando uma mensagem clara para a OpenAI. É melhor vocês melhorarem seu jogo ou vão perder o trono em breve. Todos sabemos que a OpenAI retaliará em breve, mas como será esse modelo? Na verdade, já sabemos bastante.

Justificando o Hype

Demorou um pouco, mas o Google finalmente está se organizando quando se trata de IA Generativa. Desde que a OpenAI lançou o ChatGPT em novembro de 2022, o Google de repente viu como a empresa apoiada pela Microsoft tirou o título de “líder em IA” do Google e entregou-o para a Microsoft. Mais de um ano depois, uma empresa com pouco mais de 1 bilhão de dólares em receita é avaliada em incríveis 90 bilhões de dólares, um múltiplo de 90. A razão para isso é que a OpenAI está inquestionavelmente liderando a revolução dos modelos de fundação, a primeira vez que os humanos construíram modelos de propósito geral que realmente podiam realizar uma infinidade de tarefas, mesmo aquelas para as quais não foram particularmente treinados, graças às impressionantes capacidades de aprendizado em contexto dos Large Language Models. O que é aprendizado em contexto? Refere-se à capacidade dos modelos de receber dados em tempo real que nunca viram antes como contexto a ser usado na previsão atual, e ainda assim serem capazes de dar respostas precisas. Em termos simples, é o superpoder que torna o ChatGPT ou o Gemini os modelos poderosos que são hoje. Consequentemente, a OpenAI e seus líderes como Sam Altman estão sob enorme pressão para justificar sua avaliação insana. Considerando a retenção de usuários e sua relação DAU/MAU, a porcentagem de usuários ativos mensais que usam o aplicativo móvel diariamente, estão longe de mostrar ótimos resultados, a única justificativa dessa avaliação depende de continuarem a ser considerados ‘os melhores’.

Quase ninguém usa o ChatGPT diariamente. Fonte: Sequoia Capital

Pela primeira vez desde novembro de 2022, eles poderiam perder seu papel de liderança. E isso sem considerar que o LLaMa 3 do Meta está supostamente a semanas de ser lançado, embora isso não esteja oficialmente confirmado. Assim, não é preciso ter habilidades de dedução geniais para prever que a OpenAI em breve lançará um checkpoint de seu novo modelo, confirmado como já estando em treinamento. Mas como será esse modelo?

Um Tipo Diferente de Pensamento

Há um tema comum sendo estudado em todos os laboratórios de GenAI em todo o mundo: tornar o pensamento “Sistema 2” o modo de resposta padrão para LLMs. Popularizado pelo famoso psicólogo Daniel Kahneman, o cérebro basicamente tem dois modos de pensamento: Sistema 1, onde a resposta é rápida, instintiva e emocional, exigindo quase nenhum esforço de pensamento; Sistema 2, uma resposta mais racional, mais lenta, mais deliberada e mais lógica. O Sistema 2 é particularmente aplicado quando você é perguntado sobre questões que requerem pensamento deliberado, como problemas matemáticos complexos. Mas hoje, a menos que você explicitamente instrua-o a usar técnicas como Encadeamento de Prompt, os LLMs sempre responderão no modo Sistema 1, respondendo automaticamente sem hesitação alguma. Isso significa que o esforço computacional que o modelo coloca em prever a próxima palavra não é muito (ainda é muito considerando o tamanho desses modelos). Mas aqui está a questão. Embora não confirmado como verdadeiro, muitos teorizaram que quanto mais computação o modelo dedica a cada previsão, melhor será o resultado. Essa abordagem de “dar ao modelo tempo para pensar” é algo sobre o qual Andrej Karpathy tem falado bastante, e é até mesmo recomendado abertamente nos guias de engenharia de prompts da OpenAI. De uma forma ou de outra, isso é considerado o próximo marco para os LLMs de última geração, e as chances do próximo modelo da OpenAI ser uma primeira iteração desses modelos são cada vez mais prováveis. Então, fica a pergunta, como induzimos o pensamento do Sistema 2 em nossos modelos? Bem, existem duas maneiras.

Modelos de Recompensa Supervisionados por Processo

Um método para induzir naturalmente o modelo a ser mais cuidadoso com cada previsão de token é usar Modelos de Recompensa Supervisionados por Processo, ou PRMs, como os modelos de recompensa durante a fase de Reinforcement Learning from Human Feedback (RLHF) do treinamento baseado em chat do LLM. Popularizado pelo artigo Let’s Verify Step-by-Step da OpenAI (embora não inventado por eles), isso essencialmente muda a forma como pontuamos as respostas do modelo. No RLHF, assim como no novo método alternativo, Otimização Direta de Preferências (DPO), aumentamos dramaticamente a qualidade e segurança desses modelos alinhando-os às preferências humanas. Em outras palavras, usando um modelo de recompensa treinado em preferências humanas, ajustamos nosso modelo para se tornar cada vez melhor em dar respostas que correspondam às preferências de especialistas humanos. No RLHF, este modelo de recompensa é explicitamente construído, mas no caso do DPO, o próprio LLM é usado como seu próprio modelo de recompensa. Mas o ponto chave aqui é como o mecanismo de recompensa pontua a resposta do modelo. Em métodos tradicionais, o modelo de recompensa verifica a última parte da resposta para ver se está correta ou não, ignorando completamente o processo de pensamento. Com os PRMs, o modelo de recompensa pontuará cada etapa diferente na resposta do modelo, dando uma pontuação completa apenas se todas as etapas do processo forem precisas.

Fonte: OpenAI

Isso força o modelo, treinado para maximizar a recompensa, a “pensar” cada etapa apropriadamente em vez de se apressar na resposta. Em outras palavras, estamos induzindo naturalmente o pensamento lento e deliberado do Sistema 2 no modelo e evitando respostas do Sistema 1 para tarefas que exigem um processo de pensamento mais cuidadoso. Mas os PRMs não são a única coisa sendo experimentada para melhorar a precisão do modelo contra perguntas complexas. E aqui é onde as coisas ficam caras.

Computação no Tempo de Teste e Árvore de Pensamento

Em um artigo do Google Deepmind e Princeton, eles apresentaram a Árvore de Pensamentos, uma nova estrutura para maximizar consideravelmente as saídas do LLM. Em termos simples, em vez de responder instantaneamente ao prompt dado pelo usuário, o modelo literalmente explora diferentes caminhos possíveis antes de responder.

Fonte: Google Deepmind

O modelo até é capaz de retroceder após explorar uma possibilidade que resulta em uma resposta incorreta. Assim como os humanos podem explorar o espaço de possibilidades ao responder a um problema de matemática, aqui o modelo explora o “espaço de todas as strings possíveis” para encontrar a resposta. Consequentemente, a proposta é clara: contra um prompt de usuário complexo, o modelo irá empregar um esforço computacional extensivo comparando múltiplas respostas possíveis, aumentando assim a possibilidade de um resultado correto, algo que descrevemos como computação no tempo de teste. E isso é algo que já vimos na prática. O Alphacode 2 foi lançado no final do ano passado e estabeleceu um novo recorde de IA no campo da programação competitiva, posicionando o modelo no percentil 85 entre os melhores programadores do mundo. O segredo? Ele utilizou uma estrutura de computação no tempo de teste para gerar até um milhão de respostas possíveis para qualquer pergunta específica, aumentando consideravelmente as chances de um resultado correto. Naturalmente, isso é muito, muito caro, mas oferece resultados realmente promissores. Vendo isso, é apenas questão de tempo antes que um desses modelos chegue ao mercado (já sabemos pelo próprio Demis Hassabis que esse caminho também está sendo pesquisado pelo Google Deepmind). A batalha está apenas começando.

A Disputa Aquece

Se o crescimento da indústria durante 2023 se baseou puramente no hype do que esses modelos poderiam trazer para a mesa, 2024 deve confirmar o hype. À medida que os modelos menores ganham muita presença, especialmente no nível empresarial, os modelos de ponta devem continuar a impulsionar toda a indústria, e alcançar o “pensamento do Sistema 2” parece ser o próximo caminho lógico. Enquanto isso, os laboratórios de IA devem continuar a investir em métodos de alinhamento para esses modelos, já que estamos rapidamente alcançando níveis super-humanos em muitas tarefas secundárias, o que significa que é apenas uma questão de tempo antes de construirmos um modelo geral super-humano. O problema? Não estamos preparados para alinhar esses modelos, então melhorar nossos modelos deve ser acompanhado por um investimento apropriado em métodos de segurança e alinhamento. Em suma, 2024 está prestes a ser lembrado como o ano em que a IA se tornou o que os livros do século XX sonhavam. A IA é apenas uma promessa hoje, mas 2024 a tornará realidade.

Next Post Previous Post
SEM COMENTÁRIOS
ADD COMENTÁRIOS
comment url