Mundo

O Openai Model ganha pontuação na medalha de ouro na Olimpíada de Matemática Internacional e avança o caminho para a inteligência geral artificial

Alguns meses antes da Olimpíada Matemática Internacional de 2025 (IMO), em julho, uma equipe de três pessoas da Openai fez uma aposta longa de que eles poderiam usar os problemas brutalmente difíceis da competição para treinar um modelo de inteligência artificial para pensar por conta própria por horas, para que fosse capaz de escrever provas matemáticas. Seu objetivo não era simplesmente criar uma IA que pudesse fazer matemática complexa, mas que poderia avaliar a ambiguidade e a nuances-as habilidades do AIS precisarão se quiserem um dia assumir muitas tarefas desafiadoras do mundo real. De fato, essas são precisamente as habilidades necessárias para criar inteligência geral artificial, ou AGI: entendimento e raciocínio no nível humano.

A IMO, realizada este ano na Sunshine Coast da Austrália, é a principal competição de matemática do mundo para estudantes do ensino médio, reunindo os principais candidatos de mais de 100 países. Todos recebem os mesmos seis problemas – três por dia, cada um no valor de sete pontos – para resolver mais de dois dias. Mas esses problemas não são nada parecidos com o que você provavelmente se lembra do ensino médio. Em vez de uma breve resposta numérica, cada um exige raciocínio e criatividade sustentados na forma de uma prova escrita de páginas. Esses argumentos lógicos e passo a passo precisam abranger muitos campos de matemática-exatamente o tipo de problemas que, até apenas este ano, os sistemas de IA falharam espetacularmente.

A equipe de pesquisadores e engenheiros do Openai-Alex Wei, Sheryl Hsu e Noam Brown-usou um modelo de raciocínio de uso geral: uma IA projetada para “pensar” através de problemas desafiadores, dividindo-os em etapas, verificando seu próprio trabalho e adaptando sua abordagem. Embora os sistemas de IA não pudessem competir oficialmente como participantes, o teste notoriamente difícil serviu como uma demonstração do que eles podem fazer, e o AIS abordou as perguntas deste ano no mesmo formato de teste e com as mesmas restrições que os participantes humanos. Ao receber as perguntas, o sistema experimental da equipe funcionou para duas sessões de 4,5 horas (assim como os concorrentes dos alunos), sem ferramentas ou a Internet – não teve absolutamente nenhuma assistência externa de ferramentas como mecanismos de pesquisa ou software projetado para matemática. As provas produzidas foram classificadas por três ex -medalhistas da IMO e publicadas online. A IA completou cinco dos seis problemas corretamente, recebendo 35 dos 42 pontos – o mínimo necessário para uma medalha de ouro da IMO. (O sistema de IA DeepMind do Google também alcançou essa pontuação este ano.) Dos 630 concorrentes, apenas 26 estudantes ou 4 %, superaram a IA; Cinco alunos alcançaram 42s perfeitos. Dado que, há um ano, sistemas de IA baseados em idiomas, como o OpenAI, lutaram para fazer matemática elementar, os resultados foram um salto dramático no desempenho.


Sobre apoiar o jornalismo científico

Se você está gostando deste artigo, considere apoiar nosso jornalismo premiado por assinando. Ao comprar uma assinatura, você está ajudando a garantir o futuro das histórias impactantes sobre as descobertas e idéias que moldam nosso mundo hoje.


Na conversa seguinte, Scientific American Conversei com dois membros da equipe do Openai, Alex Wei e Sheryl Hsu, para discutir como eles conduziram seu trabalho, por que a falta de resposta do modelo à sexta pergunta foi realmente um grande passo para abordar o problema de “alucinação” da IA ​​e como o desenvolvimento de um sistema capaz de escrever provas complexas poderia levar à inteligência geral artificial.

(Uma transcrição editada da entrevista segue.)

O que o levou a começar a preparar de repente um modelo de IA para a IMO apenas alguns meses antes da competição? Qual foi a faísca?

Wei: Eu estava pensando em provas de matemática há um bom tempo. Estou em um time do Openai chamado Mathgen. Acabamos de ver os resultados progredir muito. Sentimos que tínhamos uma chance para obter um modelo que poderia se sair muito bem na IMO, e queríamos fazer uma corrida louca para chegar lá.

HSU: Eu costumava fazer competições de matemática. (Wei) costumava fazer competições de matemática – ele era muito melhor que eu. A IMO é definitivamente bem conhecida na comunidade (de pesquisa de IA), inclusive entre os pesquisadores do Openai. Portanto, foi realmente inspirador pressionar especificamente para isso.

Você pode falar sobre sua decisão de trabalhar com um sistema de IA de propósito geral, em vez de um sistema que foi projetado especificamente para responder aos problemas de matemática?

Wei: A filosofia é que queremos criar IA de propósito geral e desenvolver métodos que não funcionam apenas para matemática. A matemática é um terreno muito bom para a IA, porque é bastante objetivo: se você tem uma prova, é mais fácil obter consenso sobre se está correto. Isso é mais difícil para, por exemplo, poesia – você terá mais desacordo entre os leitores. E os problemas da IMO são muito difíceis, por isso queríamos enfrentar problemas difíceis com métodos de propósito geral, na esperança de que eles também se apliquem a domínios além da matemática.

HSU: Eu também diria que o objetivo no Openai é construir a AGI – não é necessariamente escrever papéis ou ganhar competições. Era importante que tudo o que fizemos para este projeto também fosse útil para o objetivo maior de criar AGI e melhores modelos que os usuários podem realmente usar.

De que maneira um modelo de raciocínio ganhou um ouro na IMO ajudar a levar a AGI?

Wei: Uma perspectiva é pensar em termos de quanto tempo as tarefas demoram. Há um ano, o ChatGPT só poderia fazer problemas de matemática muito básicos. Dois anos atrás – e até um ano e meio atrás – costumávamos pensar em problemas matemáticos escolares que você encontraria na lição de casa do quinto grau. Para alguém muito bom em matemática, eles levam um ou dois segundos para ler e resolver. Então começamos a avaliar o uso do AIME (o American Invitational Mathematics Examination, um concurso de matemática do ensino médio de 15 perguntas). Isso leva cerca de 10 minutos por problema, com cerca de três horas para 15 problemas. A IMO tem quatro horas e meia por apenas três problemas – isso há 90 minutos por problema. O chatgpt começou a ser bom para perguntas rápidas. Agora é melhor em tarefas mais longas, como “Você pode editar este parágrafo para mim?” À medida que a IA melhora, você pode expandir o horizonte de tarefas do tempo e pode ver essa progressão claramente em matemática.

HSU: Outro aspecto é que os modelos de raciocínio eram muito bons em tarefas fáceis de verificar. Se você estiver resolvendo um problema matemático não à prova de à prova, há uma resposta numericamente correta. É fácil verificar. Mas no mundo real – e nas tarefas que as pessoas realmente querem ajuda – é mais complexo. Há nuances: talvez esteja principalmente correto, mas tenha alguns erros; Talvez esteja correto, mas possa ser melhor estilizado. A matemática baseada em prova não é trivial para avaliar. Se pensarmos na AGI, essas tarefas não serão fáceis de julgar como corretas ou não; Eles serão mais fracamente especificados e mais difíceis.

Qual foi o processo para treinar o modelo?

WEI: Em geral, a aprendizagem de reforço treina um modelo, recompensando o bom comportamento e penalizando o mau comportamento. Se você reforçar repetidamente o bom comportamento e desencorajar o mau comportamento, o modelo se torna mais provável de exibir o bom comportamento.

HSU: No final, também ampliamos a computação de tempo de teste (quanto tempo o modelo de IA conseguiu “pensar” antes de responder). Anteriormente, para um humano, os problemas desse tipo podem levar alguns minutos; Agora estávamos escalando para horas. Esse tempo de pensamento extra deu ganhos surpreendentes. Houve um momento em que realizamos avaliações em nosso conjunto de testes internos que demoraram muito tempo devido ao aumento da computação de tempo de teste. Quando finalmente analisamos os resultados – e Alex os classificou – ver o progresso me fez pensar que o ouro poderia estar ao seu alcance. Isso foi muito emocionante.

No teste da IMO, o modelo que você desenvolveu obteve cinco de seis respostas corretas. Mas com a sexta pergunta, o modelo não tentou fornecer uma resposta. Você pode me contar mais sobre o significado dessa resposta?

Wei: O modelo sabendo o que não sabe foi um dos sinais iniciais de (progresso) que vimos. Hoje, se você usar o ChatGPT, às vezes verá “alucinações” – os modelos não sabem com segurança quando não sabem. Essa capacidade não é específica para matemática. Eu adoraria se, para perguntas diárias, o modelo pudesse dizer honestamente quando não souber, em vez de dar uma resposta, devo verificar de forma independente.

Que tipo de impacto seu trabalho neste modelo poderia ter em modelos futuros?

HSU: Tudo o que fizemos para este projeto é bastante general – sendo capaz de classificar as saídas que não são respostas únicas e trabalhar com problemas difíceis por um longo tempo enquanto fazem progresso constante. Aqueles que contribuíram muito para o sucesso aqui, e agora nós e outros no Openai estamos aplicando -os além da matemática. Não está no GPT -5, mas em modelos futuros, estamos entusiasmados em integrar esses recursos.

Wei: se você olhar para as soluções que publicamos publicamente para os problemas da OMI, alguns são muito longos – cinco a 10 páginas. Este modelo pode gerar saídas longas consistentes e coerentes, sem erros. Muitos modelos atuais de estado da arte não podem produzir um relatório de cinco páginas totalmente coerente. Estou animado que esse cuidado e precisão ajudem em muitos outros domínios.

Fonte

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo