
Um teste para avaliar a performance dos modelos de inteligência artificial (IAs) e se os sistemas alcançam capacidades de raciocínio e conhecimento em nível de especialista em uma ampla gama de áreas. Essa é a proposta do Humanity’s Last Exam (Último Exame da Humanidade, em tradução livre), um benchmark que busca medir a acurácia da tecnologia.
O teste “definitivo” apresentou 2,7 mil questões, elaboradas por quase mil especialistas de 500 instituições de 50 países, e foi criado pela Scale AI e pelo Center for AI Safety. As IAs, contudo, não apresentaram bom desempenho.
A ideia do exame é desafiar os grandes modelos de linguagem (LLMs), como ChatGPT, trazendo outras perspectivas para avaliar sua performance e ajudando na evolução dos LLMs. Os benchmarks definem um padrão de referência para medir as IAs.
Com alta complexidade – maior do que em outros benchmarks –, última prova da humanidade contou com perguntas mais difíceis e que envolvem raciocínio no melhor nível, segundo os especialistas ouvidos por Zero Hora.
O teste propunha problemas não tão triviais quanto os que são resolvidos pelas ferramentas atualmente. As IAs apresentam boa performance no reconhecimento de padrões e na utilização de dados conhecidos a partir de treinamentos, explica Rafael Kunst, professor do Programa de Pós-Graduação em Computação Aplicada da Universidade do Vale do Rio dos Sinos (Unisinos).
As questões envolviam fortes especificidades sobre campos como matemática, ecologia, linguística, neurociência, mecânica quântica, arqueologia, estudos culturais, entre outros. Foram feitas perguntas como: “Os beija-flores dentro dos Apodiformes têm exclusivamente um osso oval pareado bilateralmente, um sesamoide embutido na porção caudolateral da aponeurose cruzada expandida de inserção do m. depressor caudae. Quantos tendões pareados são suportados por este osso sesamoide? Responda com um número”.
Resultados
O desempenho geral foi baixo, com o melhor resultado chegando a 14%. Também foram avaliados os campos individualmente – ainda assim, a performance das IAs foi ruim.
— O desempenho está muito aquém, por exemplo, ao que modelos atuais têm com outros tipos de tarefas, em que, em algumas delas, até superam os seres humanos, como no jogo de xadrez, que tem lógica e padrões. Agora, para resolver problemas matemáticos extremamente complexos, fazer novas pesquisas científicas, a IA não performa bem, pelo menos não até o momento. Certamente com o avanço vai melhorar, mas ainda está muito longe do desempenho humano nesse tipo de tarefa complexa — afirma Kunst.
Resultados de acurácia por modelo:
- GPT-4O: 2.6%
- GROK 2: 3.8%
- Claude 3.5 Sonnet: 4.9%
- Gemini 1.5 Pro: 5.2%
- Gemini 2.0 Flash Thinking: 7.1%
- O1: 8.4%
- Deepseek-R1: 8.6%
- O3-Mini (Medium): 11.1%
- O3-Mini (High): 14%
— A acurácia foi bem baixa. O O3-Mini é um modelo que é mais voltado para a questão de raciocínio e matemática, então talvez explique um pouco disso (ter melhor resultado) dentro da estrutura e da lógica do teste — avalia Natália Borges, pós-doutora em IA pela Universidade Federal do Rio Grande do Sul (UFRGS) e cofundadora do NAVI, hub de IA vinculado ao Tecnopuc.
Para os especialistas, muitos humanos também não passariam na prova, sobretudo humanos “médios”, que poderiam acertar questões mais relacionadas aos campos em que atuam. Apesar dos resultados, houve melhoria significativa nas capacidades de raciocínio em comparação com modelos anteriores.
Diante da promessa de processamento de grande volumes de dados e de fornecimento de respostas sobre muitos assuntos ao varrer a internet, o resultado mostra que, muitas vezes, os modelos podem estar errando.
— Especialmente quando se trata de assuntos muito específicos. Pode induzir um humano que está consultando esse LLM ao erro — alerta Natália.
A IA superou o conhecimento humano?
As IAs ainda não conseguiram superar especialistas humanos – e esse cenário está distante, na avaliação de Kunst e Natália. Para a pós-doutora, contudo, a intenção do exame não parece ser compará-las com humanos (o que não seria justo, na visão de Kunst), e sim mostrar que os LLM ainda não conseguiram atingir aquilo a que se propõem – falar sobre tudo.
— Um humano nunca vai se propor a isso, me parece. Eu não tenho como ter todos os conhecimentos — ressalta Natália.
Embora considere a análise válida, a cofundadora do Navi se questiona sobre a utilidade de testes de conhecimento humano para compreender a evolução da IA quando os próprios autores indicam que os resultados possivelmente aumentarão.
O professor da Unisinos, por outro lado, vê “bastante sentido” na tentativa. O surgimento dos grandes modelos de linguagem pode ter passado uma visão, sobretudo para a população que não é especialista em IA, de que os sistemas pudessem estar avançados a ponto de já superar o raciocínio humano. A prova mostra que isso não é verdade.
Os LLMs são bons para resolver questões padronizadas, como de vestibulares e concursos, já que há grande volume de material para treinamento. Os exames começam a tentar olhar e medir a IA como algo que se torna consciente – como em um conceito filosófico, explica Natália.
A especialista, porém, considera que esse cenário não deve ser avaliado por meio de testes de conhecimento humano, demandando outras dimensões de análise, como criatividade e adaptabilidade.
— O teste em si ainda nos mostra o quanto a inteligência artificial, da maneira como está desenvolvida até aqui, não consegue chegar a um nível de conhecimento que um humano chega — ressalta.
Humanos fizeram as perguntas, e as IAs não conseguiram responder adequadamente. Isso evidencia que a capacidade analítica do ser humano, em relação a alguns temas, ainda é maior do que a da inteligência artificial generativa dos grandes modelos de linguagem, frisa Natália.