OpenAI Introduz PaperBench para Avaliação de Agentes de IA

--・Conta oficial verificada da Binance

De acordo com a BlockBeats, a OpenAI lançou um novo benchmark de avaliação de agentes de IA chamado PaperBench. Este benchmark, revelado às 1h UTC+8, se concentra na avaliação das capacidades de agentes de IA em áreas como busca, integração e execução. Ele requer a replicação dos principais artigos da Conferência Internacional de Aprendizado de Máquina de 2024, testando a compreensão do conteúdo, a escrita de código e a execução de experimentos pelos agentes.
Os dados de teste da OpenAI revelam que, embora renomados grandes modelos ainda não tenham superado os principais especialistas em Ph.D. em aprendizado de máquina, eles estão se mostrando benéficos na assistência ao aprendizado e à compreensão do conteúdo da pesquisa.

Aviso Legal: inclui opiniões de terceiros. Não se trata de aconselhamento financeiro. Poderá incluir conteúdos patrocinados. Consulta os Termos e Condições.

Notícias Relacionadas

OpenRouter Secures $40 Million to Enhance AI Model Platform

SoftBank CEO Announces Major Investment in OpenAI

AI Activity on Blockchains Sees Significant Growth in 2025

Meta Recruits OpenAI Researchers Amid Talent Competition

Done.AI Initiates Blockchain Infrastructure Assessment for AI Financial Platform

OpenAI Introduz PaperBench para Avaliação de Agentes de IA

Últimas Notícias