De acordo com a BlockBeats, a OpenAI lançou um novo benchmark de avaliação de agentes de IA chamado PaperBench. Este benchmark, revelado às 1h UTC+8, se concentra na avaliação das capacidades de agentes de IA em áreas como busca, integração e execução. Ele requer a replicação dos principais artigos da Conferência Internacional de Aprendizado de Máquina de 2024, testando a compreensão do conteúdo, a escrita de código e a execução de experimentos pelos agentes.
Os dados de teste da OpenAI revelam que, embora renomados grandes modelos ainda não tenham superado os principais especialistas em Ph.D. em aprendizado de máquina, eles estão se mostrando benéficos na assistência ao aprendizado e à compreensão do conteúdo da pesquisa.