De acordo com a PANews, a OpenAI lançou um novo teste de referência chamado BrowseComp, projetado para avaliar a capacidade dos agentes de IA de encontrar informações de difícil acesso na internet. Este teste inclui 1.266 perguntas desafiadoras, com o objetivo de simular uma 'caça ao tesouro online' dentro de redes de informações complexas, onde as respostas são difíceis de encontrar, mas fáceis de verificar. As perguntas abrangem vários campos, incluindo cinema, tecnologia e história, e são significativamente mais difíceis do que testes existentes como o SimpleQA.
A comunidade aberta AIGC relata que este teste de referência é altamente desafiador, com os próprios modelos da OpenAI, GPT-4o e GPT-4.5, alcançando taxas de precisão de apenas 0,6% e 0,9%, respectivamente. Mesmo com o GPT-4o habilitado para navegador, a precisão atinge apenas 1,9%. No entanto, o novo modelo de agente da OpenAI, Deep Research, alcançou uma taxa de precisão muito mais alta de 51,5%.