Selon Foresight News, OpenAI a lancé HealthBench, une nouvelle référence pour évaluer la performance de l'IA dans les environnements médicaux. Développé en collaboration avec plus de 250 médecins dans le monde, HealthBench comprend 5 000 dialogues de santé réels. La référence vise à évaluer les capacités des grands modèles de langage dans des scénarios de soins de santé et est maintenant disponible en open source sur GitHub.