Según PANews, Xiaomi ha anunciado el lanzamiento de su primer modelo de código abierto diseñado para el razonamiento, llamado MiMo-7B. El modelo ha demostrado un rendimiento superior en las evaluaciones de razonamiento matemático de AIME y programación de LiveCodeBench, superando al o1-mini de OpenAI y al Qwen-32B de Alibaba. MiMo-7B mejora las capacidades de razonamiento a través del preentrenamiento en datos de razonamiento a gran escala y el posterior aprendizaje por refuerzo, introduciendo algoritmos innovadores como la Recompensa Impulsada por la Dificultad de la Prueba. Lidera en potencial de aprendizaje por refuerzo entre modelos similares de 7B. Toda la serie ha sido puesta a disposición en Hugging Face, acompañada de un informe técnico detallado.