Согласно PANews, Xiaomi объявила о выпуске своей первой модели с открытым исходным кодом, предназначенной для рассуждений, под названием MiMo-7B. Модель продемонстрировала превосходные результаты в математическом рассуждении AIME и оценках программирования LiveCodeBench, опередив o1-mini от OpenAI и Qwen-32B от Alibaba. MiMo-7B улучшает способности к рассуждениям благодаря предварительной тренировке на больших объемах данных для рассуждений и последующему обучению с подкреплением, вводя инновационные алгоритмы, такие как Награда, основанная на сложности теста. Она лидирует по потенциалу обучения с подкреплением среди аналогичных моделей 7B. Вся серия доступна на Hugging Face, сопровождаемая подробным техническим отчетом.