De acordo com a PANews, a Xiaomi anunciou o lançamento de seu primeiro modelo de código aberto projetado para raciocínio, chamado MiMo-7B. O modelo demonstrou desempenho superior em avaliações de raciocínio matemático AIME e programação LiveCodeBench, superando o o1-mini da OpenAI e o Qwen-32B da Alibaba. O MiMo-7B melhora as capacidades de raciocínio através de pré-treinamento em dados de raciocínio em larga escala e posterior aprendizado por reforço, introduzindo algoritmos inovadores como Test Difficulty Driven Reward. Ele lidera em potencial de aprendizado por reforço entre modelos semelhantes de 7B. Toda a série foi disponibilizada no Hugging Face, acompanhada por um relatório técnico detalhado.