MiMo通過大規模推理數據預訓練與強化學習後訓練聯動提升推理能力,提出Test Difficulty Driven Reward等創新算法,並在同類7B模型中強化學習潛力領先。全系列已開源至Hugging Face,相關技術報告同步發佈。