De acordo com a PANews, a equipe Qwen anunciou o lançamento de código aberto do modelo Qwen2.5-VL-32B-Instruct, apresentando 32 bilhões de parâmetros. Este modelo demonstra desempenho excepcional em tarefas como compreensão de imagens, raciocínio matemático e geração de texto. Aprimorado por meio de aprendizado por reforço, as respostas do modelo se alinham mais de perto com as preferências humanas, superando o modelo 72B lançado anteriormente em avaliações multimodais como MMMU e MathVista.
O modelo 32B introduz várias melhorias em relação à série Qwen2.5-VL anterior. Ele oferece respostas que correspondem melhor às preferências subjetivas humanas, ajustando o estilo de saída para respostas mais detalhadas, bem formatadas e alinhadas ao ser humano. Além disso, as capacidades de raciocínio matemático do modelo melhoraram significativamente, aumentando a precisão na resolução de problemas matemáticos complexos. Em termos de compreensão e raciocínio de imagem, o modelo exibe maior precisão e análise refinada em tarefas que envolvem análise de imagem, reconhecimento de conteúdo e dedução lógica visual.