Mistral ha anunciado el lanzamiento de un nuevo modelo de IA de audio llamado Voxtral. La empresa francesa de IA declaró que el modelo está orientado a las empresas y se considera la primera familia de modelos de lenguaje grande (LLMs) centrados en la IA de audio.
Según la empresa francesa de IA, Voxtral está diseñado para proporcionar inteligencia práctica del habla en aplicaciones del mundo real. El modelo de audio de IA supera a Whisper large-v3, que es uno de los principales modelos de transcripción de audio de código abierto.
Voxtral está impulsado por Mistral Small 3.1
Voxtral está impulsado por el modelo de lenguaje grande (LLM) Mistral Small 3.1. El modelo de IA de audio puede entender múltiples idiomas, como inglés, francés, español, portugués, italiano, alemán, neerlandés, hindi y más.
El modelo de audio es capaz de transcribir hasta 30 minutos de audio. Además, Voxtral puede entender hasta 40 minutos de audio, lo que facilita a los usuarios conversar y hacer preguntas relevantes. Los usuarios también pueden pedirle que genere resúmenes de texto del archivo de audio o proporcionar análisis e información detallada. También pueden ejecutar otras acciones, como ejecutar funciones a través de una llamada API.
Mistral ofrece los “modelos de comprensión del habla” de Voxtral en dos variaciones llamadas Voxtral Small y Voxtral Mini. Ambos modelos son capaces de interactuar con indicaciones basadas en el habla o una combinación de indicaciones de audio y texto.
El más poderoso de los dos modelos, Voxtral Small, cuenta con 24B de parámetros, ideal para implementaciones a escala de producción. Mistral escribió que “Voxtral Small es competitivo con GPT-4o-mini y Gemini 2.5 Flash en todas las tareas.”
Fuente: Mistral AI.
Voxtral Mini es una opción más ligera con 3B de parámetros, lo que lo convierte en una opción sólida para implementaciones locales y de borde. Su versión API, Voxtral Mini Transcribe, no solo es rentable, sino que también supera a Whisper de OpenAI, a menos de la mitad del precio.
Tanto Voxtral Small (24B) como Voxtral Mini (3B) están disponibles para descarga y alojamiento local desde Hugging Face. Los desarrolladores también pueden integrar los modelos de audio mediante una sola llamada API en cualquier aplicación. La tarifa comienza en $0.001 por minuto, lo que hace que la transcripción sea escalable. Mistral declaró que Voxtral estará disponible en Le Chat en la aplicación web o en la aplicación móvil dentro de un par de semanas.
Mistral es una de las principales empresas de inteligencia artificial en Europa. Según informes, la compañía, que fue fundada en 2023, ha recaudado más de 1 mil millones de euros (alrededor de 1.2 mil millones de dólares) de firmas conocidas como Andreessen Horowitz, Nvidia, Samsung y Salesforce.
Academia Cryptopolitan: ¿Quieres hacer crecer tu dinero en 2025? Aprende cómo hacerlo con DeFi en nuestra próxima webclass. Reserva tu lugar