DeepSeek lanza oficialmente el modo de reconocimiento de imágenes: basado en un marco de pensamiento de visualización, soporta análisis de escenas profundas y conversión de capturas de pantalla de UI a código HTML.
El modo de reconocimiento (Vision Mode) ya está disponible en la versión web y la App de DeepSeek, destacando habilidades de comprensión visual centradas en el análisis profundo de escenas, razonamiento lógico espacial y conversión de capturas de pantalla de UI a código HTML. La difícil deducción geométrica activa automáticamente el modelo de pensamiento profundo, basado en el marco de investigación del equipo de DeepSeek de "pensar con visualización primordial", co-publicado por Xiaokang Chen y las universidades de Peking y Tsinghua.
¿Por qué es importante? Este es un gran avance de producto de DeepSeek en el campo de la inferencia visual, lo que significa que la IA nacional ya tiene la capacidad de competir directamente con GPT-4o Vision en habilidades multimodales.
#DeepSeek #AI #人工智能 #大模型
El modo de reconocimiento (Vision Mode) ya está disponible en la versión web y la App de DeepSeek, destacando habilidades de comprensión visual centradas en el análisis profundo de escenas, razonamiento lógico espacial y conversión de capturas de pantalla de UI a código HTML. La difícil deducción geométrica activa automáticamente el modelo de pensamiento profundo, basado en el marco de investigación del equipo de DeepSeek de "pensar con visualización primordial", co-publicado por Xiaokang Chen y las universidades de Peking y Tsinghua.
¿Por qué es importante? Este es un gran avance de producto de DeepSeek en el campo de la inferencia visual, lo que significa que la IA nacional ya tiene la capacidad de competir directamente con GPT-4o Vision en habilidades multimodales.
#DeepSeek #AI #人工智能 #大模型