DeepSeek geht offiziell mit dem Bildmodus online: Basierend auf dem visuellen Primitives-Denkrahmen, unterstützt tiefgehende Szenenanalyse und UI-Screenshots in HTML-Code
DeepSeek hat den Bildmodus (Vision Mode) auf der Web- und App-Plattform eingeführt, wobei die visuelle Verständnisfähigkeit auf tiefgehende Szenenanalyse, räumliche logische Schlussfolgerungen und die Umwandlung von UI-Screenshots in HTML-Code fokussiert ist. Komplexe geometrische Ableitungen aktivieren automatisch das Deep-Thinking-Modell, das auf dem Forschungsrahmen des DeepSeek-Teams „Denkweise mit visuellen Primitives“ basiert, von Xiaokang Chen in Zusammenarbeit mit Peking-Universität und Tsinghua veröffentlicht.
Warum das wichtig ist: Dies ist ein bedeutender Produktdurchbruch für DeepSeek im Bereich der visuellen Schlussfolgerungen, was bedeutet, dass die einheimische AI nun die Fähigkeit hat, direkt mit GPT-4o Vision in der multimodalen Leistung zu konkurrieren.
#DeepSeek #AI #人工智能 #大模型
DeepSeek hat den Bildmodus (Vision Mode) auf der Web- und App-Plattform eingeführt, wobei die visuelle Verständnisfähigkeit auf tiefgehende Szenenanalyse, räumliche logische Schlussfolgerungen und die Umwandlung von UI-Screenshots in HTML-Code fokussiert ist. Komplexe geometrische Ableitungen aktivieren automatisch das Deep-Thinking-Modell, das auf dem Forschungsrahmen des DeepSeek-Teams „Denkweise mit visuellen Primitives“ basiert, von Xiaokang Chen in Zusammenarbeit mit Peking-Universität und Tsinghua veröffentlicht.
Warum das wichtig ist: Dies ist ein bedeutender Produktdurchbruch für DeepSeek im Bereich der visuellen Schlussfolgerungen, was bedeutet, dass die einheimische AI nun die Fähigkeit hat, direkt mit GPT-4o Vision in der multimodalen Leistung zu konkurrieren.
#DeepSeek #AI #人工智能 #大模型