Einblicke von BN热点新闻(@BN_Hot_News)

DeepSeek geht offiziell mit dem Bildmodus online: Basierend auf dem visuellen Primitives-Denkrahmen, unterstützt tiefgehende Szenenanalyse und UI-Screenshots in HTML-Code

DeepSeek hat den Bildmodus (Vision Mode) auf der Web- und App-Plattform eingeführt, wobei die visuelle Verständnisfähigkeit auf tiefgehende Szenenanalyse, räumliche logische Schlussfolgerungen und die Umwandlung von UI-Screenshots in HTML-Code fokussiert ist. Komplexe geometrische Ableitungen aktivieren automatisch das Deep-Thinking-Modell, das auf dem Forschungsrahmen des DeepSeek-Teams „Denkweise mit visuellen Primitives“ basiert, von Xiaokang Chen in Zusammenarbeit mit Peking-Universität und Tsinghua veröffentlicht.

Warum das wichtig ist: Dies ist ein bedeutender Produktdurchbruch für DeepSeek im Bereich der visuellen Schlussfolgerungen, was bedeutet, dass die einheimische AI nun die Fähigkeit hat, direkt mit GPT-4o Vision in der multimodalen Leistung zu konkurrieren.

#DeepSeek #AI #人工智能 #大模型