DeepSeek-V3

Basismodell der R1-Serie – optimiert für Tool-Nutzung

Fokus auf Qualität und Breite

Das DeepSeek-V3 Modell im Überblick

DeepSeek-V3 ist ein leistungsstarkes Open-Source-Sprachmodell von DeepSeek-AI, das im März 2025 veröffentlicht wurde. Es kombiniert sorgfältig kuratierte Trainingsdaten mit einem modularen Architekturansatz, der sowohl qualitativ hochwertige Antworten als auch eine starke Wissensbasis garantiert – und das bei hoher Effizienz. Die V3-Serie richtet sich an Entwickler und Unternehmen, die auf ein robustes, vielseitig einsetzbares LLM mit transparenten Lizenzbedingungen setzen möchten.

Name:

DeepSeek-V3

Entwickler:

DeepSeek-AI

Veröffentlichung:

Februar 2025 (Technischer Bericht)

Lizenz:

Die Modell-Checkpoints sind über das GitHub-Repository verfügbar. Die genauen Lizenzbedingungen für die kommerzielle Nutzung sind im Repository festgelegt.

Verfügbarkeit:

Hugging Face oder GitHub Repository

Modelltyp:

Mixture-of-Experts (MoE) Sprachmodell, optimiert für hohe Leistung bei gleichzeitig effizientem Training und Inferenz.

Parameter:

Gesamt: 671 Milliarden, aktiviert pro Token: 37 Milliarden

Besonderheiten des DeepSeek-V3 Modells

Multi-head Latent Attention (MLA)

Reduziert den Key-Value (KV) Cache während der Inferenz drastisch durch eine Low-Rank-Kompression, was die Effizienz bei langen Kontexten erhöht.

DeepSeekMoE

Eine MoE-Architektur, die auf „feinkörnige“ Experten setzt (256 geroutete + 1 geteilter Experte pro MoE-Layer) und eine kosteneffiziente Skalierung ermöglicht.

Auxiliary-Loss-Free Load Balancing

Eine innovative, verlustfreie Methode zum Lastausgleich der Experten, die Leistungseinbußen durch herkömmliche Balancing-Verluste vermeidet.

Spezialitäten des DeepSeek-V3 Modells

Multi-Token Prediction (MTP)

Das Modell wird darauf trainiert, nicht nur das nächste, sondern mehrere zukünftige Token vorherzusagen. Dies verbessert die Gesamtleistung und kann für spekulatives Decoding genutzt werden, um die Inferenz zu beschleunigen.

Extreme Trainingseffizienz

Durch eine Co-Optimierung von Algorithmen (FP8-Training), Framework (DualPipe) und Hardware wurde das Modell mit sehr geringen Kosten trainiert (nur 2.788 Mio. H800-GPU-Stunden).

Wissensdestillation

Die Chat-Version des Modells wurde durch Destillation von Reasoning-Fähigkeiten der spezialisierten DeepSeek-R1-Modellreihe verfeinert, um eine Balance zwischen hoher Genauigkeit und prägnanten Antworten zu finden.

Langer Kontext

Das Modell unterstützt nach einer Erweiterungsphase Kontexte von bis zu 128.000 Token.

Individuelle KI-Beratung

Ist DeepSeek-V3 das passende Modell für Sie?

Gerne beraten wir Sie individuell dazu, welches KI-Modell zu Ihren Anforderungen passt. Vereinbaren Sie direkt ein unverbindliches Erstgespräch mit unseren KI-Experten und nutzen Sie das volle Potenzial von KI für Ihr Projekt!

Die Post-Training Pipeline für DeepSeek-V3

Trainingsdaten & Trainingsprozess

Pre-Training Daten

Trainiert auf 14.8 Billionen hochwertigen und diversen Token. Der Datensatz wurde mit einem höheren Anteil an Mathematik- und Programmierdaten sowie einer erweiterten mehrsprachigen Abdeckung angereichert.

Pre-Training Prozess

FP8 Mixed Precision Training: Als eines der ersten Modelle dieser Größenordnung wurde DeepSeek-V3 erfolgreich mit 8-Bit-Gleitkommazahlen (FP8) trainiert, was die Trainingsgeschwindigkeit verdoppelt und den Speicherbedarf reduziert.
Fill-in-Middle (FIM): 10 % der Trainingsdaten wurden im FIM-Format strukturiert, um das Modell für Code-Vervollständigungsaufgaben zu optimieren.

Post-Training (SFT & RL)

Supervised Fine-Tuning (SFT): Feinabstimmung auf einem Datensatz von 1.5 Mio. Instanzen, der Reasoning-Daten aus dem DeepSeek-R1-Modell und Non-Reasoning-Daten umfasst.
Reinforcement Learning (RL): Einsatz von Group Relative Policy Optimization (GRPO) mit einer Kombination aus regelbasierten Belohnungen (für Mathe/Code) und modellbasierten Belohnungen (für allgemeine Aufgaben), um das Modell an menschliche Präferenzen anzupassen.

Hardware-Anforderungen (Inferenz)

Die Inferenz erfordert eine erhebliche GPU-Infrastruktur. Die empfohlene Mindesteinheit für das Prefilling besteht aus 32 GPUs auf 4 Knoten.
Die Inferenz für das Decoding ist auf 320 GPUs auf 40 Knoten ausgelegt, um niedrige Latenz und hohen Durchsatz zu gewährleisten.
Diese Anforderungen machen das Modell primär für Unternehmen und Forschungseinrichtungen mit großen Clustern einsetzbar.

Leistungsstark & effizient

Empfohlene Anwendungsfälle für DeepSeek-V3

Ist DeepSeek-V3 das richtige KI-Modell für Ihren individuellen Anwendungsfall? Wir beraten Sie gerne umfassend und persönlich.

Hochkomplexe Mathematik- und Programmieraufgaben

Setzt neue Maßstäbe für Nicht-Reasoning-Modelle.

Wissensintensive Aufgaben

Übertrifft andere Open-Source-Modelle bei Benchmarks wie MMLU-Pro und GPQA-Diamond.

Verarbeitung und Analyse sehr langer Dokumente

Bis zu 128K Token können verarbeitet werden.

Faktische Frage-Antwort-Systeme

Besondere Stärke im Chinesischen.

Hoher Leistung bei hoher Effizienz

Entwicklung von KI-Systemen, die eine Balance zwischen hoher Leistung und Effizienz erfordern.

DeepSeek-V3

Stärken & Schwächen des DeepSeek-V3 Modells

Stärken

Stärkstes Open-Source-Modell: Übertrifft zum Zeitpunkt der Veröffentlichung andere Open-Source-Modelle und ist mit führenden geschlossenen Modellen wie GPT-4o und Claude-3.5-Sonnet konkurrenzfähig.

Herausragende Effizienz: Die Kombination aus MLA, DeepSeekMoE und FP8-Training führt zu extrem niedrigen Trainingskosten für ein Modell dieser Größenordnung.

Innovative Architektur: Die verlustfreie Lastausgleichsstrategie und Multi-Token-Vorhersage sind neuartige Beiträge zur LLM-Entwicklung.

Exzellente Code- und Mathe-Fähigkeiten: Führend unter allen vergleichbaren Modellen in diesen Domänen.

Sehr stabile Trainingsdynamik: Das gesamte Pre-Training wurde ohne einen einzigen Absturz oder Rollback abgeschlossen.

Schwächen & Einschränkungen

Hohe Inferenz-Anforderungen: Der Betrieb des Modells erfordert eine große und komplexe GPU-Infrastruktur, was die Zugänglichkeit für kleinere Teams oder Einzelpersonen einschränkt.

Inferenzgeschwindigkeit: Obwohl verbessert, gibt es noch Potenzial zur weiteren Optimierung der Latenz im Decoding-Stadium.

Tokenizer-Bias: Der verwendete Tokenizer kann bei bestimmten Prompt-Strukturen (z.B. mehrzeilige Prompts ohne Zeilenumbruch am Ende) zu einem „Token Boundary Bias“ führen, auch wenn Gegenmaßnahmen ergriffen wurden.

Mit dem richtigen Modell Ergebnisse maximieren

Bereit für leistungsfähige Open-Source-KI?

Nutzen Sie DeepSeek-V3 für produktive Sprachverarbeitung, Prototyping oder eigene Modellentwicklung – leistungsstark, offen und sofort einsatzbereit.  Unsere Experten beraten Sie zur optimalen Nutzung und helfen bei Hosting, Anpassung oder Integration in Ihre Systeme.