Qwen3-235B-A22B ist das Flaggschiffmodell der Qwen3-Serie – entwickelt von Alibaba Cloud für den Einsatz in hochkomplexen, leistungsintensiven KI-Szenarien. Mit 235 Milliarden Parametern in der modernen A22B-Architektur gehört es zu den größten und fortschrittlichsten öffentlich zugänglichen Sprachmodellen überhaupt.
Das Modell kombiniert außergewöhnliche Sprachverarbeitungsfähigkeiten mit tiefem Kontextverständnis, präzisem Tool-Use und starker Multilingualität. Durch moderne Trainingsmethoden, inklusive RLHF und DPO, wurde Qwen3-235B-A22B gezielt auf Hilfsbereitschaft, Sicherheit und Skalierbarkeit optimiert – und steht unter Apache 2.0 Lizenz für den kommerziellen Einsatz bereit.
Qwen3-235B-A22B (Teil der Qwen3-Modellfamilie)
Qwen Team (Alibaba Group)
29. April 2025
Mixture-of-Experts (MoE) Causal Language Model auf Transformer-Basis.
Gesamt: 235 Milliarden, aktiviert pro Token: 22 Milliarden, ohne Embedding: 234 Milliarden
Qwen2 Tokenizer (Tiktoken-basiert), Vokabulargröße: 151.936. Kompatibel mit aktueller Hugging Face transformers Library (Chat-Template für Instruct/Chat-Varianten verfügbar).
94 Transformer-Layer
64 Query-Köpfe, 4 Key/Value-Köpfe (Grouped-Query Attention - GQA).
Gesamtzahl der Experten: 128, aktivierte Experten pro Token: 8
Nativ: 32.768 Token (32K), mit YaRN-Skalierung: Bis zu 131.072 Token
Die Qwen3 Serie umfasst verschiedene Modellgrößen, sowohl dichte als auch MoE-Modelle:
Verfügbare Varianten umfassen Basismodelle („Base“), instruktionsfeinabgestimmte Modelle („Instruct“) und Chat-Modelle („Chat“).
Gerne beraten wir Sie individuell dazu, welches KI-Modell zu Ihren Anforderungen passt. Vereinbaren Sie direkt ein unverbindliches Erstgespräch mit unseren KI-Experten und nutzen Sie das volle Potenzial von KI für Ihr Projekt!
Qwen3-235B-A22B wurde – wie alle Modelle der Qwen3-Serie – auf einem umfassenden, sorgfältig kuratierten Datensatz mit über 3,5 Billionen Token vortrainiert. Die Daten stammen aus einer vielfältigen Mischung öffentlich zugänglicher Webinhalte, Programmcode, Fachliteratur, Büchern und wissenschaftlichen Arbeiten. Ein mehrstufiger Aufbereitungsprozess stellte sicher, dass nur hochwertige, relevante und sichere Inhalte in das Training einflossen – mit dem Ziel, ein Modell mit maximaler Sprachkompetenz, Robustheit und Skalierbarkeit zu schaffen.
Im Anschluss an das Pretraining wurde das Modell für Instruct- und Chat-Anwendungen weiter verfeinert: Zunächst durch ein Supervised Fine-Tuning (SFT) auf umfangreichen Instruktionsdatensätzen, anschließend durch Reinforcement Learning from Human Feedback (RLHF). Dabei kam unter anderem Direct Preference Optimization (DPO) zum Einsatz, um das Modell gezielt auf menschliche Präferenzen, hilfreiches Verhalten und kontrollierbare Ausgabequalität auszurichten.
Ist Qwen3-235B-A22B das richtige KI-Modell für Ihren individuellen Anwendungsfall? Wir beraten Sie gerne umfassend und persönlich.
Herausragende Leistungsfähigkeit in Reasoning, Mathematik und Codegenerierung.
Exzellente Anpassung an menschliche Präferenzen für natürliche Konversationen.
Führende Fähigkeiten im Bereich Agentic Use und Tool-Calling.
Sehr starke mehrsprachige Unterstützung (über 100 Sprachen).
Möglichkeit zur Verarbeitung langer Kontexte mit YaRN (bis zu 131K Token).
„Thinking Mode“ für verbesserte Leistung bei komplexen Aufgaben.
Vollständig Open Source unter Apache 2.0 Lizenz (sowohl Code als auch Modellgewichte), was kommerzielle Nutzung ermöglicht.
Teil einer umfassenden Modellfamilie (Qwen3).
Extrem hohe Hardware-Anforderungen für Inferenz, die typischerweise nur in professionellen Umgebungen oder Cloud-Infrastrukturen verfügbar sind.
Komplexität der MoE-Architektur kann die Inferenz-Optimierung erschweren.
Standard-Nachteile von LLMs: Potenzial für Halluzinationen, Bias und mangelnde Transparenz.
Die Leistung bei kürzeren Texten kann potenziell beeinträchtigt werden, wenn statisches YaRN für lange Kontexte aktiviert ist.
Energieverbrauch ist aufgrund der Modellgröße und der benötigten Hardware beträchtlich.
Mit Qwen3-235B-A22B steht Ihnen eines der leistungsfähigsten Open-Source-Sprachmodelle weltweit zur Verfügung – ideal für komplexe Anwendungen, fortschrittliche Assistenzsysteme oder großskalige Forschungsvorhaben. Wir begleiten Sie bei Auswahl, Integration und Hosting – ob lokal, in Ihrer Cloud oder auf unserer sicheren GPU-Infrastruktur in Deutschland. Nutzen Sie unser Expertenwissen für die Umsetzung Ihrer KI-Strategie – effizient, sicher und zukunftsfähig.
Theoretisch ja, mit extremen Quantisierungsgraden (z.B. über llama.cpp GGUF) und sehr viel RAM (deutlich über 128GB). Die Performance wäre jedoch für interaktive Nutzung wahrscheinlich unzureichend. Primär ist dieses Modell für den GPU-beschleunigten Betrieb ausgelegt.
Für FP16-Inferenz werden mehrere GPUs mit insgesamt hunderten GB VRAM benötigt (z.B. 8 x NVIDIA H100 80GB, was 640GB VRAM entspricht). Genaue Zahlen hängen von der Konfiguration und Quantisierung ab. Selbst mit 4-Bit-Quantisierung ist der Bedarf noch sehr hoch.
Ja, sowohl der Code als auch die Modellgewichte von Qwen3-235B-A22B sind unter der Apache 2.0 Lizenz veröffentlicht, welche die kommerzielle Nutzung gestattet.
Das Modell unterstützt nativ 32K Token. Für längere Kontexte (bis zu 131K) kann die YaRN-Skalierungsmethode in kompatiblen Frameworks (wie transformers, vLLM, SGLang, llama.cpp) aktiviert werden. Beachten Sie die Hinweise zur potenziellen Leistungsbeeinträchtigung bei kürzeren Texten, wenn statisches YaRN verwendet wird.
Möchten Sie individuell beraten werden?
Unsere KI-Experten sind für Sie da!