KI-Tools
12 Minuten
29.3.2026

Open-Source-KI-Modelle 2026: DeepSeek, Qwen, Llama & Co. im grossen Vergleich

Vor zwei Jahren waren Open-Weight-Modelle eine akademische Kuriosität. Heute betreiben sie Produktionssysteme bei Unternehmen, die ihre Daten nicht an fremde APIs senden wollen. Der Wandel vollzog sich schneller, als die meisten Beobachter erwartet hatten – und er hat eine klare geografische Dimension: China hat die USA beim monatlichen Download-Volumen auf Hugging Face überholt, und chinesische Modelle machen inzwischen 41 Prozent aller Downloads auf der Plattform aus.

Dieser Artikel gibt einen strukturierten Überblick über die wichtigsten Open-Source-KI-Modelle Stand März 2026, mit verifizierten Benchmark-Zahlen, Lizenzvergleich, Hardware-Anforderungen und einer konkreten Entscheidungshilfe für Schweizer Unternehmen.

Die Landschaft hat sich fundamental verändert

Der Hugging Face Spring 2026 Report dokumentiert, was in der Community längst spürbar ist: Die Zahl der Nutzer hat sich auf 13 Millionen nahezu verdoppelt, über 2 Millionen öffentliche Modelle sind verfügbar, und mehr als 500.000 öffentliche Datensätze stehen zum Download bereit. Entscheidend ist dabei nicht das Wachstum an sich, sondern seine Qualität: Nutzer konsumieren nicht mehr nur vortrainierte Systeme, sondern erstellen aktiv Fine-Tuned-Modelle, Adapter, Benchmarks und Anwendungen.

„The ecosystem remains highly concentrated. Approximately half of the models on Hugging Face have less than 200 total downloads, and the top 200 most downloaded models, or 0.01% of models, comprise 49.6% of all downloads." – Hugging Face, März 2026

Gleichzeitig hat sich die Machtstruktur verschoben: Der Industrieanteil an der Gesamtentwicklung fiel von rund 70 Prozent vor 2022 auf etwa 37 Prozent im Jahr 2025. Unabhängige Entwickler und kleine Kollektive stiegen von 17 auf 39 Prozent aller Downloads – sie steuern heute einen bedeutenden Teil dessen, was typische Nutzer ausführen können.

Die wichtigsten Modelle im Überblick

Qwen 3.5 (Alibaba) – Der vielseitigste Allrounder

Alibabas Qwen-Familie ist Stand März 2026 das vielseitigste Open-Source-Modell-Ökosystem. Das Flaggschiff-Modell Qwen 3.5 397B-A17B aktiviert bei der Inferenz nur 17 Milliarden Parameter pro Token, obwohl es insgesamt 397 Milliarden Parameter umfasst – ein Mixture-of-Experts-Ansatz, der grosse Modellqualität zu kleinen Inferenzkosten ermöglicht.

Die wichtigsten Neuerungen gegenüber Qwen 3: ein 256K-Token-Kontextfenster (doppelt so gross wie zuvor), native Multimodalität (Text und Bild gemeinsam trainiert), Unterstützung für 201 Sprachen sowie deutlich verbesserte Agentic-Coding-Fähigkeiten. Das 27B-Dense-Modell ist besonders interessant für Teams, die hohe Qualität ohne die Infrastrukturkomplexität eines MoE-Systems wünschen.

Ein Alleinstellungsmerkmal der Qwen-Familie ist der schaltbare Denkmodus: Chain-of-Thought-Reasoning lässt sich bei Bedarf aktivieren (für Mathematik, Logik, Coding) und für einfachere Anfragen deaktivieren. Alle Qwen 3- und 3.5-Modelle sind unter Apache 2.0 lizenziert – ohne Nutzungsbeschränkungen.

Benchmark-Highlights: Qwen 3 235B erreicht 85,7% auf AIME '24 und 77,2% auf GPQA Diamond – beides Spitzenwerte unter Open-Weight-Modellen.

DeepSeek V3.2 und R1 (DeepSeek) – Der Reasoning-Spezialist

DeepSeek sorgte im Januar 2025 mit zwei Modellen unter MIT-Lizenz für Aufsehen. V3 ist ein Allzweck-671B-MoE-Modell (37B aktive Parameter), während R1 dieselbe Architektur nutzt, aber auf schrittweises Reasoning spezialisiert ist. R1s 97,3% auf MATH-500 ist der höchste Wert eines Open-Weight-Modells auf diesem Benchmark – nahezu perfekt.

DeepSeek V3.2, veröffentlicht im Dezember 2025, ist das erste Modell, das Reasoning direkt in Tool-Use-Workflows integriert. Die Begleitvariante V3.2-Speciale erzielte Goldmedaillen bei IMO 2025, IOI 2025 und ICPC World Finals.

Wichtiger Hinweis für Schweizer Unternehmen: DeepSeek ist ein chinesisches Unternehmen. Wer mit dem Modell über die API arbeitet, sendet Daten an Server in China – problematisch unter revDSG. Wer das Modell lokal hostet, umgeht dieses Problem vollständig.

Llama 4 (Meta) – Der Kontextriese

Metas Llama 4-Familie, veröffentlicht im April 2025, führte erstmals MoE-Architektur in die Llama-Linie ein. Scouts Aushängeschild ist sein 10-Millionen-Token-Kontextfenster, das längste aller Open-Weight-Modelle mit grossem Abstand. Maverick mit 128 Experten und einem 1M-Token-Fenster zielt auf Produktionsdeployments. Beide Modelle sind nativ multimodal.

Kritischer Hinweis für europäische Nutzer: Die Acceptable Use Policy von Llama 4 schränkt multimodale Modellrechte für Personen und Unternehmen mit Sitz in der EU explizit ein. Da alle Llama 4-Modelle nativ multimodal sind, betrifft dies de facto die gesamte Llama 4-Familie in der EU. Llama 3.3 (70B Dense, nur Text) bleibt von dieser Einschränkung unberührt.

GLM-5 (Zhipu AI) – Der Coding-Champion

GLM-5, im Februar 2026 vom chinesischen KI-Labor Zhipu AI veröffentlicht, ist eine der bedeutendsten Open-Source-Veröffentlichungen des Jahres. Mit 744B Gesamtparametern und 40B aktiven Parametern ist es ein grosses MoE-Modell unter MIT-Lizenz. Das Modell erreicht 77,8% auf SWE-bench Verified – der stärkste Coding-Benchmark-Wert unter allen Open-Weight-Modellen. Die gesamte Trainingsinfrastruktur basierte auf 100.000 Huawei Ascend 910B-Chips ohne US-amerikanische Hardware.

Mistral Small 4 (Mistral AI) – Der Effizienz-Meister

Mistral Small 4, im März 2026 veröffentlicht, kombiniert Instruction-Following, Reasoning und Multimodalität in einem einzigen Modell mit nur 6B aktiven Parametern. Es unterstützt ein 256K-Token-Kontextfenster und wird unter Apache 2.0 geliefert – ein bedeutender Lizenzwechsel gegenüber früheren restriktiven Mistral-Lizenzen.

Gemma 3 (Google) – Der Edge-Spezialist

Die 4B-Variante benötigt nur 4,2 GB RAM und antwortet in 94 Sekunden auf CPU – das beste Effizienz-Verhältnis aller getesteten Modelle. Das 27B-Flaggschiff erreicht 78,6% auf MMLU auf einer einzelnen H100-GPU. Alle Gemma 3-Modelle ab 4B unterstützen multimodale Eingabe.

Phi-4 (Microsoft) – Der Spezialist für Reasoning auf kleiner Hardware

Phi-4 Reasoning Vision (15B), veröffentlicht am 4. März 2026, fügt Bildverständnis zur Reasoning-Pipeline hinzu. Das Modell erkennt selbst, wann tiefes Reasoning notwendig ist und wann nicht. Alle Phi-4-Varianten sind unter MIT lizenziert.

Grosse Vergleichstabelle

ModellEntwicklerGes. ParameterAktive Param.ArchitekturKontextfensterMultimodalLizenzRelease
Qwen 3.5 397B-A17BAlibaba397B17BMoE256KText + BildApache 2.0Feb 2026
Qwen 3.5 27BAlibaba27B27BDense256KText + BildApache 2.0Feb 2026
GLM-5Zhipu AI744B40BMoE205KText + BildMITFeb 2026
DeepSeek V3.2DeepSeek671B37BMoE128KNeinMITDez 2025
DeepSeek R1DeepSeek671B37BMoE128KNeinMITJan 2025
Llama 4 ScoutMeta109B17BMoE10MText + BildLlama 4 CommunityApr 2025
Llama 4 MaverickMeta400B17BMoE1MText + BildLlama 4 CommunityApr 2025
Mistral Small 4Mistral AI119B6BMoE256KText + BildApache 2.0Mär 2026
Gemma 3 27BGoogle27B27BDense128KText + BildGemmaMär 2025
Gemma 3 4BGoogle4B4BDense128KText + BildGemmaMär 2025
Phi-4 Reasoning VisionMicrosoft15B15BDense16KText + BildMITMär 2026
Phi-4 MiniMicrosoft3.8B3.8BDense128KNeinMITJan 2025

Benchmark-Vergleich

ModellMMLUGPQA DiamondAIME '24MATH-500SWE-bench Verified
Qwen 3 235B77,2%85,7%
DeepSeek R171,5%79,8%97,3%
GLM-577,8%
Llama 4 Maverick85,5%69,8%
Gemma 3 27B78,6%50,0%

Interpretation: Qwen 3 235B führt bei Reasoning und Mathematik. DeepSeek R1 dominiert MATH-500 mit nahezu perfekten 97,3%. GLM-5 ist der stärkste Open-Weight-Coder (77,8% SWE-bench). Llama 4 Maverick hat den höchsten MMLU-Wert (85,5%).

Lizenzvergleich

LizenzModelleKommerzielle NutzungWichtigste Einschränkungen
Apache 2.0Qwen 3/3.5, Mistral Small 4Ja, unbeschränktKeine
MITDeepSeek V3/V3.2/R1, Phi-4, GLM-5Ja, unbeschränktKeine
Llama 4 CommunityLlama 4 Scout, Llama 4 MaverickJa, unter 700M MAUEU-Multimodal-Einschränkungen
GemmaGemma 3 (alle Grössen)Ja (nach Zustimmung)Google-Nutzungsbedingungen

Für Schweizer Unternehmen, die maximale Lizenzfreiheit benötigen, sind Qwen 3/3.5 (Apache 2.0), DeepSeek (MIT) und GLM-5 (MIT) die sichersten Optionen.

Hardware-Anforderungen für lokales Hosting

ModellFestplatteRAM-NutzungAntwortzeit (CPU)
Llama 3.2 3B2,0 GB11,4 GB88s
Gemma 3 4B3,3 GB4,2 GB94s
Phi-4 Mini 3.8B2,5 GB8,9 GB97s
Mistral 7B4,4 GB7,4 GB125s
Qwen 3 8B5,2 GB5,8 GB433s
DeepSeek R1 8B5,2 GB5,8 GB433s

Gemma 3 4B sticht durch seine RAM-Effizienz von nur 4,2 GB hervor – ideal für speicherbeschränkte Umgebungen.

Schweizer Kontext: Datenschutz, Souveränität und Compliance

Für Schweizer Unternehmen ist die Frage, ob ein KI-Modell lokal oder über eine API betrieben wird, keine technische Nebensache – sie ist eine Compliance-Frage.

Das revDSG (revidiertes Datenschutzgesetz) verlangt bei der Übermittlung von Personendaten ins Ausland entweder Standardvertragsklauseln oder eine Angemessenheitsentscheidung des Bundes. Wer Kundendaten oder Mitarbeiterdaten über eine US- oder chinesische API verarbeitet, muss dies sorgfältig dokumentieren.

FINMA-regulierte Institute (Banken und Versicherungen) unterliegen zusätzlichen Anforderungen an Datenlokalisierung und Auslagerungsmanagement. Für diese Unternehmen ist lokales Hosting von Open-Source-Modellen nicht nur eine Option, sondern oft die einzige compliant Lösung.

Der Hugging Face Spring 2026 Report erwähnt explizit die Swiss AI-Initiative als Beispiel für nationale KI-Souveränität. Open-Weight-Modelle erlauben es Regierungen und öffentlichen Institutionen, Systeme auf lokalen Daten unter nationalen Rechtsrahmen zu verfeinern.

Entscheidungshilfe: Welches Modell für welchen Zweck?

  • Reasoning und Mathematik: DeepSeek R1 (97,3% MATH-500) oder Qwen 3 235B (85,7% AIME '24)
  • Allgemeiner Chat und Assistenz: Qwen 3.5 397B-A17B oder Llama 4 Maverick
  • Coding und Software Engineering: GLM-5 (77,8% SWE-bench) oder DeepSeek V3.2-Speciale
  • Mehrsprachige Anwendungen: Qwen 3.5 (201 Sprachen) oder Mistral Large 3 (80+ Sprachen)
  • Edge und Mobile: Gemma 3 4B (4,2 GB RAM) oder Gemma 3 1B
  • Langer Kontext: Llama 4 Scout (10M Tokens) ist unübertroffen
  • Maximale Lizenzfreiheit in der Schweiz: Qwen 3/3.5 (Apache 2.0), DeepSeek (MIT) oder GLM-5 (MIT)

Was kommt als Nächstes?

DeepSeek V4 wird für Q2 oder Q3 2026 erwartet – geschätzt rund 1 Billion Parameter, 1M-Token-Kontext und native Multimodalität. Llama 4 Behemoth (geschätzt 2 Billionen Gesamtparameter) wurde von Meta nach internen Evaluierungen pausiert. Grok 3 (xAI): Elon Musk bestätigte Pläne zur Open-Source-Veröffentlichung, der ursprünglich für Februar angekündigte Termin ist jedoch verstrichen.

Fazit: Open Source hat die Qualitätslücke geschlossen

Die Botschaft des Jahres 2026 ist eindeutig: Open-Source-KI-Modelle haben die Qualitätslücke zu proprietären Systemen in den meisten Anwendungsbereichen geschlossen. Modelle wie Qwen 3.5, DeepSeek V3.2 und GLM-5 konkurrieren direkt mit GPT-4o und Claude Sonnet – zu null Lizenzkosten und mit der Möglichkeit des vollständigen lokalen Betriebs.

Für Schweizer Unternehmen bietet diese Entwicklung eine strategische Chance: Wer heute in den Aufbau von Kompetenz im Bereich lokaler Open-Source-Deployments investiert, reduziert seine Abhängigkeit von einzelnen Anbietern, senkt langfristig die Kosten und gewinnt die Kontrolle über seine Daten zurück – ein entscheidender Vorteil in einem regulatorischen Umfeld, das Datensouveränität zunehmend einfordert.

Die Frage ist nicht mehr, ob Open-Source-KI gut genug ist. Die Frage ist, ob Ihr Unternehmen bereit ist, die Infrastruktur aufzubauen, die nötig ist, um davon zu profitieren.

Artikel teilen

Cookie-Einstellungen

Wir verwenden Cookies und ähnliche Technologien, um die Nutzung unserer Website zu analysieren und Ihnen ein besseres Erlebnis zu bieten. Mit Ihrer Zustimmung verwenden wir Google Analytics, um anonymisierte Statistiken über die Websitenutzung zu sammeln. Sie können Ihre Einwilligung jederzeit widerrufen.