Vor zwei Jahren waren Open-Weight-Modelle eine akademische Kuriosität. Heute betreiben sie Produktionssysteme bei Unternehmen, die ihre Daten nicht an fremde APIs senden wollen. Der Wandel vollzog sich schneller, als die meisten Beobachter erwartet hatten – und er hat eine klare geografische Dimension: China hat die USA beim monatlichen Download-Volumen auf Hugging Face überholt, und chinesische Modelle machen inzwischen 41 Prozent aller Downloads auf der Plattform aus.
Dieser Artikel gibt einen strukturierten Überblick über die wichtigsten Open-Source-KI-Modelle Stand März 2026, mit verifizierten Benchmark-Zahlen, Lizenzvergleich, Hardware-Anforderungen und einer konkreten Entscheidungshilfe für Schweizer Unternehmen.
Die Landschaft hat sich fundamental verändert
Der Hugging Face Spring 2026 Report dokumentiert, was in der Community längst spürbar ist: Die Zahl der Nutzer hat sich auf 13 Millionen nahezu verdoppelt, über 2 Millionen öffentliche Modelle sind verfügbar, und mehr als 500.000 öffentliche Datensätze stehen zum Download bereit. Entscheidend ist dabei nicht das Wachstum an sich, sondern seine Qualität: Nutzer konsumieren nicht mehr nur vortrainierte Systeme, sondern erstellen aktiv Fine-Tuned-Modelle, Adapter, Benchmarks und Anwendungen.
„The ecosystem remains highly concentrated. Approximately half of the models on Hugging Face have less than 200 total downloads, and the top 200 most downloaded models, or 0.01% of models, comprise 49.6% of all downloads." – Hugging Face, März 2026
Gleichzeitig hat sich die Machtstruktur verschoben: Der Industrieanteil an der Gesamtentwicklung fiel von rund 70 Prozent vor 2022 auf etwa 37 Prozent im Jahr 2025. Unabhängige Entwickler und kleine Kollektive stiegen von 17 auf 39 Prozent aller Downloads – sie steuern heute einen bedeutenden Teil dessen, was typische Nutzer ausführen können.
Die wichtigsten Modelle im Überblick
Qwen 3.5 (Alibaba) – Der vielseitigste Allrounder
Alibabas Qwen-Familie ist Stand März 2026 das vielseitigste Open-Source-Modell-Ökosystem. Das Flaggschiff-Modell Qwen 3.5 397B-A17B aktiviert bei der Inferenz nur 17 Milliarden Parameter pro Token, obwohl es insgesamt 397 Milliarden Parameter umfasst – ein Mixture-of-Experts-Ansatz, der grosse Modellqualität zu kleinen Inferenzkosten ermöglicht.
Die wichtigsten Neuerungen gegenüber Qwen 3: ein 256K-Token-Kontextfenster (doppelt so gross wie zuvor), native Multimodalität (Text und Bild gemeinsam trainiert), Unterstützung für 201 Sprachen sowie deutlich verbesserte Agentic-Coding-Fähigkeiten. Das 27B-Dense-Modell ist besonders interessant für Teams, die hohe Qualität ohne die Infrastrukturkomplexität eines MoE-Systems wünschen.
Ein Alleinstellungsmerkmal der Qwen-Familie ist der schaltbare Denkmodus: Chain-of-Thought-Reasoning lässt sich bei Bedarf aktivieren (für Mathematik, Logik, Coding) und für einfachere Anfragen deaktivieren. Alle Qwen 3- und 3.5-Modelle sind unter Apache 2.0 lizenziert – ohne Nutzungsbeschränkungen.
Benchmark-Highlights: Qwen 3 235B erreicht 85,7% auf AIME '24 und 77,2% auf GPQA Diamond – beides Spitzenwerte unter Open-Weight-Modellen.
DeepSeek V3.2 und R1 (DeepSeek) – Der Reasoning-Spezialist
DeepSeek sorgte im Januar 2025 mit zwei Modellen unter MIT-Lizenz für Aufsehen. V3 ist ein Allzweck-671B-MoE-Modell (37B aktive Parameter), während R1 dieselbe Architektur nutzt, aber auf schrittweises Reasoning spezialisiert ist. R1s 97,3% auf MATH-500 ist der höchste Wert eines Open-Weight-Modells auf diesem Benchmark – nahezu perfekt.
DeepSeek V3.2, veröffentlicht im Dezember 2025, ist das erste Modell, das Reasoning direkt in Tool-Use-Workflows integriert. Die Begleitvariante V3.2-Speciale erzielte Goldmedaillen bei IMO 2025, IOI 2025 und ICPC World Finals.
Wichtiger Hinweis für Schweizer Unternehmen: DeepSeek ist ein chinesisches Unternehmen. Wer mit dem Modell über die API arbeitet, sendet Daten an Server in China – problematisch unter revDSG. Wer das Modell lokal hostet, umgeht dieses Problem vollständig.
Llama 4 (Meta) – Der Kontextriese
Metas Llama 4-Familie, veröffentlicht im April 2025, führte erstmals MoE-Architektur in die Llama-Linie ein. Scouts Aushängeschild ist sein 10-Millionen-Token-Kontextfenster, das längste aller Open-Weight-Modelle mit grossem Abstand. Maverick mit 128 Experten und einem 1M-Token-Fenster zielt auf Produktionsdeployments. Beide Modelle sind nativ multimodal.
Kritischer Hinweis für europäische Nutzer: Die Acceptable Use Policy von Llama 4 schränkt multimodale Modellrechte für Personen und Unternehmen mit Sitz in der EU explizit ein. Da alle Llama 4-Modelle nativ multimodal sind, betrifft dies de facto die gesamte Llama 4-Familie in der EU. Llama 3.3 (70B Dense, nur Text) bleibt von dieser Einschränkung unberührt.
GLM-5 (Zhipu AI) – Der Coding-Champion
GLM-5, im Februar 2026 vom chinesischen KI-Labor Zhipu AI veröffentlicht, ist eine der bedeutendsten Open-Source-Veröffentlichungen des Jahres. Mit 744B Gesamtparametern und 40B aktiven Parametern ist es ein grosses MoE-Modell unter MIT-Lizenz. Das Modell erreicht 77,8% auf SWE-bench Verified – der stärkste Coding-Benchmark-Wert unter allen Open-Weight-Modellen. Die gesamte Trainingsinfrastruktur basierte auf 100.000 Huawei Ascend 910B-Chips ohne US-amerikanische Hardware.
Mistral Small 4 (Mistral AI) – Der Effizienz-Meister
Mistral Small 4, im März 2026 veröffentlicht, kombiniert Instruction-Following, Reasoning und Multimodalität in einem einzigen Modell mit nur 6B aktiven Parametern. Es unterstützt ein 256K-Token-Kontextfenster und wird unter Apache 2.0 geliefert – ein bedeutender Lizenzwechsel gegenüber früheren restriktiven Mistral-Lizenzen.
Gemma 3 (Google) – Der Edge-Spezialist
Die 4B-Variante benötigt nur 4,2 GB RAM und antwortet in 94 Sekunden auf CPU – das beste Effizienz-Verhältnis aller getesteten Modelle. Das 27B-Flaggschiff erreicht 78,6% auf MMLU auf einer einzelnen H100-GPU. Alle Gemma 3-Modelle ab 4B unterstützen multimodale Eingabe.
Phi-4 (Microsoft) – Der Spezialist für Reasoning auf kleiner Hardware
Phi-4 Reasoning Vision (15B), veröffentlicht am 4. März 2026, fügt Bildverständnis zur Reasoning-Pipeline hinzu. Das Modell erkennt selbst, wann tiefes Reasoning notwendig ist und wann nicht. Alle Phi-4-Varianten sind unter MIT lizenziert.
Grosse Vergleichstabelle
| Modell | Entwickler | Ges. Parameter | Aktive Param. | Architektur | Kontextfenster | Multimodal | Lizenz | Release |
|---|---|---|---|---|---|---|---|---|
| Qwen 3.5 397B-A17B | Alibaba | 397B | 17B | MoE | 256K | Text + Bild | Apache 2.0 | Feb 2026 |
| Qwen 3.5 27B | Alibaba | 27B | 27B | Dense | 256K | Text + Bild | Apache 2.0 | Feb 2026 |
| GLM-5 | Zhipu AI | 744B | 40B | MoE | 205K | Text + Bild | MIT | Feb 2026 |
| DeepSeek V3.2 | DeepSeek | 671B | 37B | MoE | 128K | Nein | MIT | Dez 2025 |
| DeepSeek R1 | DeepSeek | 671B | 37B | MoE | 128K | Nein | MIT | Jan 2025 |
| Llama 4 Scout | Meta | 109B | 17B | MoE | 10M | Text + Bild | Llama 4 Community | Apr 2025 |
| Llama 4 Maverick | Meta | 400B | 17B | MoE | 1M | Text + Bild | Llama 4 Community | Apr 2025 |
| Mistral Small 4 | Mistral AI | 119B | 6B | MoE | 256K | Text + Bild | Apache 2.0 | Mär 2026 |
| Gemma 3 27B | 27B | 27B | Dense | 128K | Text + Bild | Gemma | Mär 2025 | |
| Gemma 3 4B | 4B | 4B | Dense | 128K | Text + Bild | Gemma | Mär 2025 | |
| Phi-4 Reasoning Vision | Microsoft | 15B | 15B | Dense | 16K | Text + Bild | MIT | Mär 2026 |
| Phi-4 Mini | Microsoft | 3.8B | 3.8B | Dense | 128K | Nein | MIT | Jan 2025 |
Benchmark-Vergleich
| Modell | MMLU | GPQA Diamond | AIME '24 | MATH-500 | SWE-bench Verified |
|---|---|---|---|---|---|
| Qwen 3 235B | – | 77,2% | 85,7% | – | – |
| DeepSeek R1 | – | 71,5% | 79,8% | 97,3% | – |
| GLM-5 | – | – | – | – | 77,8% |
| Llama 4 Maverick | 85,5% | 69,8% | – | – | – |
| Gemma 3 27B | 78,6% | – | – | 50,0% | – |
Interpretation: Qwen 3 235B führt bei Reasoning und Mathematik. DeepSeek R1 dominiert MATH-500 mit nahezu perfekten 97,3%. GLM-5 ist der stärkste Open-Weight-Coder (77,8% SWE-bench). Llama 4 Maverick hat den höchsten MMLU-Wert (85,5%).
Lizenzvergleich
| Lizenz | Modelle | Kommerzielle Nutzung | Wichtigste Einschränkungen |
|---|---|---|---|
| Apache 2.0 | Qwen 3/3.5, Mistral Small 4 | Ja, unbeschränkt | Keine |
| MIT | DeepSeek V3/V3.2/R1, Phi-4, GLM-5 | Ja, unbeschränkt | Keine |
| Llama 4 Community | Llama 4 Scout, Llama 4 Maverick | Ja, unter 700M MAU | EU-Multimodal-Einschränkungen |
| Gemma | Gemma 3 (alle Grössen) | Ja (nach Zustimmung) | Google-Nutzungsbedingungen |
Für Schweizer Unternehmen, die maximale Lizenzfreiheit benötigen, sind Qwen 3/3.5 (Apache 2.0), DeepSeek (MIT) und GLM-5 (MIT) die sichersten Optionen.
Hardware-Anforderungen für lokales Hosting
| Modell | Festplatte | RAM-Nutzung | Antwortzeit (CPU) |
|---|---|---|---|
| Llama 3.2 3B | 2,0 GB | 11,4 GB | 88s |
| Gemma 3 4B | 3,3 GB | 4,2 GB | 94s |
| Phi-4 Mini 3.8B | 2,5 GB | 8,9 GB | 97s |
| Mistral 7B | 4,4 GB | 7,4 GB | 125s |
| Qwen 3 8B | 5,2 GB | 5,8 GB | 433s |
| DeepSeek R1 8B | 5,2 GB | 5,8 GB | 433s |
Gemma 3 4B sticht durch seine RAM-Effizienz von nur 4,2 GB hervor – ideal für speicherbeschränkte Umgebungen.
Schweizer Kontext: Datenschutz, Souveränität und Compliance
Für Schweizer Unternehmen ist die Frage, ob ein KI-Modell lokal oder über eine API betrieben wird, keine technische Nebensache – sie ist eine Compliance-Frage.
Das revDSG (revidiertes Datenschutzgesetz) verlangt bei der Übermittlung von Personendaten ins Ausland entweder Standardvertragsklauseln oder eine Angemessenheitsentscheidung des Bundes. Wer Kundendaten oder Mitarbeiterdaten über eine US- oder chinesische API verarbeitet, muss dies sorgfältig dokumentieren.
FINMA-regulierte Institute (Banken und Versicherungen) unterliegen zusätzlichen Anforderungen an Datenlokalisierung und Auslagerungsmanagement. Für diese Unternehmen ist lokales Hosting von Open-Source-Modellen nicht nur eine Option, sondern oft die einzige compliant Lösung.
Der Hugging Face Spring 2026 Report erwähnt explizit die Swiss AI-Initiative als Beispiel für nationale KI-Souveränität. Open-Weight-Modelle erlauben es Regierungen und öffentlichen Institutionen, Systeme auf lokalen Daten unter nationalen Rechtsrahmen zu verfeinern.
Entscheidungshilfe: Welches Modell für welchen Zweck?
- Reasoning und Mathematik: DeepSeek R1 (97,3% MATH-500) oder Qwen 3 235B (85,7% AIME '24)
- Allgemeiner Chat und Assistenz: Qwen 3.5 397B-A17B oder Llama 4 Maverick
- Coding und Software Engineering: GLM-5 (77,8% SWE-bench) oder DeepSeek V3.2-Speciale
- Mehrsprachige Anwendungen: Qwen 3.5 (201 Sprachen) oder Mistral Large 3 (80+ Sprachen)
- Edge und Mobile: Gemma 3 4B (4,2 GB RAM) oder Gemma 3 1B
- Langer Kontext: Llama 4 Scout (10M Tokens) ist unübertroffen
- Maximale Lizenzfreiheit in der Schweiz: Qwen 3/3.5 (Apache 2.0), DeepSeek (MIT) oder GLM-5 (MIT)
Was kommt als Nächstes?
DeepSeek V4 wird für Q2 oder Q3 2026 erwartet – geschätzt rund 1 Billion Parameter, 1M-Token-Kontext und native Multimodalität. Llama 4 Behemoth (geschätzt 2 Billionen Gesamtparameter) wurde von Meta nach internen Evaluierungen pausiert. Grok 3 (xAI): Elon Musk bestätigte Pläne zur Open-Source-Veröffentlichung, der ursprünglich für Februar angekündigte Termin ist jedoch verstrichen.
Fazit: Open Source hat die Qualitätslücke geschlossen
Die Botschaft des Jahres 2026 ist eindeutig: Open-Source-KI-Modelle haben die Qualitätslücke zu proprietären Systemen in den meisten Anwendungsbereichen geschlossen. Modelle wie Qwen 3.5, DeepSeek V3.2 und GLM-5 konkurrieren direkt mit GPT-4o und Claude Sonnet – zu null Lizenzkosten und mit der Möglichkeit des vollständigen lokalen Betriebs.
Für Schweizer Unternehmen bietet diese Entwicklung eine strategische Chance: Wer heute in den Aufbau von Kompetenz im Bereich lokaler Open-Source-Deployments investiert, reduziert seine Abhängigkeit von einzelnen Anbietern, senkt langfristig die Kosten und gewinnt die Kontrolle über seine Daten zurück – ein entscheidender Vorteil in einem regulatorischen Umfeld, das Datensouveränität zunehmend einfordert.
Die Frage ist nicht mehr, ob Open-Source-KI gut genug ist. Die Frage ist, ob Ihr Unternehmen bereit ist, die Infrastruktur aufzubauen, die nötig ist, um davon zu profitieren.