Einleitung: Ein Lizenzwechsel, der alles verändert
Am 2. April 2026 hat Google DeepMind Gemma 4 veröffentlicht – und der wichtigste Satz in der Ankündigung war nicht über Benchmarks oder Architektur. Er stand im Abschnitt zur Lizenz: Apache 2.0.
Wer die Geschichte der Gemma-Modelle kennt, weiss, was das bedeutet. Die bisherigen Gemma-Versionen unterlagen einer restriktiven eigenen Lizenz mit Nutzungsbeschränkungen, die viele Unternehmen von einem produktiven Einsatz abhielten. Apache 2.0 hingegen ist die offenste, kommerziell freundlichste Lizenz im Open-Source-Ökosystem: keine Nutzungsbeschränkungen, kein Genehmigungsprozess, vollständige Freiheit zur Modifikation und zum Deployment in jeder Umgebung.
Dieser Schritt ist kein Zufall. Chinesische Labs wie Alibaba (Qwen) und DeepSeek haben diesen Standard in den letzten zwei Jahren gesetzt. Google folgt jetzt nach. Und mit Gemma 4 liefert das Unternehmen nicht nur eine bessere Lizenz, sondern auch die leistungsstärkste Open-Source-Modellfamilie, die Google je veröffentlicht hat.
Dieser Artikel erklärt, was Gemma 4 technisch auszeichnet, wo die Grenzen liegen und was der Release für Schweizer Unternehmen bedeutet, die mit revDSG- oder FINMA-Anforderungen arbeiten.
Die vier Modelle: Vom Smartphone bis zur Workstation
Gemma 4 erscheint in vier Varianten, die für grundlegend unterschiedliche Hardware-Szenarien optimiert sind. Das Prinzip dahinter ist konsequent: Frontier-Intelligenz auf jedem Gerät – vom Android-Smartphone bis zum Entwickler-Workstation.
Gemma 4 E2B und E4B: KI direkt auf dem Gerät
Die beiden Edge-Modelle – E2B (Effective 2B, ~2.3 Milliarden effektive Parameter) und E4B (~4 Milliarden effektive Parameter) – sind von Grund auf für mobile und IoT-Umgebungen entwickelt worden. Google hat dabei eng mit dem Pixel-Team sowie mit Qualcomm Technologies und MediaTek zusammengearbeitet, um sicherzustellen, dass die Modelle vollständig offline auf Smartphones, Raspberry Pi und NVIDIA Jetson Orin Nano laufen.
Was diese Modelle von früheren Edge-Modellen unterscheidet, ist ihre native Multimodalität: Beide verarbeiten nicht nur Text, sondern auch Bilder, Videos und – als Besonderheit – Audio-Input für Spracherkennung. Das Kontextfenster beträgt 128.000 Token, was für die meisten On-Device-Anwendungen mehr als ausreichend ist. Android-Entwickler können bereits heute mit dem AICore Developer Preview prototypieren.
Gemma 4 26B MoE: Das Effizienzwunder
Das 26B-Modell ist die technisch interessanteste Variante der Familie. Es nutzt eine Mixture-of-Experts-Architektur (MoE) mit 128 Experten pro Layer – eine aussergewöhnlich grosse Expertenzahl, die selbst DeepSeeks vielbeachtete "fine-grained experts"-Forschung übertrifft. Beim Verarbeiten jedes Tokens aktiviert das Modell nur die zwei besten Experten aus diesem Pool. Das Ergebnis: 26 Milliarden Gesamtparameter, aber nur 3.8 Milliarden aktive Parameter pro Token.
Die praktische Konsequenz ist bemerkenswert. Die Rechenleistung entspricht einem 4B-Modell – schnell, latenzarm, günstig im Betrieb. Die Qualität liegt deutlich näher an einem echten 27B+-Dense-Modell. Der Kompromiss liegt beim Arbeitsspeicher: Da der Router beim Inferenz-Schritt jeden der 128 Experten ansteuern kann, müssen alle 26 Milliarden Parameter im VRAM geladen sein. Quantisiert auf 4-Bit passt das Modell in etwa 14 bis 16 Gigabyte VRAM – und läuft damit auf einer einzelnen NVIDIA RTX 3090 oder 4090.
Auf der Arena.ai-Rangliste, dem wichtigsten Community-Benchmark für Open-Source-Modelle, belegt das 26B-Modell aktuell Platz 6 unter allen Open-Source-Modellen weltweit.
Gemma 4 31B Dense: Der Fine-Tuning-Champion
Das 31B-Dense-Modell ist die Referenzvariante der Familie. Alle 31 Milliarden Parameter sind bei jeder Inferenz aktiv – das maximiert die Rohqualität und macht das Modell zur besten Wahl für Fine-Tuning auf spezifische Aufgaben. Das Kontextfenster beträgt 256.000 Token. Auf einer NVIDIA H100 mit 80 Gigabyte VRAM läuft das Modell in bfloat16-Präzision ohne Quantisierung.
Auf Arena.ai belegt das 31B-Modell aktuell Platz 3 unter allen Open-Source-Modellen weltweit – hinter Qwen 3.5 72B und einem weiteren Modell, aber vor allen anderen Konkurrenten seiner Grössenklasse. Google selbst beschreibt die Leistung mit dem Satz: "Gemma 4 outcompetes models 20x its size."
| Modell | Effektive Parameter | Kontext | VRAM (bfloat16) | Arena.ai Rang |
|---|---|---|---|---|
| Gemma 4 E2B | ~2.3B | 128K | ~3 GB | — |
| Gemma 4 E4B | ~4B | 128K | ~6 GB | — |
| Gemma 4 26B MoE | 3.8B aktiv / 26B total | 256K | ~14–16 GB (4-bit) | #6 Open-Source |
| Gemma 4 31B Dense | 31B | 256K | ~62 GB | #3 Open-Source |
Die MoE-Architektur im Detail: Warum 128 Experten?
Die Mixture-of-Experts-Idee ist nicht neu – Mixtral von Mistral AI hat sie 2023 populär gemacht. Aber Gemma 4 setzt die Idee konsequenter um als die meisten Vorgänger.
Mixtral 8x7B nutzt 8 Experten und aktiviert 2 davon. Gemma 4 26B nutzt 128 Experten und aktiviert ebenfalls 2. Diese extreme Granularität hat einen klaren Vorteil: Jeder Experte kann sich auf ein sehr enges Wissensgebiet spezialisieren. Ein Experte für Python-Code muss nicht gleichzeitig für juristische Texte zuständig sein. Das verbessert die Qualität für jedes einzelne Wissensgebiet, ohne den Rechenaufwand zu erhöhen.
Die technische Herausforderung dabei ist das Load Balancing: Bei 128 Experten besteht die Gefahr, dass der Router immer dieselben wenigen Experten bevorzugt, während andere kaum genutzt werden. Google löst das durch spezielle Verlustfunktionen während des Trainings, die eine gleichmässige Verteilung der Anfragen über alle Experten erzwingen.
Die Hybridarchitektur des Modells kombiniert Standard-Attention-Schichten (für die Beziehungen zwischen Token) mit MoE-Schichten (für die eigentliche Wissensverarbeitung). Das Verhältnis von Sliding-Window-Attention zu Full-Attention beträgt 5:1 – ein Design, das Latenz und Qualität ausbalanciert.
Fähigkeiten: Was Gemma 4 kann
Multimodalität als Standard
Alle vier Gemma-4-Modelle verarbeiten Bilder und Videos nativ – ohne zusätzliche Adapter oder separate Modelle. Das 31B-Modell zeigt dabei besondere Stärken bei dokumentenlastigen Aufgaben: OCR, Chart-Verständnis, PDF-Analyse und GUI-Element-Erkennung. Die E2B- und E4B-Modelle ergänzen diese Fähigkeiten um nativen Audio-Input, was sie für Spracherkennungsanwendungen direkt auf dem Gerät qualifiziert.
Agentic Workflows und Function Calling
Gemma 4 ist explizit für agentic Workflows entwickelt worden. Native Unterstützung für Function-Calling, strukturierten JSON-Output und System-Instructions ermöglicht den Aufbau autonomer Agenten, die mit externen APIs und Tools interagieren können. Das ist kein nachträgliches Feature, sondern war von Anfang an Teil des Designziels.
140 Sprachen und Schweizerdeutsch
Das Modell wurde nativ auf über 140 Sprachen trainiert. Für Schweizer Unternehmen ist das relevant: Deutsch, Französisch, Italienisch und Rätoromanisch sind alle abgedeckt. Schweizerdeutsch als Dialekt ist zwar kein offiziell unterstütztes Trainings-Ziel, aber die starke Deutsch-Basis ermöglicht ein effektives Fine-Tuning auf Schweizer Sprachvarianten.
Code-Generierung
Auf dem LiveCodeBench-Benchmark zeigt Gemma 4 solide Ergebnisse. Das 31B-Modell eignet sich als lokaler Code-Assistent in IDEs – ohne Cloud-Abhängigkeit, ohne Datenweitergabe an externe Server.
Apache 2.0: Was die Lizenz wirklich bedeutet
Die Lizenzfrage ist für Unternehmen oft entscheidender als Benchmark-Zahlen. Bisherige Gemma-Versionen unterlagen einer eigenen Google-Lizenz, die unter anderem Nutzungsbeschränkungen für bestimmte Anwendungsfälle enthielt und eine explizite Genehmigung für grosse Deployments vorsah. Das hat viele mittelgrosse und grosse Unternehmen vom Einsatz abgehalten.
Apache 2.0 beseitigt diese Hürden vollständig. Die Lizenz erlaubt kommerzielle Nutzung ohne Einschränkungen oder Genehmigungsprozesse, Modifikation und Fine-Tuning für beliebige Zwecke, Deployment in jeder Umgebung (On-Premises, Private Cloud, Public Cloud) sowie die Weitergabe von Derivaten unter beliebiger Lizenz, solange die Apache-2.0-Attributionspflicht erfüllt ist.
Nathan Lambert von Interconnects.ai fasst die Bedeutung prägnant zusammen: "I will personally be so happy if the horrible Llama licenses and Gemma terms of service were an ~18-month transient dynamic of the industry being nervous about releasing strong open models." Mit Gemma 4 scheint dieser Übergang vollzogen.
Gemma 4 im Vergleich: Wo steht das Modell?
Der Open-Source-Markt für LLMs ist im April 2026 dichter besiedelt als je zuvor. Gemma 4 tritt in eine Landschaft ein, in der Qwen 3.5, MiniMax M2.7, DeepSeek V3.2 und andere bereits etabliert sind. Ein ehrlicher Vergleich zeigt Stärken und Grenzen.
| Modell | Stärke | Schwäche | Lizenz |
|---|---|---|---|
| Gemma 4 31B | Arena.ai #3, Fine-Tuning, Multimodal | Hoher VRAM-Bedarf | Apache 2.0 |
| Gemma 4 26B MoE | Effizienz, Consumer-GPU-tauglich | Alle 26B im VRAM nötig | Apache 2.0 |
| Qwen 3.5 27B | Reifes Ökosystem, Community | Kein Audio-Input | Apache 2.0 |
| DeepSeek V3.2 | Open-Source, lokal betreibbar | Kein Multimodal | MIT |
| Llama 4 Scout | 10M Kontext | Restriktive Lizenz | Llama (restriktiv) |
| MiniMax M2.7 | 1M Kontext, Self-Evolution | Proprietär | Proprietär |
Der wichtigste Vorteil von Gemma 4 gegenüber Qwen 3.5 – dem direkten Konkurrenten in der 27–31B-Klasse – ist die native Multimodalität. Qwen 3.5 27B ist ein reines Text-Modell. Gemma 4 verarbeitet Bilder, Videos und (bei den Edge-Modellen) Audio nativ.
Der wichtigste Nachteil ist das noch junge Ökosystem. Nathan Lambert von Interconnects.ai weist darauf hin, dass Qwen seit Jahren das bevorzugte Modell der Open-Source-Forschungsgemeinschaft ist: "Technical staff across the industry has gotten comfortable working with Qwen models. Countless research methods and datasets were made to work with Qwen. It'll take patience for any other model family to get to this point."
Bedeutung für Schweizer Unternehmen
Digitale Souveränität und revDSG
Das Schweizer Datenschutzgesetz (revDSG) und die FINMA-Regulierung stellen hohe Anforderungen an die Verarbeitung personenbezogener Daten. Für Unternehmen, die KI-Modelle einsetzen, ist die Frage entscheidend: Verlassen die Daten das Unternehmen?
Mit Gemma 4 und Apache 2.0 ist die Antwort eindeutig: Nein. Das Modell kann vollständig On-Premises betrieben werden – auf eigener Hardware, im eigenen Rechenzentrum, ohne Verbindung zu Google-Servern. Das gilt für alle vier Varianten, von der E2B auf einem Smartphone bis zum 31B auf einem Workstation-Server.
Für Unternehmen, die eine Managed-Lösung bevorzugen, bietet Google Cloud Zürich (Region europe-west6) eine DSGVO-konforme Alternative mit Datenverarbeitung in der Schweiz.
Anwendungsfälle nach Branche
Die Finanzbranche (Banken, Versicherungen, Vermögensverwalter) profitiert besonders vom 31B-Modell: Fine-Tuning auf interne Dokumente, Compliance-Texte und Schweizer Regulierungstexte ist mit Apache 2.0 ohne rechtliche Hürden möglich. Die 256K-Token-Kontextfenster ermöglichen die Analyse langer Verträge oder Jahresberichte in einem einzigen Prompt.
Das Gesundheitswesen kann die E2B/E4B-Modelle für On-Device-Anwendungen nutzen, bei denen Patientendaten das Gerät nicht verlassen dürfen. Die native Audio-Verarbeitung eröffnet Möglichkeiten für Sprachdokumentation direkt am Patientenbett.
Bildungseinrichtungen und Kantone können das 26B-MoE-Modell auf Consumer-Hardware betreiben und für mehrsprachige Anwendungen (DE/FR/IT/RM) nutzen, ohne pro Anfrage Kosten für externe APIs zu zahlen.
Hardware-Empfehlungen für Schweizer KMU
Für ein Schweizer KMU, das Gemma 4 lokal betreiben möchte, gibt es drei realistische Szenarien. Der Einstieg mit Consumer-Hardware benötigt eine NVIDIA RTX 4090 (24 GB VRAM) für das 26B-MoE-Modell in 4-Bit-Quantisierung – Kosten ca. 1.800 CHF, geeignet für Entwicklung und Prototyping. Die Workstation für mittlere Teams mit zwei RTX 4090 oder einer NVIDIA A100 40GB ermöglicht das 31B-Dense-Modell in 4-Bit-Quantisierung zu Kosten von ca. 5.000–15.000 CHF. Der Server für grosse Organisationen mit einer NVIDIA H100 80GB läuft das 31B-Modell in voller bfloat16-Präzision zu Kosten von ca. 30.000–40.000 CHF.
Praktischer Einstieg: Gemma 4 in 10 Minuten
Wer Gemma 4 schnell ausprobieren möchte, hat mehrere Optionen. Der einfachste Weg führt über Ollama:
# Gemma 4 26B MoE (quantisiert, ~14 GB)
ollama run gemma4:26b
# Gemma 4 31B Dense (quantisiert, ~20 GB)
ollama run gemma4:31b
# Gemma 4 26B MoE (quantisiert, ~14 GB)
ollama run gemma4:26b
# Gemma 4 31B Dense (quantisiert, ~20 GB)
ollama run gemma4:31b
Für Entwickler, die das Modell in Python-Code einbinden möchten, bietet Hugging Face eine direkte Integration:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/gemma-4-26B-A4B-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
inputs = tokenizer("Erkläre die MoE-Architektur auf Deutsch:", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=500)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/gemma-4-26B-A4B-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
inputs = tokenizer("Erkläre die MoE-Architektur auf Deutsch:", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=500)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Fazit: Ein Modell für die nächste Phase
Gemma 4 ist nicht das revolutionärste Modell des Jahres 2026 – das ist Claude Mythos Preview, das Anthropic für zu gefährlich für eine öffentliche Veröffentlichung hält. Aber Gemma 4 ist das Modell, das die grösste praktische Wirkung auf die breiteste Entwickler-Community haben wird.
Der Grund ist die Kombination aus drei Faktoren: erstklassige Leistung (Platz 3 unter allen Open-Source-Modellen weltweit), echte Apache-2.0-Freiheit ohne Einschränkungen und native Multimodalität in allen vier Varianten. Kein anderes Open-Source-Modell bietet diese Kombination heute.
Für Schweizer Unternehmen ist Gemma 4 besonders attraktiv: Die Apache-2.0-Lizenz ermöglicht vollständige digitale Souveränität, das On-Premises-Deployment erfüllt revDSG- und FINMA-Anforderungen, und die vier Modellgrössen decken jede Hardware-Realität ab – vom Smartphone im Aussendienstmitarbeiter-Pocket bis zum Server im Rechenzentrum.
Die einzige berechtigte Einschränkung ist das noch junge Ökosystem. Qwen hat einen Vorsprung von Jahren an Community-Tooling, Fine-Tuning-Ressourcen und Forschungserfahrung. Dieser Vorsprung wird sich nicht über Nacht schliessen. Aber mit Apache 2.0 und der Qualität von Gemma 4 hat Google die Voraussetzungen geschaffen, um diesen Rückstand aufzuholen.
Quellen
- Google DeepMind. (2026, April). Gemma 4: Byte for byte, the most capable open models. https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
- Google AI for Developers. (2026, April). Gemma 4 model overview. https://ai.google.dev/gemma/docs/core
- Hugging Face. (2026, April). Welcome Gemma 4: Frontier multimodal intelligence on device. https://huggingface.co/blog/gemma4
- Google Open Source Blog. (2026, April). Gemma 4: Expanding the Gemmaverse with Apache 2.0. https://opensource.googleblog.com/2026/03/gemma-4-expanding-the-gemmaverse-with-apache-20.html
- MindStudio. (2026, April). What Is the Gemma 4 Mixture of Experts Architecture? https://www.mindstudio.ai/blog/gemma-4-mixture-of-experts-architecture/
- Lambert, N. (2026, April). Gemma 4 and what makes an open model succeed. https://www.interconnects.ai/p/gemma-4-and-what-makes-an-open-model
- Analytics Vidhya. (2026, April). Google's Gemma 4: Is it the Best Open-Source Model of 2026? https://www.analyticsvidhya.com/blog/2026/04/googles-gemma-4-open-source-model/