KI & Sprache
12 Minuten
15.4.2026

Schweizerdeutsche Spracherkennung in der KI: Wenn die Metrik meckert, hat die KI längst Recht

Schweizerdeutsche Spracherkennung in der KI: Wenn die Metrik meckert, hat die KI längst Recht

Warum OpenAIs Whisper Schweizerdeutsch erstaunlich gut versteht – und warum die Statistik trotzdem sagt: Falsch.


Stellen Sie sich vor, Sie diktieren eine Sprachnachricht auf Schweizerdeutsch: «I bi uf Züri gange.» Eine moderne KI – etwa OpenAIs Whisper – macht daraus korrektes Standarddeutsch: «Ich bin nach Zürich gegangen.» Eigentlich perfekt. Doch die Statistik sagt: Falsch.

Der Grund liegt nicht im Modell, sondern im Datensatz. In vielen offiziellen Referenzkorpora ist der Satz «Ich ging nach Zürich» im Präteritum hinterlegt – der schriftdeutschen Norm entsprechend. Schweizer Sprecher:innen verwenden jedoch natürlicherweise das Perfekt. Whisper transkribiert das Gesprochene korrekt, wird aber bestraft, weil die Ausgabe von der Referenz abweicht. Diese Diskrepanz ist kein Randproblem: Sie steht im Zentrum einer der spannendsten Herausforderungen der Schweizer KI-Forschung.


Eine Sprache ohne Schrift – und was das für KI bedeutet

Schweizerdeutsch ist keine einheitliche Sprache, sondern eine Gruppe alemannischer Dialekte, gesprochen von rund 5,5 Millionen Menschen in der Deutschschweiz. Was Schweizerdeutsch für automatische Spracherkennungssysteme (ASR) besonders anspruchsvoll macht, ist ein linguistisches Phänomen namens mediale Diglossie: Gesprochen wird Schweizerdeutsch, geschrieben Standarddeutsch. Eine kodifizierte Schriftform existiert nicht.

Die Konsequenz ist fundamental: Wenn gesprochenes Schweizerdeutsch in Text umgewandelt werden soll, handelt es sich streng genommen nicht um eine Transkriptions-, sondern um eine Übersetzungsaufgabe. Forscher:innen der Universität Zürich – Eyal Liron Dolev, Clemens Fidel Lutz und Noëmi Aepli – haben dies 2024 in einer systematischen Evaluation von Whisper auf Schweizerdeutsch präzise herausgearbeitet.

Dazu kommt die dialektale Vielfalt. Zwischen Züridütsch, Berndeutsch, Baseldytsch und Walliserdeutsch bestehen teils erhebliche phonetische und lexikalische Unterschiede – manchmal variiert der Dialekt von Dorf zu Dorf. Kein einheitliches Trainingskorpus kann diese Vielfalt vollständig abdecken.


Whisper und das Schweizerdeutsch-Paradox

OpenAIs Whisper ist offiziell nicht auf Schweizerdeutsch trainiert worden. Dennoch zeigt das Modell in der Praxis eine erstaunliche Zero-Shot-Leistung: Es erkennt Schweizerdeutsch und gibt die Ausgabe als Standarddeutsch aus – ohne explizites Fine-Tuning. Die UZH-Studie von 2024 kommt zu dem Schluss, dass Whisper «ein praktikables ASR-System für Schweizerdeutsch ist, solange Standarddeutsch als Ausgabe gewünscht wird».

Besonders aufschlussreich: Der Versuch, Whisper auf Schweizerdeutschen Daten nachzutrainieren, hat die Performance in früheren Studien sogar verschlechtert. Das deutet darauf hin, dass das Modell durch sein breites multilinguales Vortraining bereits implizit Wissen über alemannische Sprachstrukturen erworben hat – ein Phänomen, das in der NLP-Forschung als emergente Mehrsprachigkeit bekannt ist.


Das Projekt: Leichtgewichtige Korrekturmodule statt Neutraining

Genau hier setzt ein Forschungsprojekt an, das CDS-Studierende der Fachhochschule Graubünden unter der Leitung von Prof. Corsin Capol durchgeführt haben. Joël Barandun, Daniela Studer-Müller und Martina Cavegn stellten sich eine präzise Frage: Wenn Whisper als starkes «Frontend» genutzt wird – was können dann leichtgewichtige, rein textbasierte Korrekturmodule im Übergang von Schweizerdeutsch ins Standarddeutsch leisten?

Ihr Ansatz war bewusst ressourcenschonend: Statt das Akustikmodell nachzutrainieren – ein rechenintensiver Prozess, der GPU-Stunden in Anspruch nimmt –, setzten sie auf non-intrusive Post-Editing. Whisper blieb unverändert; nur der Ausgabetext wurde korrigiert. Drei Methoden wurden verglichen:

AnsatzBeschreibungVorteil
RegelbasiertFeste Regeln für systematische Fehler (Zeitformen, Zahlenformate)Kein Halluzinationsrisiko, vorhersehbar
Seq2Seq (KI)Kleine spezialisierte Sequenzmodelle für flüssigere TexteFlexibel bei variablen Fehlern
HybridErst Regeln, dann KIBeste Kombination aus Sicherheit und Flexibilität

Das Ergebnis war eindeutig: Der Hybridansatz erzielte eine WER-Reduktion von 31 Prozent. Das reine Regelmodul erreichte bereits rund 20 Prozent. Noch aufschlussreicher war jedoch die semantische Analyse: Whisper hatte die Bedeutung der Sätze bereits zu 98 Prozent korrekt erfasst – bevor jegliche Korrektur einsetzte.

«Die Metrik misst nur, ob Wörter exakt übereinstimmen, nicht aber, ob die Bedeutung stimmt», erklären die Studierenden.


Das eigentliche Problem: Datensätze, die die Realität bestrafen

Die tiefste Erkenntnis des Projekts betrifft nicht die Modelle, sondern die Bewertungsgrundlage. Der Word Error Rate (WER) – die Standardmetrik für Spracherkennungssysteme – zählt jede Abweichung vom Referenztext als Fehler, unabhängig davon, ob die Bedeutung erhalten bleibt. Wenn die Referenz «Er ging nach Zürich» lautet und Whisper «Er ist nach Zürich gegangen» ausgibt, werden mehrere Fehler gezählt – obwohl beide Sätze inhaltlich identisch sind.

Prof. Corsin Capol fasst die Konsequenz prägnant zusammen: «Das Projekt zeigt, worauf es im Natural Language Processing ankommt: Entscheidend sind nicht nur gute Modelle, sondern auch passende Daten und geeignete Bewertungsverfahren. Gerade bei Schweizerdeutsch wird deutlich, dass sprachliche Variation kein Fehler ist.»

Die Studierenden leiten daraus konkrete Empfehlungen für die Community ab. Erstens sollten Datensätze mehrere gleichwertige Referenztranskriptionen enthalten – Paraphrasen, die sowohl Perfekt- als auch Präteritumformen akzeptieren. Zweitens braucht es eine Fehlerklassifikation, die echte Inhaltsfehler von stilistischen Abweichungen trennt. Drittens sollte die Evaluation Semantikmetriken einschliessen, die die Bedeutungsähnlichkeit messen, nicht nur die Wortübereinstimmung.


Die Schweizer Forschungslandschaft: Datensätze und Modelle

Die Schweiz verfügt über eine bemerkenswert aktive Forschungsgemeinschaft im Bereich Schweizerdeutsch-NLP. Mehrere Datensätze stehen der Community zur Verfügung:

DatensatzInstitutionUmfangBesonderheit
SDS-200ZHAW / FHNW (2022)200 Stunden~4000 Sprecher, alle Dialektregionen
STT4SG-350SwissNLP343 StundenAusgewogen nach Dialekt und Demografie
SwissDialETH Zürich~3 Std. pro DialektHochqualitatives Audio, 8 Dialekte
Swiss Parliaments CorpusUniversität ZürichParlamentsdebattenFormelles Register

Parallel dazu hat die Schweiz im September 2025 einen Meilenstein erreicht: Apertus, das erste grosse Sprachmodell aus der Schweiz, wurde von EPFL, ETH Zürich und CSCS im Rahmen der Swiss AI Initiative lanciert. Das Modell wurde auf 15 Billionen Tokens aus über 1000 Sprachen trainiert – 40 Prozent der Daten sind nicht-englischsprachig, darunter explizit Schweizerdeutsch und Rätoromanisch.

Apertus ist vollständig offen: Architektur, Modellgewichte, Trainingsdaten und -methoden sind frei zugänglich. Es steht in zwei Grössen zur Verfügung (8B und 70B Parameter) und wird unter einer permissiven Open-Source-Lizenz veröffentlicht, die auch kommerzielle Nutzung erlaubt. Die Entwicklung erfolgte unter Berücksichtigung des revDSG, des Schweizer Urheberrechts und der EU AI Act-Anforderungen.

«Apertus wurde als Beitrag zum Gemeinwohl entwickelt. Es gehört zu den wenigen vollständig offenen LLMs in dieser Grössenordnung und ist das erste seiner Art, das Mehrsprachigkeit, Transparenz und Compliance als grundlegende Designprinzipien vereint.» – Imanol Schlag, ETH Zürich


Praxis 2026: Was funktioniert, was nicht

Für Unternehmen und Entwickler:innen, die heute Schweizerdeutsch-Spracherkennung einsetzen möchten, ergibt sich ein differenziertes Bild. Moderne Voice-AI-Systeme, die spezifisch für den Schweizer Markt entwickelt wurden, unterstützen inzwischen alle gängigen Dialekte – von Züridütsch über Berndeutsch bis Walliserdeutsch. Die Technologie kombiniert multilinguale Sprachmodelle mit kontextbasiertem Verstehen: Wenn jemand «Tärmiin» statt «Termin» sagt, erkennt die KI durch den Kontext, dass es um eine Terminbuchung geht.

Grenzen bestehen weiterhin bei sehr starkem Dialekt in Kombination mit schlechter Audioqualität, bei seltenen Fachbegriffen im Dialekt und bei schnellem Sprechen. In diesen Fällen sind automatische Rückfragen ein bewährtes Mittel.

Für Schweizer Unternehmen unter revDSG- oder FINMA-Regulierung ist die Frage der Datensouveränität besonders relevant: Lösungen, die lokal oder auf Schweizer Infrastruktur betrieben werden, vermeiden die Übermittlung sensibler Sprachdaten an ausländische Cloud-Anbieter. Apertus auf der Swisscom Swiss AI Platform ist ein Beispiel für diesen Ansatz.


Was wir daraus lernen: Drei Prinzipien für die Praxis

Das CDS-Projekt und die breitere Forschungsliteratur konvergieren auf drei praktische Prinzipien, die über Schweizerdeutsch hinaus Gültigkeit haben.

Datensatz vor Modell. Bevor Korrekturmodelle trainiert werden, lohnt es sich, die Referenztranskripte zu überprüfen. Erlauben sie sprachliche Variation – etwa sowohl Perfekt- als auch Präteritumformen –, oder bestrafen sie korrekte Schweizerdeutsch-Formen unnötig? Ein Modell kann nur so gut sein wie die Daten, gegen die es gemessen wird.

Regeln vor KI. Oft ist ein simples Regelwerk – vor allem bei wiederkehrenden Mustern – effizienter und sicherer als eine hochkomplexe KI. Regelbasierte Verfahren glänzen dort, wo Fehler systematisch sind (Zeitformenwechsel, Zahlenformate, typische Fehlhörer). Sie haben praktisch kein Halluzinationsrisiko und liefern den besten «Nutzen pro Risiko»-Trade-off.

Kritisches Hinterfragen von Metriken. Wer KI-Modelle bewertet, darf sich nicht auf eine einzige Kennzahl verlassen. Neuronale Sequenzmodelle können verblüffend gut glätten und Kontextfehler reparieren, neigen aber zur Überkorrektur. Semantikmetriken und im Idealfall mehrere Referenzen bilden die reale Qualität besser ab als der WER allein.


Ausblick: Schweizerdeutsch als Testfall für mehrsprachige KI

Schweizerdeutsch ist mehr als ein regionales Kuriosum – es ist ein Testfall für die Grenzen und Möglichkeiten moderner Spracherkennungssysteme. Die Kombination aus dialektaler Vielfalt, fehlender Schriftform und der Diglossie-Situation macht es zu einem der anspruchsvollsten Szenarien für ASR-Systeme weltweit.

Die Fortschritte sind real: Whisper transkribiert Schweizerdeutsch erstaunlich gut, Apertus bringt erstmals ein Schweizer LLM mit explizitem Dialektbewusstsein, und Datensätze wie SDS-200 und STT4SG-350 schaffen die Grundlage für weitere Verbesserungen. Gleichzeitig zeigt das CDS-Projekt, dass die grösste Herausforderung oft nicht im Modell liegt, sondern in der Qualität der Daten und der Angemessenheit der Metriken.

Die nächste Grenze ist bereits sichtbar: Datensätze, die sprachliche Variation nicht als Fehler, sondern als Reichtum behandeln. Mehrere gleichwertige Referenzen, systematische Fehlerklassifikation, semantische Evaluationsmetriken – das sind die Bausteine einer Spracherkennungsinfrastruktur, die der Realität des Schweizerdeutschen gerecht wird.

Denn am Ende gilt: Die KI hat oft schon Recht. Die Metrik weiss es nur noch nicht.


Quellen

Artikel teilen

Cookie-Einstellungen

Wir verwenden Cookies und ähnliche Technologien, um die Nutzung unserer Website zu analysieren und Ihnen ein besseres Erlebnis zu bieten. Mit Ihrer Zustimmung verwenden wir Google Analytics, um anonymisierte Statistiken über die Websitenutzung zu sammeln. Sie können Ihre Einwilligung jederzeit widerrufen.