KI-Modelle
14 Minuten
11.5.2026

Was ist SubQ AI – und wer steckt dahinter?

Was ist SubQ AI – und wer steckt dahinter?

Am 5. Mai 2026 trat ein Startup aus Miami aus dem Verborgenen hervor, das kaum jemand kannte. Vier Personen, 29 Millionen Dollar Seed-Kapital, kein grosser Tech-Konzern im Rücken. Der Name: Subquadratic. Das Produkt: SubQ – das erste kommerzielle Sprachmodell, das die mathematische Grundlage aller modernen KI-Systeme neu schreibt.

Die Behauptung klingt nach Marketing. Dann liest man die zweite Zeile: 12 Millionen Token Kontextfenster, 52-mal schneller als die bisherige Referenzimplementierung, und etwa ein Fünftel der Kosten von Claude Opus auf demselben Workload. Wenn diese drei Zahlen unabhängig bestätigt werden, hat ein Team kleiner als die meisten Schweizer KMU-Abteilungen die Kostenstruktur der gesamten KI-Industrie der letzten sechs Jahre neu geschrieben.


Das Problem, das SubQ lösen will

Um zu verstehen, warum SubQ so viel Aufmerksamkeit erzeugt, muss man zunächst das Problem verstehen, das es löst – und warum dieses Problem so hartnäckig ist.

Jedes grosse Sprachmodell, das heute im Einsatz ist – ChatGPT, Claude, Gemini, Llama – basiert auf der sogenannten Transformer-Architektur, die 2017 von Google-Forschern eingeführt wurde. Das "T" in "ChatGPT" steht buchstäblich für Transformer. Diese Architektur hat die KI-Welt revolutioniert, trägt aber eine fundamentale mathematische Einschränkung in sich: die quadratische Skalierung der Attention-Berechnung.

Was das konkret bedeutet, lässt sich mit einer einfachen Formel veranschaulichen. In einem Transformer-Modell wird jedes Token (jedes Wort oder Wortfragment) mit jedem anderen Token verglichen. Bei 1.000 Token sind das 1 Million Vergleiche. Bei 10.000 Token sind es 100 Millionen Vergleiche. Bei 1 Million Token – dem aktuellen Maximum der besten Frontier-Modelle – sind es eine Billion Vergleiche. Die Kosten steigen mit dem Quadrat der Eingabelänge: Doppelter Input bedeutet vierfache Kosten.

Diese Beziehung hat die gesamte KI-Industrie geprägt. Weil es zu teuer ist, grosse Dokumente vollständig zu verarbeiten, hat die Branche eine aufwendige Infrastruktur von Workarounds entwickelt: RAG-Systeme (Retrieval-Augmented Generation) suchen vor der Anfrage die relevantesten Textfragmente heraus. Chunking-Strategien teilen Dokumente in Abschnitte auf. Multi-Agent-Systeme verteilen Aufgaben auf spezialisierte Unteragenten, die Notizen aneinander weitergeben. Prompt Engineering ist zu einer eigenen Disziplin geworden, die versucht, das Beste aus einem begrenzten Kontextfenster herauszuholen.

"I used to manually curate prompts and retrieval systems and evals and conditional logic to chain together the workflows. And I think that that is kind of a waste of human intelligence and also limiting to the product quality." – Alex Whedon, CTO Subquadratic

Subquadratic argumentiert, dass diese Workarounds teuer, fragil und letztlich limitierend sind. Sie sind nicht die Lösung des Problems – sie sind der Beweis, dass das Problem noch nicht gelöst wurde.


Die Lösung: Subquadratic Sparse Attention (SSA)

SubQ's Kernarchitektur heisst Subquadratic Sparse Attention, kurz SSA. Das Prinzip ist konzeptionell elegant: Statt jeden Token mit jedem anderen Token zu vergleichen, lernt das Modell, welche Vergleiche tatsächlich wichtig sind – und berechnet nur diese.

Der entscheidende Unterschied zu früheren Ansätzen liegt in der Art der Selektion. Frühere Versuche, Attention zu beschleunigen (etwa durch feste Muster oder zufällige Stichproben), haben die Performance verschlechtert, weil sie nicht wussten, welche Vergleiche wichtig sind. SSA ist content-dependent: Das Modell entscheidet auf Basis des Inhalts, wo es hinschaut – nicht auf Basis fixer Positionen. Das erlaubt es, spezifische Informationen aus beliebigen Positionen in einem sehr langen Kontext abzurufen, ohne die quadratische Rechensteuer zu zahlen.

Das Ergebnis ist eine Skalierung, die linear statt quadratisch wächst. Doppelter Input bedeutet doppelte Kosten – nicht vierfache. Bei 128.000 Token ist SSA 7,2-mal schneller als FlashAttention (die bisherige Referenzimplementierung). Bei 1 Million Token steigt dieser Vorteil auf das 52,2-Fache. Die Effizienzgewinne wachsen mit der Kontextlänge – genau das Gegenteil des Problems, das es löst.

Das Modell wurde in drei Phasen trainiert: Vortraining, Supervised Fine-Tuning und eine Reinforcement-Learning-Phase, die speziell auf Long-Context-Retrieval-Fehler ausgerichtet ist. Diese letzte Phase ist besonders wichtig: Sie trainiert das Modell, aktiv auf weit entfernte Kontextinformationen zurückzugreifen, statt sich auf nahe Informationen zu verlassen – ein subtiler Fehler, der die Performance bestehender Systeme bei langen Kontexten still und leise degradiert.


Wer steckt hinter Subquadratic?

Vier Kernpersonen, 11 promovierte Forscher – das ist das Team, das SubQ entwickelt hat. Die Gründer kommen nicht aus dem klassischen KI-Forschungsumfeld, was sowohl als Stärke als auch als Schwäche interpretiert werden kann.

Justin Dangel, CEO und Mitgründer, ist ein fünffacher Gründer und CEO mit einer Erfolgsbilanz in Health Tech, InsuranceTech und Consumer Goods. Seine Unternehmen haben Hunderte von Mitarbeitern beschäftigt, institutionelle Finanzierung erhalten und Exits erzielt. Er bringt operative Erfahrung mit – nicht KI-Forschung.

Alex Whedon, CTO und Mitgründer, war Software Engineer bei Meta und leitete als Head of Generative AI bei TribeAI über 40 Enterprise-KI-Implementierungen. Er ist der Bruder von Austen Allred, dem Gründer von BloomTech. Whedon bringt praktische KI-Engineering-Erfahrung mit – er kennt die Schmerzpunkte der Workaround-Infrastruktur aus eigener Erfahrung.

Das Forschungsteam besteht aus 11 promovierten Forschern und Research Engineers mit Hintergründen bei Meta, Google, Oxford, Cambridge, ByteDance, Adobe und Microsoft. Das ist eine glaubwürdige Sammlung von Institutionen für ein Team, das behauptet, ein fundamentales mathematisches Problem gelöst zu haben.

PersonRolleHintergrund
Justin DangelCEO & Co-Founder5-facher Gründer, Health Tech, InsuranceTech, Consumer Goods
Alex WhedonCTO & Co-FounderMeta (Software Engineer), TribeAI (Head of Gen AI, 40+ Enterprise-Impl.)
Forschungsteam11 PhDs & Research EngineersMeta, Google, Oxford, Cambridge, ByteDance, Adobe, Microsoft

Die Investoren: Wer glaubt an SubQ?

Die Investorenliste ist für ein Seed-Stage-Unternehmen aussergewöhnlich prominent. Javier Villamizar, ehemaliger Partner beim SoftBank Vision Fund, hat Milliarden in Tech-Unternehmen investiert und weiss, wie echte Durchbrüche von Hype zu unterscheiden sind. Justin Mateen, Mitgründer von Tinder und Gründer des JAM Fund, ist bekannt für frühe Wetten auf disruptive Technologien. Hinzu kommen frühe Investoren von Anthropic, OpenAI, Stripe und Brex – Menschen, die gelernt haben, fundamentale Plattformverschiebungen zu erkennen.

Die Gesamtfinanzierung beträgt 29 Millionen Dollar in einer Seed-Runde. The New Stack berichtet von einer Bewertung von rund 500 Millionen Dollar – aussergewöhnlich hoch für ein Unternehmen, das noch kein Produkt in der öffentlichen Produktion hat, aber konsistent mit dem Ausmass der Behauptungen.


Die Benchmarks: Was die Zahlen sagen – und was sie verschweigen

SubQ hat drei Benchmarks veröffentlicht, alle drittpartei-verifiziert:

BenchmarkSubQ 1M-PreviewVergleichsmodellErgebnis
RULER 128K (Long-Context-Genauigkeit)95,0%Claude Opus 4.6: 94,8%SubQ knapp besser
MRCR v2 (Multi-Needle-Retrieval)65,9%Claude Opus 4.7: 32,2% / GPT-5.5: 74% / Gemini 3.1 Pro: 26,3%SubQ stark bei Long-Context
SWE-Bench Verified (Coding)81,8%Opus 4.6: 80,8% / DeepSeek 4.0 Pro: 80,0%SubQ konkurrenzfähig

Auf den ersten Blick sind diese Zahlen beeindruckend. Ein Startup mit vier Kernpersonen erzielt Ergebnisse, die mit Modellen mithalten, hinter denen Milliarden-Dollar-Investitionen stehen. Aber die Benchmark-Auswahl verdient Skepsis.

Alle drei Tests betonen Long-Context-Retrieval und Coding – genau die Aufgaben, für die SubQ entwickelt wurde. Breitere Evaluierungen über allgemeines Reasoning, Mathematik, mehrsprachige Performance und Sicherheit wurden nicht veröffentlicht. Das Model Card ist "coming soon". Claude Opus 4.7 führt SWE-Bench mit 87,6% an – SubQ liegt bei 81,8%.

Die Hacker-News-Community ist gespalten. Eine Hälfte nennt es den grössten LLM-Durchbruch seit dem originalen Transformer-Paper. Die andere Hälfte nennt es "AI Theranos". Die Wahrheit liegt wahrscheinlich irgendwo dazwischen: Die Architektur ist real, die Benchmarks sind drittpartei-verifiziert, aber die vollständige Validierung steht noch aus.


Die drei Produkte

Subquadratic hat drei Produkte in die Private Beta gestartet:

SubQ API stellt den vollen 12-Millionen-Token-Kontext als API für Entwickler und Enterprise-Teams bereit. Das ist die Grundlage für alle anderen Produkte und für Unternehmen, die SubQ in eigene Anwendungen integrieren wollen.

SubQ Code ist ein CLI-basierter Coding-Agent, der eine gesamte Codebasis in einem einzigen Kontextfenster laden kann. Das eliminiert den Koordinationsaufwand von Multi-Agent-Systemen: Statt dass mehrere Agenten Notizen aneinander weitergeben, hat ein einziger Agent den vollständigen Überblick über das gesamte Repository. Das ist konzeptionell näher daran, wie ein erfahrener Entwickler denkt – mit dem gesamten Kontext im Kopf, nicht mit fragmentierten Ausschnitten.

SubQ Search ist ein Long-Context-Suchtool, das Deep-Research-Fähigkeiten mit Chatbot-Geschwindigkeit kombiniert. Statt Dokumente zu chunken und vorab zu durchsuchen, kann SubQ Search grosse Dokumentensammlungen in einem einzigen Pass verarbeiten.


Was das für die KI-Industrie bedeutet

Wenn SubQ's Behauptungen unabhängig bestätigt werden, hat das weitreichende Konsequenzen. Die gesamte Infrastruktur, die heute um die Limitierungen von Transformer-Modellen herum gebaut wurde – RAG-Pipelines, Vector-Datenbanken, Chunking-Strategien, Multi-Agent-Orchestrierung – verliert ihre Daseinsberechtigung. Das sind Milliarden-Dollar-Märkte, die auf einem Fundament stehen, das SubQ zu erschüttern behauptet.

Gleichzeitig ist Vorsicht angebracht. Die Geschichte der KI ist voll von Architekturen, die ähnliche Versprechen gemacht haben. Mamba und andere State-Space-Modelle wurden als Transformer-Killer angekündigt – und haben sich in der Praxis nicht auf Frontier-Niveau skalieren lassen. SubQ könnte das gleiche Schicksal erleiden. Die entscheidende Frage ist nicht, ob die Architektur bei 12 Millionen Token funktioniert, sondern ob sie auf die Modellgrösse und Aufgabenbreite skaliert, die für Frontier-Anwendungen erforderlich sind.

Das Unternehmen hat angekündigt, bis Ende 2026 100 Millionen Token zu erreichen. Das wäre eine Kontextlänge, bei der sich der Designraum für KI-Anwendungen fundamental verändert. Bei 100 Millionen Token kann ein Modell die gesamte Produktionsdatenbank eines mittelgrossen Unternehmens in einem einzigen Pass verarbeiten. Das sind keine inkrementellen Verbesserungen – das ist eine andere Kategorie von Möglichkeiten.


Fazit: Durchbruch oder Vaporware?

SubQ ist zu neu, um ein abschliessendes Urteil zu fällen. Die Architektur ist mathematisch kohärent, die Benchmarks sind drittpartei-verifiziert, das Team ist glaubwürdig, und die Investoren sind erfahren genug, um Hype von Substanz zu unterscheiden. Das sind gute Zeichen.

Gleichzeitig ist die Benchmark-Auswahl eng, das Model Card fehlt noch, und die unabhängige Reproduktion der 1.000-fachen Effizienzbehauptung steht aus. Die Forschungsgemeinschaft fordert zu Recht mehr Transparenz.

Was SubQ bereits jetzt zeigt, ist, dass die quadratische Skalierung kein unabänderliches Naturgesetz ist. Ob Subquadratic das Unternehmen ist, das dieses Problem endgültig löst, oder ob es den Weg für andere ebnet – die Richtung ist klar. Die nächste Generation von KI-Modellen wird nicht mehr durch die Quadratwurzel ihrer Eingabelänge limitiert sein.


Quellen: Subquadratic – Introducing SubQ | VentureBeat – Miami startup Subquadratic claims 1,000x AI efficiency gain | eWeek – Subquadratic Launches SubQ | Towards AI – A 4-Person Miami Startup Just Made AI Attention 52x Faster | Pulse2 – Subquadratic $29M Seed

Artikel teilen

Cookie-Einstellungen

Wir verwenden Cookies und ähnliche Technologien, um die Nutzung unserer Website zu analysieren und Ihnen ein besseres Erlebnis zu bieten. Mit Ihrer Zustimmung verwenden wir Google Analytics, um anonymisierte Statistiken über die Websitenutzung zu sammeln. Sie können Ihre Einwilligung jederzeit widerrufen.