Die Frage taucht in fast jedem KI-Gespräch irgendwann auf: was wäre, wenn man die drei besten Sprachmodelle nicht nacheinander, sondern gleichzeitig befragt und ihre Antworten zu einer einzigen besseren Antwort verschmilzt? Das Konzept hat einen Namen, eine Forschungslinie und mehrere produktive Umsetzungen. Es heißt Mixture of Agents, die Grundlagenarbeit dazu ist seit Sommer 2024 öffentlich, und in der täglichen Praxis nutzen größere Anbieter wie Perplexity oder You.com Varianten davon längst, ohne es an die große Glocke zu hängen. Dieser Artikel sortiert ein, was die Methode taugt, wo sie nichts bringt und wann der Aufwand für ein mittelständisches Unternehmen tatsächlich Sinn ergibt.

Schreibtisch mit drei aufgeschlagenen Notizbüchern in unterschiedlicher Handschrift, daneben ein viertes leeres Blatt und ein Stift, Tageslicht von links — Drei Notizen mit unterschiedlicher Handschrift — und am Ende braucht es jemanden, der daraus eine saubere Zusammenfassung schreibt.

Die Idee in einem Absatz

Ein einzelnes Sprachmodell hat blinde Flecken. Es ist auf bestimmten Datenmengen trainiert, mit bestimmten Verfahren ausgerichtet und tendiert deshalb zu wiederkehrenden Fehlern. Claude antwortet anders als GPT, GPT anders als Gemini, Llama anders als Mistral. Bei einfachen Aufgaben fällt das kaum auf. Bei mittelschweren bis schweren Aufgaben — tieferer Code-Review, Strategie-Brainstorm, juristische Auslegungen, mehrstufige mathematische Beweise — treten die Eigenheiten klar zutage. Mixture of Agents schickt dieselbe Anfrage parallel an mehrere Modelle und übergibt deren Antworten einem weiteren Modell, das daraus eine kombinierte Antwort baut. Dieses letzte Modell heißt in der Literatur Aggregator. Es ist nicht klüger als jedes einzelne Mitglied im Team, aber es sieht ihre Antworten nebeneinander und kann widersprechende oder unsichere Stellen erkennen.

Die Analogie zu menschlicher Teamarbeit liegt nahe und führt trotzdem in die Irre. Sprachmodelle diskutieren nicht. Sie schreiben einen Text und sind danach fertig. Was die Methode wirklich nutzt, ist ein statistischer Effekt: wenn drei Modelle aus drei verschiedenen Trainingstraditionen unabhängig voneinander zur selben Aussage kommen, ist die Wahrscheinlichkeit höher, dass die Aussage stimmt, als wenn nur eines dieser Modelle sie liefert. Wo sie widersprechen, ist mindestens eines unsicher — und der Aggregator kann diese Unsicherheit sichtbar machen, statt sie unter selbstbewusster Formulierung zu verstecken.

Was Together AI 2024 gezeigt hat

Die wissenschaftliche Grundlage wurde im Juni 2024 vom kalifornischen Anbieter Together AI veröffentlicht. Das Team baute eine Pipeline aus sechs Open-Source-Modellen, schichtete sie in mehreren Lagen übereinander und ließ ein abschließendes Modell die Synthese erzeugen. Auf dem damals üblichen Benchmark AlpacaEval 2.0 erreichte diese Konstruktion einen Wert, der über dem von GPT-4 Omni lag — obwohl in der Konstruktion ausschließlich frei verfügbare Modelle steckten, von denen keines einzeln auch nur in die Nähe von GPT-4 Omni kam. Das war der Moment, in dem das Thema die Forschungsblase verlassen hat. Wenn man aus mehreren mittelmäßigen Modellen ein gemeinsames Ergebnis ziehen kann, das ein einzelnes Spitzenmodell schlägt, dann ist Modellauswahl nicht mehr die einzige Stellschraube, an der man drehen kann. Architektur wird zum zweiten Hebel.

Inzwischen ist die Lage differenzierter. Die Top-Modelle der drei großen Anbieter sind so weit nach vorne gerückt, dass der Abstand zwischen einem Mixture-of-Agents-Aufbau und einem Einzel-Spitzenmodell auf gängigen Benchmarks oft nur noch fünf bis zehn Prozent beträgt. Das ist viel weniger als die ursprüngliche Schlagzeile suggerierte. Es ist aber immer noch viel, wenn die Aufgabe geschäftskritisch ist. Und in einer Disziplin, die die Hersteller bisher kaum systematisch trainieren, ist der Effekt sogar gewachsen: bei Halluzinationen, also frei erfundenen Behauptungen, ist die Wahrscheinlichkeit deutlich niedriger, dass alle drei Modelle dieselbe Erfindung produzieren. Wer Mixture of Agents heute einsetzt, tut das selten wegen der nackten Benchmark-Punkte. Er tut es, weil er Halluzinationen unter Kontrolle bringen will.

Fertige Werkzeuge, die es heute gibt

Vor dem Eigenbau lohnt ein Blick auf das, was bereits einsatzbereit ist. Auf der Open-Source-Seite ist Big-AGI das prominenteste Werkzeug. Es läuft im Browser oder auf einem eigenen Server, schickt eine Anfrage gleichzeitig an mehrere konfigurierte Modelle und zeigt die Antworten nebeneinander an. Per Knopfdruck lässt sich ein viertes Modell beauftragen, die besten Stücke zu einer kombinierten Antwort zu verschmelzen. Das ist Mixture of Agents in seiner einfachsten produktiven Form — ohne Vertrag, ohne Programmierung, aber auch ohne Automatisierung. Wer einen schnellen Eindruck haben möchte, was die Methode bringt, ist hier gut aufgehoben.

OpenRouter ist demgegenüber kein echtes Ensemble, sondern ein Modell-Router. Eine Anfrage geht an genau ein Modell, das nach Regeln ausgewählt wurde — etwa nach Preis, Geschwindigkeit oder verfügbarer Kapazität. Das ist nützlich, um Ausfallsicherheit zu erzeugen oder Kosten zu optimieren, hat mit der eigentlichen Idee von Mixture of Agents aber nichts zu tun. Wer das verwechselt, kauft eine Lastverteilung und glaubt, eine Qualitätssteigerung gekauft zu haben. Poe von Quora wiederum bietet Zugriff auf viele Modelle, lässt sie aber sequentiell antworten — auch hier kein Ensemble, sondern ein bequemes Multi-Modell-Frontend. Perplexity und You.com nutzen intern eine Mischarchitektur, geben aber nicht preis, welche Modelle in welcher Reihenfolge zum Einsatz kommen. Wer dort eine Anfrage stellt, sieht das Ergebnis, nicht den Aufbau.

Wer selbst bauen möchte, hat eine Auswahl an Frameworks, die genau für diesen Zweck entstanden sind. CrewAI organisiert mehrere Agenten in Rollen und Aufgaben. LangGraph aus dem LangChain-Ökosystem modelliert die Zusammenarbeit als gerichteten Graphen und ist die Wahl, wenn die Reihenfolge der Anfragen komplizierter wird. AutoGen von Microsoft setzt auf einen Konversationsstil zwischen den Modellen. DSPy aus Stanford geht einen anderen Weg und optimiert die Aufrufe selbst, statt sie nur zu orchestrieren. Wer mit einer der drei großen Anbieter-Bibliotheken arbeitet (Anthropic SDK, OpenAI SDK, Gemini SDK), kann den ganzen Aufbau auch ohne Framework in zwei- bis dreihundert Zeilen Python erledigen.

Vier Muster, die in der Praxis vorkommen

Das erste und einfachste Muster nennt sich Parallel und Mehrheit. Die Anfrage geht an mindestens drei Modelle, und das Ergebnis ist die Antwort, die mindestens zweimal vorkommt. Das funktioniert gut bei Aufgaben mit klarer Lösung — eine Klassifikation, eine Zahl, eine Ja-Nein-Entscheidung. Es funktioniert schlecht bei offenen Aufgaben wie einem Aufsatz, weil dort selten zwei Modelle dieselben Worte wählen. Wer eine Eingangsmail in eine von zehn Kategorien einsortieren möchte, fährt mit diesem Muster gut. Wer einen Strategie-Text generieren möchte, eher nicht.

Das zweite Muster ist Parallel und Synthese. Drei Modelle erzeugen unabhängig voneinander einen Vorschlag, ein viertes Modell baut daraus eine zusammenhängende Antwort. Das ist der Klassiker aus der Together-AI-Veröffentlichung und das nützlichste Muster für längere Texte, Code-Reviews oder Analysen. Das vierte Modell sieht alle Vorschläge, gewichtet sie und schreibt eine eigene Antwort, in die es Stellen übernimmt, an denen sich die anderen einig waren, und Stellen relativiert, an denen sie sich widersprochen haben. Wer dieses Muster nutzt, möchte als Aggregator das stärkste Modell der Familie wählen — üblicherweise Claude Opus oder GPT-5 in den höheren Tarifstufen.

Das dritte Muster ist Spezialisten-Routing. Hier laufen die Modelle nicht parallel, sondern wechseln sich ab. Code-Aufgaben gehen an Claude, Recherche-Aufgaben an GPT mit aktiver Web-Suche, multimodale Aufgaben mit Bildern und Tabellen an Gemini. Die Entscheidung, welches Modell zuständig ist, trifft ein kleines, schnelles Vorab-Modell. Das spart Geld und Zeit gegenüber dem Parallel-Muster, verliert aber den Mehrheits-Effekt. Sinnvoll überall dort, wo die Aufgabenkategorien klar getrennt sind und die Stärken der einzelnen Modelle bekannt sind.

Das vierte Muster ist Debatte. Es geht auf eine Arbeitsreihe von Anthropic aus den Jahren 2022 und 2023 zurück (Originaltitel: AI Safety via Debate). Zwei Modelle bekommen dieselbe Aufgabe und werden gebeten, gegensätzliche Positionen einzunehmen. Ein drittes Modell fungiert als Schiedsrichter. Diese Methode ist aufwendig und langsam, deckt dafür aber Lücken in der Argumentation auf, die kein einzelnes Modell selbst erkennt. Für die meisten kommerziellen Anwendungen ist sie überdimensioniert. Für Risikobewertungen, juristische Vorprüfungen oder ethisch heikle Entscheidungen kann sie das Werkzeug der Wahl sein.

Was wirklich besser wird

Drei Effekte sind in unabhängigen Veröffentlichungen wiederholt gemessen worden. Erstens: weniger Halluzinationen. Wenn drei Modelle dieselbe behauptete Tatsache nennen, ist sie mit hoher Wahrscheinlichkeit gestützt. Wenn nur eines sie nennt, ist sie es selten. Der Aggregator kann diese Asymmetrie nutzen und unsichere Behauptungen entweder kennzeichnen oder weglassen. Für Anwendungen, in denen Fakten genau stimmen müssen — Produktbeschreibungen, technische Dokumentation, Rechnungstexte — ist das ein echter Gewinn.

Zweitens: weniger Modell-Eigenheiten. Jeder Anbieter trainiert seine Modelle in eine bestimmte stilistische Richtung. Claude formuliert oft vorsichtig, GPT neigt zu Listen und Aufzählungen, Gemini zu langen Aufzählungen mit Zwischenüberschriften. Wenn drei Modelle parallel arbeiten und ein viertes synthetisiert, mittelt sich diese stilistische Färbung heraus. Das Ergebnis liest sich weniger nach Sprachmodell und mehr nach einem geübten Autor, der den Stoff einfach erklärt hat.

Drittens: bessere Treffer bei schwierigen Aufgaben. Auf den anspruchsvollen Benchmarks aus dem Bereich Mathematik, Logik und Code-Verständnis liegt der Vorteil einer guten Mixture-of-Agents-Konstruktion zwischen fünf und zwölf Prozent über dem stärksten Einzelmodell. Auf einfachen Aufgaben ist der Vorteil null oder sogar negativ — ein Aggregator kann eine bereits richtige Antwort schlechter machen, wenn die anderen Modelle daneben lagen. Das ist die Stelle, an der sich die Methode am häufigsten falsch eingesetzt findet.

Was es kostet: Geld, Strom, Wartezeit

Die ehrlichste Tabelle zu Mixture of Agents ist die Tabelle der Kosten. Drei parallele Modellaufrufe kosten in etwa das Dreifache eines einzelnen Aufrufs. Der Aggregator-Aufruf kommt dazu, in der Regel als das teuerste Glied der Kette, weil er den ganzen Input der Vorgänger zu lesen bekommt. In Summe landet man bei dem Vier- bis Fünffachen der Kosten gegenüber einer einfachen Einzel-Anfrage. Bei Anwendungsfällen mit hohem Volumen — Chatbots, automatisierter Vertrieb, Massen-Klassifikation — ist das ein ernstzunehmender Faktor.

Die Wartezeit ist meist weniger problematisch als befürchtet. Wenn die drei Modelle wirklich parallel angefragt werden, wartet der Benutzer nicht dreimal so lange, sondern so lange wie das langsamste Modell braucht — plus den Aggregator-Schritt. In der Praxis sind das fünf bis fünfzehn Sekunden für eine Antwort, die mit einem einzelnen Modell drei bis sieben Sekunden gedauert hätte. Für einen Chat ist das zu langsam, für eine Hintergrund-Pipeline (Berichte über Nacht, E-Mail-Vorklassifizierung in Stapeln) völlig akzeptabel.

Der Energieverbrauch verdient eine ehrliche Erwähnung. Drei statt einer Anfrage bedeutet auch drei statt einer Strommenge in den Rechenzentren der Anbieter. Wer KI-Architektur entwirft und Wert auf einen sparsamen Umgang mit Rechenzeit legt, sollte den Mehrverbrauch in die Abwägung einbeziehen. In den meisten Fällen lässt sich das gut begründen, wenn die Antwort wirklich besser wird. In den Fällen, in denen sie nur marginal besser wird, ist Mixture of Agents Verschwendung.

Wann sich der Aufwand für ein mittelständisches Unternehmen lohnt

Es gibt drei Konstellationen, in denen wir zur Mixture-of-Agents-Architektur raten. Die erste sind Aufgaben mit hohem Folgerisiko: ein automatisiert generierter Vertragstext, ein Investment-Memo, eine medizinische oder juristische Vorprüfung, eine Risikobewertung im Einkauf. Hier ist eine zusätzliche Sicherheitsschicht jeden Euro wert, weil ein einzelner Fehler ein Vielfaches der Pipelinekosten erzeugen kann. Die zweite sind Aufgaben mit hoher Faktendichte, bei denen jede Behauptung stimmen muss: technische Datenblätter, Compliance-Texte, Produkt-Spezifikationen. Hier reduziert die Mehrfach-Abfrage die Halluzinationsquote messbar. Die dritte sind kreative oder strategische Aufgaben, bei denen drei verschiedene Modelle drei verschiedene Perspektiven liefern und die Synthese am Ende reicher ausfällt als jede Einzelantwort: Strategien, Konzepte, Drehbücher, Argumentationslinien.

In allen drei Fällen gilt: die Pipeline muss zur Aufgabe passen. Wer einen Vertragstext prüfen lässt, möchte am Ende nicht drei Vorschläge und eine charmante Synthese, sondern eine klare Bewertung. Der Aggregator-Prompt muss dafür explizit gebaut sein und darf nicht einfach das vorbereitete Standard-Mixture-of-Agents-Setup übernehmen.

Wann sich der Aufwand nicht lohnt

Bei einfachen Aufgaben — einer Antwort auf eine Standardfrage, einer Übersetzung, einer simplen Formatierung, einer kurzen E-Mail-Antwort — bringt Mixture of Agents nichts oder sogar weniger. Drei Modelle, die alle dasselbe richtige Ergebnis liefern, erzeugen einen Aggregator-Aufruf, der das Ergebnis bestenfalls neu formuliert und schlechtestenfalls verschlechtert. Hier ist ein einzelnes, gut gewähltes Modell die richtige Antwort, und der Spielraum zur Verbesserung liegt eher in einem besseren Prompt als in mehr Modellen.

Bei latenzkritischen Anwendungen, bei denen der Benutzer in Echtzeit auf eine Antwort wartet, ist die zusätzliche Wartezeit oft das Ausschlusskriterium. Ein Telefon-Bot, der nach einer Sekunde Stille schon unhöflich wirkt, kann nicht erst auf drei parallele Modellantworten und dann auf eine Aggregator-Synthese warten. Hier ist das Spezialisten-Routing aus dem dritten Muster der pragmatischere Ansatz.

Und schließlich: bei Aufgaben, in denen ein einzelnes Modell schon deutlich vor den anderen liegt, ist Mixture of Agents meistens kontraproduktiv. Wenn Claude bei einer bestimmten Code-Aufgabe in neun von zehn Fällen die richtige Antwort liefert und Gemini in nur fünf, dann zieht Gemini den Mittelwert nach unten, statt ihn anzuheben. Die Wahl der Mitglieder ist mindestens so wichtig wie die Tatsache, dass es mehrere sind.

Wo der Hype größer ist als der Effekt

Im Vertrieb wird Mixture of Agents derzeit gern als universelles Qualitätssiegel verkauft, das jede Anwendung magisch besser macht. Das ist nicht falsch, aber stark übertrieben. Die Studien, auf die in solchen Verkaufsgesprächen verwiesen wird, beziehen sich auf bestimmte Benchmarks aus bestimmten Jahren mit bestimmten Modellen. Auf andere Aufgabenklassen lässt sich der gemessene Vorteil nicht eins zu eins übertragen. Wer eine seriöse Empfehlung zu Mixture of Agents geben möchte, muss vorher die konkrete Aufgabe sehen und messen, nicht aus der Pressemitteilung von 2024 zitieren.

Auch der oft gehörte Satz „dann nutzen wir einfach die besten drei Modelle“ verdient eine Einordnung. Wer drei Modelle desselben Trainings-Stils kombiniert, erhält weniger Vielfalt als wer drei Modelle aus drei verschiedenen Familien kombiniert. Drei OpenAI-Modelle in drei Größenstufen sind kein Mixture of Agents, sondern eine teure Wiederholung. Der Mehrwert entsteht aus der Verschiedenheit der Quellen, nicht aus der Anzahl der Aufrufe.

Worauf es ankommt

Mixture of Agents ist ein Werkzeug, kein Allheilmittel. Es macht bestimmte Aufgaben messbar besser, kostet dafür aber drei- bis fünfmal so viel Rechenzeit wie ein einzelner Modellaufruf. Die Methode lohnt sich, wenn Antworten faktentreu sein müssen, wenn Folgefehler teuer sind oder wenn drei verschiedene Perspektiven die Qualität einer Synthese spürbar anheben. Sie lohnt sich nicht, wenn die Aufgabe einfach ist, die Latenz knapp ist oder ein einzelnes Modell der Aufgabe ohnehin deutlich überlegen ist.

Der pragmatische Einstieg sieht so aus: eine konkrete Aufgabe auswählen, in der heute ein einzelnes Modell arbeitet. Dasselbe Eingabematerial parallel an zwei weitere Modelle einer anderen Trainings-Familie schicken. Die drei Antworten einem starken vierten Modell mit einem klar formulierten Synthese-Prompt vorlegen. Das Ergebnis an einer kleinen Stichprobe gegen die alte Einzel-Modell-Lösung antreten lassen und die Trefferquote vergleichen. Wenn die Trefferquote um mehr als zehn Prozent steigt, lohnt sich die Pipeline. Wenn sie um weniger steigt, ist das eingesparte Geld in einem besseren Prompt besser angelegt. Wenn sie gar nicht steigt, gehört diese Aufgabe nicht zur Klasse derer, die von Mixture of Agents profitieren.

In der eigenen Manufaktur setzen wir Mixture-of-Agents-Konstruktionen in mehreren internen Pipelines ein, vor allem dort, wo automatisiert Texte für Markenanmeldungen, Compliance-Prüfungen oder technische Spezifikationen erzeugt werden. Für unsere öffentlich sichtbaren Chat-Anwendungen — FINN auf der Webseite, Julia am Telefon — nutzen wir bewusst keine, weil die Latenz dort wichtiger ist als der letzte Prozentpunkt Antwortqualität. Genau dieser Unterschied trennt eine sinnvolle von einer überdimensionierten Anwendung der Methode.

KI im Betrieb einsetzen?

Wir integrieren KI-Werkzeuge in Ihre Arbeitsabläufe — datenschutzgerecht, auf Ihren Bedarf zugeschnitten, ohne Abo-Falle.

KI-Beratung anfragen →

Weiterlesen — verwandte Artikel

KI-Schulung

Künstliche Intelligenz für Einsteiger: ChatGPT & Co. einrichten

ChatGPT, Copilot, Gemini – KI-Assistenten einrichten und im Alltag nutzen. Ohne Vorkenntnisse, Schritt für Schritt.

KI-Wissen

Text-to-CAD: Wie LLMs jetzt anfangen, 3D-Modelle zu bauen – mit Live-Demo

Aus einem einzigen Prompt entsteht ein STEP-File. Optisch sauber, mechanisch noch nicht. Was Open-Source-Projekte wie STEP-LLM und CADAM gerade können – und was das für Werkstätten, Konstrukteure und 3D-Druck-Hobbyisten bedeutet. Mit parametrischer Live-Demo im Browser.

KI-Wissen

Voice Agents 2026 – VAPI, Retell, Synthflow & Co. im Vergleich

KI-Telefonassistenten im Detail: Echte Kosten statt Marketing-Versprechen, Funktionsvergleich und was für KMU wirklich funktioniert.

Häufig gestellte Fragen

Ist Mixture of Agents dasselbe wie Mixture of Experts?

Nein. Mixture of Experts ist eine Trainings-Technik im Inneren eines einzelnen Modells. Verschiedene Experten-Teilnetze sind auf verschiedene Aufgabentypen spezialisiert, und ein interner Router entscheidet, welcher Experte für eine konkrete Eingabe aktiv wird. Die Modelle GPT-4, Mixtral und Claude Opus nutzen Mixture-of-Experts-Architekturen intern. Mixture of Agents hingegen kombiniert mehrere komplette, voneinander unabhängige Modelle. Beide Begriffe werden in Verkaufsgesprächen gerne verwechselt.

Welche Modelle eignen sich gut als Aggregator?

Der Aggregator muss in der Lage sein, lange Eingaben sauber zu verarbeiten und widersprüchliche Aussagen gegeneinander abzuwägen. In der Praxis übernehmen diese Rolle die jeweils stärksten Modelle der drei großen Anbieter, also Claude Opus, GPT-5 in den höheren Tarifstufen oder Gemini 2 Ultra. Schwächere Modelle als Aggregator führen häufig zu schlechteren Ergebnissen als ein einzelner starker Modellaufruf.

Funktioniert Mixture of Agents auch mit lokal gehosteten Open-Source-Modellen?

Ja, und es ist sogar einer der Hauptanwendungsfälle für ernsthafte lokale Setups. Drei mittelgroße Open-Source-Modelle (zum Beispiel Llama 3, Qwen, Mistral) auf eigener Hardware können in Kombination Ergebnisse erzeugen, die mit einem einzelnen Cloud-Spitzenmodell konkurrieren. Voraussetzung ist genügend Rechenleistung für drei parallele Inferenzen, in der Regel zwei oder mehr leistungsfähige Grafikkarten.

Wie viele Modelle sind optimal — drei, fünf, mehr?

Veröffentlichte Messungen zeigen den größten Sprung beim Übergang von einem auf drei Modelle. Zwischen drei und fünf gibt es noch kleine Verbesserungen, ab fünf oder sechs flacht die Kurve stark ab. Drei ist in fast allen praktischen Anwendungen der vernünftige Standard. Mehr Modelle bedeuten linear mehr Kosten bei unterproportional besserem Ergebnis.

Können wir Mixture of Agents mit eigenen, fachspezifischen Modellen kombinieren?

Ja, und das ist einer der interessantesten Anwendungsfälle für Unternehmen mit eigenen Datenbeständen. Ein auf interne Dokumente angepasstes Modell liefert die fachliche Tiefe, zwei allgemeine Cloud-Modelle bringen sprachliche Breite und allgemeines Weltwissen, ein vierter Aggregator führt zusammen. Diese Konstruktion ist aufwendig im Aufbau, hat aber das beste Verhältnis aus Fachkompetenz und Sprachqualität.

Welche Datenschutz-Aspekte muss ich beachten?

Jeder zusätzliche Modellanbieter in einer Pipeline ist ein zusätzlicher Auftragsverarbeiter im Sinne von Art. 28 DSGVO. Wer Eingaben mit personenbezogenen Daten an drei Anbieter parallel schickt, braucht drei Auftragsverarbeitungsverträge und muss die Datenflüsse in den Verarbeitungsverzeichnissen abbilden. Bei sensiblen Eingaben ist ein hybrider Aufbau mit einem lokalen Modell plus einem oder zwei Cloud-Modellen oft die saubere Lösung.

Lässt sich Mixture of Agents in bestehende Pipelines nachrüsten?

Meist ja. Wenn die bestehende Pipeline bereits einen Modellaufruf in einer abgegrenzten Funktion oder einem Microservice kapselt, lässt sich dieser Aufruf durch eine Mixture-of-Agents-Variante ersetzen, ohne den Rest der Anwendung anzufassen. Wichtig ist die Beobachtbarkeit: Antwortzeiten, Modellkosten und Fehlerquoten sollten je Modell separat ausgewertet werden können, sonst lässt sich nicht erkennen, welches Mitglied der Kette schwächelt.

Was kostet ein produktiver Mixture-of-Agents-Aufbau im laufenden Betrieb?

Die laufenden Kosten setzen sich aus drei parallelen Modellaufrufen plus einem Aggregator-Aufruf zusammen. In der Summe etwa das Vier- bis Fünffache eines einzelnen Aufrufs an dem stärksten Modell. Wer das Verfahren nur auf besonders kritische Anfragen anwendet und einfache Anfragen weiterhin mit einem einzelnen Modell bedient, hält die Mehrkosten überschaubar — oft im einstelligen Prozentbereich der ursprünglichen Modellkosten.