KI-Wissen14. April 2026 · 14 Min. Lesezeit

Voice Agents 2026 – VAPI, Retell, Synthflow & Co. im Vergleich: Kosten, Funktionen und was wirklich funktioniert

Sie haben es bestimmt schon erlebt: Sie rufen bei einer Hotline an, und statt eines Menschen meldet sich eine KI-Stimme. Kein starres „Drücken Sie die 1 für Buchhaltung“ mehr – sondern ein Gespräch, das sich fast natürlich anfühlt. Diese Technologie heißt „Voice Agent“ – und sie verändert gerade, wie Unternehmen mit ihren Kunden telefonieren. Doch welche Plattform passt zu welchem Unternehmen? Was kostet das wirklich? Und warum sind die 5 Cent pro Minute, die manche Anbieter bewerben, nur die halbe Wahrheit?

Was ist ein Voice Agent – und warum reden alle darüber?

Ein Voice Agent ist ein KI-System, das am Telefon wie ein Mensch spricht, zuhört und reagiert. Anders als die nervigen Sprachmenüs der Vergangenheit („IVR-Systeme“) versteht ein moderner Voice Agent natürliche Sprache, erkennt Absichten und kann Aktionen auslösen: Termine buchen, CRM-Daten aktualisieren, Bestellstatus abrufen oder einen Anruf an einen Menschen weiterleiten, wenn es komplex wird.

Die Technik dahinter ist ein Zusammenspiel mehrerer KI-Bausteine:

STT (Speech-to-Text): Wandelt die gesprochene Sprache des Anrufers in Text um. Anbieter: Deepgram, OpenAI Whisper, AssemblyAI.

LLM (Large Language Model): Analysiert den Text, versteht die Absicht und formuliert eine Antwort. Hier kommen Modelle wie GPT-4, Claude oder Gemini zum Einsatz.

TTS (Text-to-Speech): Wandelt die KI-Antwort zurück in natürlich klingende Sprache. ElevenLabs, Azure, Play.ht oder die Stimmen der Plattform selbst.

Telefonie: Die Verbindung zum echten Telefonnetz – über SIP-Trunking, Twilio, Telnyx oder eigene Infrastruktur.

Laut der MUUUH! Voice Studie 2026 haben bereits 55 Prozent der Deutschen ein solches Telefonerlebnis gehabt. 46 Prozent glauben, dass KI-Telefonassistenten in wenigen Jahren die meisten Serviceanfragen lösen werden. Gleichzeitig lehnen 60 Prozent die Technologie noch ab – vor allem wegen schlechter Erfahrungen mit veralteten Systemen.

Warum „5 Cent pro Minute“ eine Milchmädchenrechnung ist

Das größte Missverständnis im Voice-Agent-Markt betrifft die Kosten. Viele Plattformen werben mit niedrigen Minutenpreisen – aber diese decken oft nur die Orchestrierung ab, also den „Dirigenten“, der die einzelnen Bausteine zusammenhält. Die eigentliche Musik – Spracherkennung, KI-Modell, Stimme und Telefonie – kostet extra.

Ein konkretes Beispiel: VAPI bewirbt 0,05 $ pro Minute. Dazu kommen aber noch die Kosten für das LLM (0,06–0,10 $ je nach Modell), für STT und TTS (je nach Anbieter 0,01–0,05 $) und für Telefonie (0,01–0,03 $). In der Praxis landen Sie bei 0,07 bis 0,33 $ pro Minute – also bis zum Sechsfachen des beworbenen Preises.

Für ein Unternehmen mit 5.000 Gesprächsminuten pro Monat bedeutet das:

Plattform Kosten pro Min. 5.000 Min./Monat Bemerkung
VAPI 0,15–0,33 $ (real) 750–1.650 $ Beworbene 0,05 $ = nur Plattform
Retell AI ab 0,07 $ ab 350 $ Flat Rate, kein Plattform-Fee extra
Bland AI ab 0,09 $ ab 450 $ + Transferkosten, Voicemail-Kosten
Synthflow ca. 0,19–0,23 $ 375–900 $/Monat (Abo) Abo-Modell mit Minutenkontingent
Telnyx ab 0,08 $ ab 400 $ Eigene Telefonie-Infrastruktur
Fonio AI (DE) Pay-per-Use variabel DSGVO, keine Grundgebühr
Parloa (DE) individuell Enterprise-Pricing Großunternehmen, Contact Center

Die Kosten hängen also stark davon ab, welches Modell Sie einsetzen und wie viele Bausteine die Plattform mitbringt. Integrierte Lösungen wie Retell AI oder Telnyx bündeln die Kosten transparent. Modulare Plattformen wie VAPI geben Ihnen maximale Kontrolle – aber auch maximale Kostenkomplexität.

Die großen internationalen Plattformen im Detail

VAPI – der Baukasten für Entwickler

VAPI ist die bekannteste Plattform im Voice-Agent-Markt und richtet sich klar an technische Teams. Sie funktioniert wie ein Baukasten: Sie bringen Ihr eigenes LLM mit (OpenAI, Anthropic, Google), wählen Ihren STT-Anbieter (Deepgram, AssemblyAI), Ihren TTS-Anbieter (ElevenLabs, Azure) und Ihre Telefonie (Twilio, Vonage). VAPI orchestriert das Zusammenspiel.

Stärken: Maximale Flexibilität, über 4.200 Konfigurationsmöglichkeiten, Bring-your-own-Model, Squad-Feature für spezialisierte Agenten, Flow Studio als visueller Editor.

Schwächen: Ohne Entwickler kaum nutzbar. Die Gesamtkosten sind schwer kalkulierbar, weil Sie 4–6 verschiedene Dienste separat bezahlen. Der Trustpilot-Score liegt bei 2,6 von 5 – vor allem wegen Preistransparenz und Support. HIPAA-Compliance kostet 1.000 $ extra pro Monat.

Typische Gesamtkosten: 0,15–0,33 $ pro Minute. Für 1.000 Minuten monatlich realistisch 250–400 $, ohne HIPAA.

Am besten für: Entwicklerteams, die volle Kontrolle über jeden Baustein wollen und intern die Kapazität haben, mehrere Dienste zu verwalten.

Retell AI – transparentes Preismodell, schneller Start

Retell AI bündelt die Voice-Pipeline in eine Plattform: Spracherkennung, LLM-Anbindung, Stimme und Telefonie in einem. Kein separates Jonglieren mit fünf Anbietern. Das Pricing ist nutzungsbasiert ab 0,07 $ pro Minute – ohne zusätzliche Plattformgebühr.

Stärken: Transparentes Pricing, ca. 600 ms Latenz, SOC 2 Type II zertifiziert, HIPAA-konform ohne Aufpreis, 4,8/5 auf G2. Sowohl No-Code-Builder als auch volle API-Kontrolle. Post-Call-Analyse zeigt automatisch gebuchte Termine, ungelöste Fälle und Sentiment.

Schwächen: Die Gesamtkosten können steigen, wenn Sie externe LLM- oder TTS-Anbieter zuschalten. Die Plattform ist jünger als VAPI und hat noch nicht den gleichen Bekanntheitsgrad.

Typische Gesamtkosten: Ab 0,07 $ pro Minute. 5.000 Minuten = ca. 350 $.

Am besten für: Unternehmen, die schnell starten wollen, planbare Kosten brauchen und sowohl No-Code als auch API-Zugang schätzen.

Synthflow – No-Code für schnelle Ergebnisse

Synthflow setzt auf visuelles Bauen ohne Code. Sie ziehen Gesprächsbausteine per Drag & Drop zusammen, wählen eine Stimme (u.a. über ElevenLabs in 30+ Sprachen) und können innerhalb weniger Stunden einen Voice Agent live schalten.

Stärken: Schnellster Einstieg, kein Entwickler nötig, Integrationen mit HubSpot, Salesforce, Stripe, Cal.com. Voice Cloning möglich. Agency-Dashboard für Agenturen.

Schwächen: In Tests zeigten sich Probleme bei unerwarteten Fragen – der Agent verlor den Faden. Die Basic-Pläne bieten eingeschränkte Funktionen. Glitchy Dashboard und Support-Probleme werden von Nutzern häufig genannt. Weniger Kontrolle als bei API-first-Lösungen.

Preismodell: Abo-basiert. Pro ab 375 $/Monat (2.000 Min., 25 gleichzeitige Anrufe), Growth ab 900 $/Monat (4.000 Min.), Agency ab 1.400 $/Monat.

Am besten für: Kleine Teams und Agenturen, die ohne Entwickler schnell loslegen wollen – solange das Anrufvolumen niedrig bleibt.

Bland AI – Outbound-Maschine für große Volumina

Bland AI ist auf Massentelefonie ausgelegt. Die Plattform läuft auf dedizierten GPUs und kann bis zu eine Million gleichzeitige Anrufe verarbeiten. Der Fokus liegt auf Outbound-Kampagnen: Kaltakquise, Leadqualifizierung, Terminerinnerungen.

Stärken: Eigene Infrastruktur, niedrige Latenz auch bei hohem Volumen, hochwertige Stimmen mit Emotionen und Akzenten, starke Compliance-Features, HIPAA-konform auf Business-Tier.

Schwächen: Die Einrichtung fühlt sich an wie Backend-Konfiguration, nicht wie Agent-Building. Preise sind nicht öffentlich einsehbar – Sie müssen den Vertrieb kontaktieren. Nicht für kleine und mittlere Unternehmen gedacht.

Typische Kosten: Ab 0,09 $ pro Minute für ein- und ausgehende Anrufe, plus Zusatzkosten für Transfers, Voicemail und Multilingual-Transkription. Realistisch 1.200–1.500 $ pro Monat bei mittlerem Volumen.

Am besten für: Enterprise-Teams mit eigenem Entwicklerteam und hohem Outbound-Volumen.

Telnyx – der Telefonanbieter, der KI dazugebaut hat

Telnyx ist ein lizenzierter Telekommunikationsanbieter in über 30 Märkten und hat Voice AI direkt in seine Infrastruktur integriert. Kein Zwischenhändler, kein Twilio als Mittelsmann – die Anrufe laufen direkt über Telnyx-eigene Server.

Stärken: Ab 0,08 $ pro Minute All-inclusive, eigene Telefonie-Infrastruktur, niedrigere Latenz durch weniger Zwischenstationen, transparentes Pricing.

Schwächen: Weniger bekannt im reinen Voice-Agent-Markt, weniger Community und Tutorials als VAPI.

Am besten für: Unternehmen, die hohe Anrufvolumina haben und von der Telefonie-Integration profitieren.

Deutsche und DACH-Anbieter – DSGVO inklusive

Für Unternehmen in Deutschland, Österreich und der Schweiz ist DSGVO-Konformität keine Option, sondern Pflicht. Die internationalen Plattformen hosten Daten oft in den USA – für viele Branchen (Gesundheit, Finanzen, öffentlicher Sektor) ein Ausschlusskriterium. Deshalb wachsen im DACH-Raum spezialisierte Anbieter:

Fonio AI richtet sich an KMU, die ihre telefonische Erreichbarkeit schnell automatisieren wollen. Pay-per-Use ohne monatliche Grundgebühr, Hosting in Deutschland (Hetzner, Nürnberg), LLM über Azure EU. Kein Code nötig – ein „smarter Anrufbeantworter“, der qualifiziert, weiterleitet und transkribiert. Ideal für den Einstieg, aber ohne Omnichannel-Integration (kein Chat, kein WhatsApp aus einer Plattform).

HalloPetra ist eine KI-Bürokraft speziell für Handwerksbetriebe. Sie nimmt Anrufe an, qualifiziert Anfragen, bucht Termine und schickt SMS-Bestätigungen. Branchenlogik für Handwerker ist eingebaut – der Agent fragt die richtigen Fragen für Heizungsbauer, Elektriker oder Dachdecker. Server in Frankfurt, Datenräume pro Betrieb getrennt.

Parloa spielt in einer anderen Liga: Enterprise-Plattform für große Contact Center, tiefgehende CCaaS-Integration, Sentiment-Erkennung, Multi-Agent-Orchestrierung. Kunden wie Eurowings und große Versicherungen. Nicht für KMU gedacht – Projektkosten im hohen fünf- bis sechsstelligen Bereich.

Comdesk kombiniert KI-VoiceAgent mit einer Cloud-Telefonanlage. Besonders interessant für Unternehmen, die bereits Comdesk als Telefonlösung nutzen – der Voice Agent integriert sich nahtlos. Dashboard mit Live-Transkription, Gesprächszusammenfassung und Sentiment-Analyse.

Placetel (Teil von Sipgate) integriert Voice AI direkt in die Cloud-PBX. Wenn Sie bereits Placetel-Kunde sind, können Sie den KI-Assistenten ohne separates System aktivieren. Ideal für KMU mit bestehender Placetel-Telefonie.

Funktionsvergleich: Was kann welche Plattform?

Funktion VAPI Retell Synthflow Bland Fonio
No-Code BuilderEingeschränktJaJaNeinJa
API-ZugangVollVollEingeschränktVollNein
Eigenes LLM wählbarJaJaEingeschränktJaNein
Wissensdatenbank (RAG)JaJaJaJaBegrenzt
Weiterleitung an MenschJaJaJaJaJa
DSGVO-konform / EU-HostingNein (US)Nein (US)Nein (US)Nein (US)Ja (DE)
Deutsch als SpracheJaJaJaJaJa
Latenz (typisch)500–800 ms~600 msvariabelniedrigvariabel

Die versteckten Kosten – worauf Sie achten müssen

Neben dem offensichtlichen Minutenpreis gibt es bei Voice Agents eine Reihe von Kosten, die erst im Produktivbetrieb sichtbar werden:

Gleichzeitige Anrufe (Concurrency): Die meisten Plattformen limitieren, wie viele Anrufe gleichzeitig laufen können. Zusätzliche Leitungen kosten bei VAPI z.B. 10 $ pro Leitung pro Monat.

Telefonnummern: Lokale oder gebührenfreie Nummern kosten monatlich extra – typisch 1–5 $ pro Nummer.

Stille Minuten: Bei VAPI zahlen Sie für jede Minute, in der der Agent aktiv ist – auch wenn der Anrufer in der Warteschleife hängt oder schweigt.

Anrufweiterleitungen: Bei Bland AI kosten Transfers 0,025 $ pro Minute extra.

Fehlgeschlagene Anrufe: Bei Outbound-Kampagnen fallen auch für nicht zustande gekommene Verbindungen Kosten an (Bland: 0,015 $ Mindestkosten pro Versuch).

HIPAA-Compliance: VAPI berechnet 1.000 $ pro Monat, Retell AI bietet es ohne Aufpreis an, Bland inklusive im Business-Tier.

Voice Cloning / Premium-Stimmen: Hochwertige Stimmen oder eigene Stimmklone kosten bei den meisten Anbietern extra.

Für wen lohnt sich ein Voice Agent – und für wen nicht?

Lohnt sich, wenn: Sie hohes Anrufvolumen haben (ab ca. 500+ Anrufe pro Monat), wiederkehrende Standardfragen (Terminbuchung, Bestellstatus, Öffnungszeiten) und ein definiertes Budget. Besonders sinnvoll in: Arztpraxen, Handwerksbetrieben, E-Commerce, Versicherungen, Immobilienverwaltung.

Lohnt sich (noch) nicht, wenn: Ihre Kundenanfragen komplex und emotional sind, Sie weniger als 100 Anrufe pro Monat bekommen, oder Ihre internen Prozesse noch nicht digital abgebildet sind. Wie eine aktuelle Analyse zusammenfasst: Voice-Automatisierung ist für viele KMU überdimensioniert, solange Basisprozesse noch nicht digitalisiert sind.

DACH-spezifisch: Fast 45 Prozent der deutschen KMU hatten bis 2025 überhaupt keine Berührungspunkte mit KI-Technologie. Wer heute startet, kann sich einen echten Vorsprung im eigenen Markt sichern – besonders in Branchen mit hohem Telefonaufkommen wie Handwerk, Gesundheitswesen und Hausverwaltung.

Unsere Einschätzung: Welche Plattform für welchen Fall?

KMU ohne Entwickler, schneller Start, DSGVO wichtig:
Fonio AI oder HalloPetra (Handwerk). Einstieg ab wenigen Cent pro Minute, keine Grundgebühr, EU-Hosting.

Wachsendes Unternehmen, planbare Kosten, API + No-Code:
Retell AI. Transparentes Minutenpricing, schneller Go-Live, gute Skalierbarkeit.

Agentur oder SaaS mit Reseller-Bedarf:
Synthflow (Agency-Plan) oder Retell AI (White-Label-Option).

Technisches Team, maximale Kontrolle:
VAPI. Volle Flexibilität, aber planen Sie Entwicklerkapazität und Kosten-Monitoring ein.

Enterprise mit 100.000+ Anrufen/Monat:
Bland AI (Outbound-Fokus) oder Parloa (DACH, Contact Center).

Was Ihre Kunden wirklich erwarten

Die MUUUH! Voice Studie 2026 zeigt klar, was Anrufer von einem KI-Telefonassistenten erwarten:

Sofortige Weiterleitung an einen Menschen, wenn der Agent nicht weiterweiß – ohne erneut alles erklären zu müssen.

Unterbrechungsmöglichkeit: Kunden wollen den Agenten jederzeit mit der eigenen Stimme unterbrechen können – kein Warten auf das Ende eines Satzes.

Informationsübergabe: Was der Kunde dem Voice Agent gesagt hat, muss beim menschlichen Mitarbeiter ankommen. Niemand will seine Kundennummer dreimal wiederholen.

77 Prozent der Befragten stören sich an starren Auswahmenüs – genau das, was klassische IVR-Systeme seit Jahrzehnten tun. Moderne Voice Agents können das besser, aber nur, wenn sie richtig eingerichtet sind.

Warum die Einrichtung der schwierigste Teil ist

Die Technologie ist 2026 reif. Die Stimmen klingen natürlich, die Latenz liegt unter einer Sekunde, die Spracherkennung funktioniert auch mit Dialekt und Hintergrundgeräuschen. Was die meisten Projekte zum Scheitern bringt, ist nicht die Technik – sondern die Einrichtung.

Gesprächslogik definieren: Was soll der Agent bei welcher Frage tun? Welche Informationen muss er abfragen? Wann soll er weiterleiten? Das erfordert eine saubere Analyse Ihrer Geschäftsprozesse – bevor Sie auch nur eine Plattform auswählen.

Wissensdatenbank aufbauen: Der Agent kann nur antworten, was er weiß. FAQs, Produktinfos, Öffnungszeiten, Preislisten – alles muss strukturiert bereitgestellt werden.

Systemintegration: Kalender, CRM, Ticket-System, Telefonie – alles muss zusammenspielen. Ohne Integration ist der Voice Agent nur ein besserer Anrufbeantworter.

Testen und optimieren: Kein Voice Agent funktioniert beim ersten Versuch perfekt. Reale Testanrufe, Analyse der Gesprächsprotokolle, Feintuning der Prompts – das ist ein laufender Prozess.

Sie wollen einen Voice Agent einrichten?

Wir helfen bei Auswahl, Einrichtung und Integration

Plattformvergleich, Prozessanalyse, Anbindung an Ihre Systeme – alles per Fernwartung.

Jetzt Hilfe anfragen – ab 29 €

Kosten im Vergleich: KI-Agent vs. menschlicher Mitarbeiter

Ein menschlicher Servicemitarbeiter im Callcenter verdient in Deutschland durchschnittlich rund 20 Euro brutto pro Stunde – das entspricht etwa 33 Cent pro Minute. Ein KI-Voice-Agent kostet bei deutschen Anbietern aktuell etwa 0,08–0,15 Euro pro Minute. Das ist eine Kostenersparnis von über 60 Prozent – und der Agent macht keine Pause, wird nicht krank und kann beliebig viele Gespräche gleichzeitig führen.

Aber: Der Mensch bleibt für komplexe, emotionale und rechtlich sensible Gespräche unverzichtbar. Die besten Ergebnisse erzielen Unternehmen, die Voice Agents für Routineanfragen einsetzen und den Menschen für die wirklich wichtigen Gespräche freihalten.

Ausblick: Was kommt als Nächstes?

Gartner prognostiziert, dass bis 2029 rund 80 Prozent der Kundenservice-Anfragen von KI-Agenten bearbeitet werden. Die Kosten für KI-Telefonie sind allein 2025 um über 100 Prozent gefallen. Neue Berufsbilder entstehen: Voice Agent Designer, Conversation Analytics Manager, KI-Trainer für Voice-Systeme.

Der Trend geht zu integrierten Plattformen, die Telefonie, Chat, WhatsApp und E-Mail in einem System vereinen. Wer heute mit einem einfachen Voice Agent für Terminbuchungen oder FAQ-Antworten startet, sammelt wertvolle Erfahrungen – und hat einen Vorsprung, wenn die Technologie in den nächsten zwei Jahren noch besser und günstiger wird.

Mehr zum Thema

Passende Artikel: ChatGPT vs. Claude vs. Gemini – KI-Modelle im Vergleich | KI im Alltag – was ChatGPT & Co. wirklich können | KI-Tools im Überblick

Häufig gestellte Fragen

Was kostet ein Voice Agent wirklich?

Die realen Kosten liegen bei 0,07 bis 0,33 $ pro Minute – abhängig von der Plattform und den gewählten KI-Modellen. Beworbene 0,05 $ pro Minute sind bei Plattformen wie VAPI nur der Orchestrierungsanteil. Für 5.000 Minuten monatlich sollten Sie realistisch 350–1.650 $ einplanen.

Welche Plattform ist für kleine Unternehmen geeignet?

Für KMU im DACH-Raum empfehlen sich Fonio AI oder HalloPetra (speziell Handwerk) – DSGVO-konform, EU-Hosting, kein Entwickler nötig. International bieten Retell AI und Synthflow den schnellsten Einstieg.

Muss ich einen Entwickler haben, um einen Voice Agent einzurichten?

Nicht zwingend. No-Code-Plattformen wie Synthflow, Fonio AI oder der No-Code-Builder von Retell AI ermöglichen den Start ohne Programmierkenntnisse. Für komplexere Szenarien (CRM-Integration, Mehrsprachigkeit, eigene LLMs) brauchen Sie aber technisches Know-how.

Sind Voice Agents DSGVO-konform?

Nicht automatisch. Internationale Plattformen wie VAPI, Retell oder Bland hosten Daten in den USA. Für DSGVO-Konformität brauchen Sie einen Anbieter mit EU-Hosting (z.B. Fonio AI, HalloPetra, Placetel) oder müssen einen Auftragsverarbeitungsvertrag und geeignete Garantien sicherstellen.

Erkennen Kunden, dass sie mit einer KI sprechen?

Die Stimmen sind 2026 kaum noch von echten Menschen zu unterscheiden. Entscheidend ist die Gesprächslogik: Wenn der Agent bei unerwarteten Fragen abbricht oder in Schleifen gerät, merken Kunden es sofort. Eine gut konfigurierte Lösung mit sauberer Weiterleitung an Menschen fällt dagegen kaum auf.

Sie zahlen nur bei Erfolg

Können wir Ihr Problem nicht lösen, berechnen wir Ihnen nichts. So einfach ist das.

30min
Kurztermin
29
Euro
Bis 30 Minuten
60min
Standardtermin
59
Euro
Bis 60 Minuten
90min
Langtermin
89
Euro
Bis 90 Minuten
+15min
Zusatzzeit
15
Euro
Je angefangene 15 Minuten

Alle angegebenen Preise sind Endpreise. Gemäß § 19 UStG wird keine Umsatzsteuer berechnet und daher nicht ausgewiesen.

Beschreiben Sie Ihr Problem

Wir melden uns bei Ihnen und finden eine Lösung.

Wir melden uns innerhalb weniger Stunden bei Ihnen.