Katja
de-DE-KatjaNeural
10 deutsche Microsoft-Edge-Stimmen aus Deutschland, Österreich und Schweiz, jede mit echter Hörprobe desselben deutschen Textes. Plus Open-Source-Alternativen, Browser-Sprachsynthese und ein ehrlicher Blick auf die kommerziellen Anbieter.
Damit Stimmen vergleichbar sind, liest jede genau denselben Text vor — mit ä, ö, ü, ß, schwierigen zusammengesetzten Wörtern und Anglizismen, die deutsche Sprachausgabe traditionell ins Stolpern bringt.
„Moin im Münsterland! Die Netzhandwerker — Manufaktur für Digitales — bauen Künstliche-Intelligenz-Lösungen, Webseiten und Fernwartungs-Werkzeuge für mittelständische Unternehmen. Unsere Maßnahmen reichen von Schulungen über Workflow-Automatisierung bis zur Eigenentwicklung. Eigentum statt Abonnement, in deutscher Hand und mit Werkstatt-Mentalität: schöne Größenordnung, klare Zuständigkeiten, ehrliche Preise."
Microsofts Neural-TTS-Stimmen sind die mit Abstand größte und qualitativ konsistenteste Sammlung deutscher KI-Stimmen, die ohne API-Anmeldung nutzbar ist. Sie laufen über die Sprachausgabe-Funktion des Edge-Browsers (auch bekannt als „Read Aloud") und lassen sich technisch auch außerhalb davon ansprechen. Lizenz-Hinweis am Ende der Liste.
de-DE-KatjaNeural
de-DE-ConradNeural
de-DE-AmalaNeural
de-DE-KillianNeural
de-DE-FlorianMultilingualNeural
de-DE-SeraphinaMultilingualNeural
de-AT-IngridNeural
de-AT-JonasNeural
de-CH-LeniNeural
de-CH-JanNeural
Microsoft hat das öffentlich zugängliche Stimmen-Inventar des Edge-Read-Aloud-Endpoints inzwischen auf 10 deutsche Voices reduziert. Weitere 11 Neural Voices — Bernd, Christoph, Elke, Gisela, Kasper, Klarissa, Klaus, Louisa, Maja, Ralf und Tanja — gibt es weiterhin, aber nur noch über die zahlungspflichtige Azure-Cognitive-Services-API. Wer diese Stimmen kommerziell und stabil braucht, kommt an Azure (4 $ pro 1 Mio Zeichen) nicht vorbei.
Edge-TTS-Stimmen sind über den Edge-Browser („Vorlesen"-Funktion) ohne Bezahlung zugänglich. Die direkte API-Nutzung außerhalb des Browsers bewegt sich in einem Graubereich — Microsoft hat sie nicht offiziell für kommerzielle Drittnutzung freigegeben. Für kommerzielle Audio-Produktionen empfehlen wir die zahlungspflichtige Azure-Cognitive-Services-API mit denselben Stimmen oder einen sauber lizenzierten Anbieter wie ElevenLabs. Die Hörproben hier sind als technischer Vergleich zu verstehen.
Jeder moderne Browser kann Text vorlesen — über die im Betriebssystem installierten Stimmen. Qualität und Auswahl hängen von Ihrem Gerät ab: macOS hat hochwertige Stimmen (Anna, Petra, Markus), Windows liefert Microsoft Hedda/Stefan, Android nutzt Google-TTS, iOS hat Anna/Helena. Live-Test:
Hinweis: Die Stimmen kommen direkt von Ihrem Gerät — Anzahl und Qualität variieren je nach Betriebssystem und Browser. Auf manchen Linux-Systemen ist gar keine TTS installiert.
Wenn Sie eine TTS-Stimme dauerhaft nutzen wollen — kommerziell, im Produkt, in Geräten — sind lokal laufende Open-Source-Modelle die saubere Wahl. Kein API-Vendor, keine Tracking-Sorgen, keine Lizenz-Grauzone. Drei sinnvolle Kandidaten für Deutsch:
Schnelles Neural-TTS, läuft auf Raspberry Pi und Mini-PCs. Mehrere deutsche Stimmen (Thorsten, Eva-K, Karlsson, Kerstin), in der Qualität nah an Microsoft-Stimmen. Apache-2-Lizenz, kommerziell frei.
Größerer Modell-Zoo, deutsche Stimmen u. a. Thorsten-Voice (gespendet von Thorsten Müller, Open-Source-Community). Etwas schwerer im Setup, dafür mehr Kontrolle über Klang und Sprechtempo. MPL-2.
Robotisch klingend, aber winzig (kB statt MB), startet sofort, läuft auf jeder Hardware. Gut für Accessibility-Anwendungen, Screen-Reader, Notfall-Ansagen. GPL-3.
Dataset eines deutschen Open-Source-Enthusiasten, der seine eigene Stimme freigegeben hat. Wird in Piper, Coqui und Mozilla TTS genutzt. Liebevolles Community-Projekt mit hervorragender Qualität für eine freie Stimme.
Java-basiert, vom DFKI mitentwickelt, historisch sehr verbreitet im akademischen Umfeld. Klang heute etwas hinter Piper/Coqui zurück, aber gut dokumentiert und stabil.
Schlanker Piper-Vorgänger von Mycroft AI. Wird seit Mycroft-Insolvenz nicht mehr aktiv weiterentwickelt, läuft aber stabil und hat brauchbare deutsche Stimme. Eher für Bastel-Setups.
Schnelle Web-Generatoren, die eine begrenzte Anzahl Zeichen pro Tag oder Monat ohne Bezahlung erlauben. Gut für Einzeltexte, nicht geeignet für laufende Pipelines.
Online-Reader mit deutschen Stimmen. Free-Tier: ein paar tausend Zeichen pro Tag, kein Download im freien Tarif.
Simple Web-Oberfläche, MP3-Download direkt möglich. Wirbt mit deutschen Stimmen (u. a. Marlene, Hans). Free-Tier ca. 3.000 Zeichen pro Tag.
Zugriff auf Amazon-Polly- und Google-Cloud-Stimmen über eine Demo-Oberfläche. Free-Tier mit Wasserzeichen-Stimme und Limit.
Schnelle Demo-Seite, deutsche Standard-Stimmen, ~5.000 Zeichen pro Generierung im Free-Tier.
Für produktive Einsätze — Podcasts, Voice-Bots, Hörbücher, Schulungs-Audio — kommen Sie an einem zahlenden Anbieter selten vorbei: Stabilität, klare Lizenz, gleichbleibende Qualität.
Aktuell der Marktführer für natürlich klingende KI-Stimmen, sehr starke deutsche Qualität. Sarah, Charlotte, Anton und viele Community-Stimmen. Ab ~5 $/Monat im Starter-Tier mit kommerzieller Lizenz.
Sechs Stimmen (Alloy, Echo, Fable, Onyx, Nova, Shimmer) auch auf Deutsch. Klang weniger Variantenreich als ElevenLabs, dafür sehr stabil. ~15 $ pro 1 Mio Zeichen.
Dieselben Neural Voices wie oben, aber offiziell lizenziert. 4 $ pro 1 Mio Zeichen für Standard-Voices, mehr für HD-Stimmen. Free-Tier: 0,5 Mio Zeichen/Monat. Saubere Wahl, wenn Sie genau diese Stimmen brauchen.
Deutsche Stimmen: Marlene, Hans, Vicki (Neural). Free-Tier: 5 Mio Zeichen/Monat im ersten Jahr. Eher technisch klingend, aber sehr stabil und Standard im AWS-Umfeld.
WaveNet- und Neural2-Stimmen auf Deutsch. Free-Tier: 1 Mio Zeichen/Monat (Standard). Sehr gute Qualität, in der Regel etwas hölzerner als ElevenLabs.
Deutsche Stimmen: Birgit, Dieter, Erika. Eher konservativer Klang, gut für Vorlese-Anwendungen, Lite-Tier mit 10.000 Zeichen/Monat.
Welche Lösung passt zu welchem Einsatzgebiet?
| Lösung | Qualität | Kommerziell nutzbar | Lokal | Stimmen DE | Geeignet für |
|---|---|---|---|---|---|
| Edge TTS | sehr gut | Graubereich | nein | 10 | Tests, interner Einsatz |
| Browser Web Speech | variabel | ja | ja | ~3 | Accessibility-Buttons |
| Piper TTS | gut | ja | ja | ~5 | Geräte, eigene Server |
| Coqui TTS | gut | ja | ja | ~3 | Forschung, Anpassung |
| ElevenLabs | exzellent | ja | nein | 40+ | Podcast, Werbung, Buch |
| Azure TTS | sehr gut | ja | nein | 21+ | Enterprise, Voice-Bot |
| OpenAI TTS | sehr gut | ja | nein | 6 | Chat-Voice, App-Integration |
Wir bauen den ganzen Weg: Stimmen-Auswahl, Cleanup-Regeln für Umlaute und Eigennamen, Segment-Mastering auf −16 LUFS, automatisierte Generierung aus Texten, Anbindung an Podcast-Feeds oder Voice-Bots. Eigene Podcast-Pipeline und Voice-Agent Julia laufen bei uns im Haus.
Zur Podcast-EinrichtungWir melden uns bei Ihnen und finden eine Lösung.
Microsoft hat die Edge-Vorlese-Funktion nicht offiziell als kommerzielle TTS-API freigegeben. Wer dieselben Stimmen kommerziell und rechtssicher braucht, nimmt die zahlungspflichtige Azure-Cognitive-Services-API — gleiches Stimm-Inventar, klare Lizenz. Für Open-Source-Stimmen wie Piper oder Coqui gilt die jeweilige Modell-Lizenz, die meisten sind kommerziell frei.
Bei den hier gezeigten Edge-Stimmen sind Florian und Seraphina (die HD-Multilingual-Varianten) deutlich vorn — sie sind die neueste Generation. Bei den Standard-Stimmen wirken Katja, Conrad und Amala für die meisten Ohren am natürlichsten. ElevenLabs Sarah, Charlotte oder Anton sind in einer noch höheren Klasse, kosten aber Geld.
Die MP3s auf dieser Seite werden vom netzhandwerker.de-Server ausgeliefert, einmal geladen funktionieren sie weiter. Die Browser-Sprachsynthese (Web Speech API) braucht eine Stimme, die auf Ihrem Gerät installiert ist. Open-Source-Lösungen wie Piper laufen komplett offline, sobald die Modell-Datei lokal liegt.
Wenn der Podcast „echt" wirken soll, ist ElevenLabs aktuell die beste Wahl — die Sprechpausen, Intonation und das Atmen sind dort deutlich realistischer als bei Edge oder OpenAI. Wir nutzen für unseren eigenen Podcast „Netzhandwerker Praxis-Talk" Chris Norddeutscher und Thomas Bariton bei ElevenLabs.
Die Modell-Kosten selbst sind überschaubar (Edge ohne Gebühr, ElevenLabs ab 5 $/Monat, Azure ab 4 $ pro 1 Mio Zeichen). Aufwand entsteht durch die Sauberkeitsarbeit: SSML-Tagging für Eigennamen, Umlaut-Härtung, Pausen-Logik, Mastering. Für eine produktive Pipeline rechnen wir 290 € einmalige Einrichtung plus laufende Inhalts-Generierung je nach Volumen.
Voice-Cloning ist technisch möglich (ElevenLabs Professional Voice Clone, ab ~22 €/Monat), aber rechtlich heikel. Wir machen das nur mit schriftlicher Einwilligung der Person, deren Stimme geklont wird. Wenn Sie Ihre eigene Stimme klonen lassen wollen für Ihr Unternehmen, begleiten wir den Prozess inklusive Lizenz-Dokumentation.
Ja, Leni und Jan sind explizit Schweizer Hochdeutsch (de-CH). Echtes Schweizerdeutsch (Mundart) bilden auch sie nicht zuverlässig ab — das kann derzeit keine TTS-Lösung sauber. Für Mundart-Aufnahmen führt kein Weg an menschlichen Sprechern vorbei.
Bei den aktuellen Edge-Stimmen gibt es keine, die als ausgesprochen kindlich markiert ist — die früher verfügbare Stimme Gisela wurde von Microsoft aus dem öffentlichen Edge-Endpoint entfernt und ist nur noch über die zahlungspflichtige Azure-API zu haben. Bei ElevenLabs gibt es mehrere Community-Stimmen, die als „child" markiert sind — Auswahl mit Vorsicht treffen wegen Stimmrechten.