10 deutsche Microsoft-Edge-Stimmen aus Deutschland, Österreich und Schweiz, jede mit echter Hörprobe desselben deutschen Textes. Plus Open-Source-Alternativen, Browser-Sprachsynthese und ein ehrlicher Blick auf die kommerziellen Anbieter.

10 Neural Voices DE · AT · CH Identischer Vergleichstext Mit Umlauten & schwierigen Wörtern

Der Test-Text

Damit Stimmen vergleichbar sind, liest jede genau denselben Text vor — mit ä, ö, ü, ß, schwierigen zusammengesetzten Wörtern und Anglizismen, die deutsche Sprachausgabe traditionell ins Stolpern bringt.

Vorgelesen wird

„Moin im Münsterland! Die Netzhandwerker — Manufaktur für Digitales — bauen Künstliche-Intelligenz-Lösungen, Webseiten und Fernwartungs-Werkzeuge für mittelständische Unternehmen. Unsere Maßnahmen reichen von Schulungen über Workflow-Automatisierung bis zur Eigenentwicklung. Eigentum statt Abonnement, in deutscher Hand und mit Werkstatt-Mentalität: schöne Größenordnung, klare Zuständigkeiten, ehrliche Preise."

Microsoft Edge Neural Voices (10 Stimmen)

Microsofts Neural-TTS-Stimmen sind die mit Abstand größte und qualitativ konsistenteste Sammlung deutscher KI-Stimmen, die ohne API-Anmeldung nutzbar ist. Sie laufen über die Sprachausgabe-Funktion des Edge-Browsers (auch bekannt als „Read Aloud") und lassen sich technisch auch außerhalb davon ansprechen. Lizenz-Hinweis am Ende der Liste.

Katja

weiblich · Deutschland · Standard, freundlich

de-DE-KatjaNeural

Conrad

männlich · Deutschland · Standard, freundlich

de-DE-ConradNeural

Amala

weiblich · Deutschland · warm, ruhig

de-DE-AmalaNeural

Killian

männlich · Deutschland · nüchtern, technisch

de-DE-KillianNeural

Florian (HD)

männlich · Deutschland · HD, multilingual

de-DE-FlorianMultilingualNeural

Seraphina (HD)

weiblich · Deutschland · HD, multilingual

de-DE-SeraphinaMultilingualNeural

Ingrid

weiblich · Österreich · Wiener Färbung

de-AT-IngridNeural

Jonas

männlich · Österreich · Wiener Färbung

de-AT-JonasNeural

Leni

weiblich · Schweiz · Schweizer Hochdeutsch

de-CH-LeniNeural

Jan

männlich · Schweiz · Schweizer Hochdeutsch

de-CH-JanNeural

Hinweis · 11 Stimmen nur noch über Azure verfügbar

Microsoft hat das öffentlich zugängliche Stimmen-Inventar des Edge-Read-Aloud-Endpoints inzwischen auf 10 deutsche Voices reduziert. Weitere 11 Neural Voices — Bernd, Christoph, Elke, Gisela, Kasper, Klarissa, Klaus, Louisa, Maja, Ralf und Tanja — gibt es weiterhin, aber nur noch über die zahlungspflichtige Azure-Cognitive-Services-API. Wer diese Stimmen kommerziell und stabil braucht, kommt an Azure (4 $ pro 1 Mio Zeichen) nicht vorbei.

Lizenz-Hinweis

Edge-TTS-Stimmen sind über den Edge-Browser („Vorlesen"-Funktion) ohne Bezahlung zugänglich. Die direkte API-Nutzung außerhalb des Browsers bewegt sich in einem Graubereich — Microsoft hat sie nicht offiziell für kommerzielle Drittnutzung freigegeben. Für kommerzielle Audio-Produktionen empfehlen wir die zahlungspflichtige Azure-Cognitive-Services-API mit denselben Stimmen oder einen sauber lizenzierten Anbieter wie ElevenLabs. Die Hörproben hier sind als technischer Vergleich zu verstehen.

Browser-Sprachsynthese (Web Speech API)

Jeder moderne Browser kann Text vorlesen — über die im Betriebssystem installierten Stimmen. Qualität und Auswahl hängen von Ihrem Gerät ab: macOS hat hochwertige Stimmen (Anna, Petra, Markus), Windows liefert Microsoft Hedda/Stefan, Android nutzt Google-TTS, iOS hat Anna/Helena. Live-Test:

Stimme auf Ihrem Gerät Text

Hinweis: Die Stimmen kommen direkt von Ihrem Gerät — Anzahl und Qualität variieren je nach Betriebssystem und Browser. Auf manchen Linux-Systemen ist gar keine TTS installiert.

Open-Source-Stimmen (lokal, frei für alles)

Wenn Sie eine TTS-Stimme dauerhaft nutzen wollen — kommerziell, im Produkt, in Geräten — sind lokal laufende Open-Source-Modelle die saubere Wahl. Kein API-Vendor, keine Tracking-Sorgen, keine Lizenz-Grauzone. Drei sinnvolle Kandidaten für Deutsch:

Open Source

Piper TTS

Schnelles Neural-TTS, läuft auf Raspberry Pi und Mini-PCs. Mehrere deutsche Stimmen (Thorsten, Eva-K, Karlsson, Kerstin), in der Qualität nah an Microsoft-Stimmen. Apache-2-Lizenz, kommerziell frei.

github.com/rhasspy/piper →

Open Source

Coqui TTS

Größerer Modell-Zoo, deutsche Stimmen u. a. Thorsten-Voice (gespendet von Thorsten Müller, Open-Source-Community). Etwas schwerer im Setup, dafür mehr Kontrolle über Klang und Sprechtempo. MPL-2.

github.com/coqui-ai/TTS →

Open Source

eSpeak NG

Robotisch klingend, aber winzig (kB statt MB), startet sofort, läuft auf jeder Hardware. Gut für Accessibility-Anwendungen, Screen-Reader, Notfall-Ansagen. GPL-3.

github.com/espeak-ng/espeak-ng →

Open Source

Thorsten-Voice

Dataset eines deutschen Open-Source-Enthusiasten, der seine eigene Stimme freigegeben hat. Wird in Piper, Coqui und Mozilla TTS genutzt. Liebevolles Community-Projekt mit hervorragender Qualität für eine freie Stimme.

thorsten-voice.de →

Open Source

MaryTTS

Java-basiert, vom DFKI mitentwickelt, historisch sehr verbreitet im akademischen Umfeld. Klang heute etwas hinter Piper/Coqui zurück, aber gut dokumentiert und stabil.

github.com/marytts/marytts →

Open Source

Mimic 3

Schlanker Piper-Vorgänger von Mycroft AI. Wird seit Mycroft-Insolvenz nicht mehr aktiv weiterentwickelt, läuft aber stabil und hat brauchbare deutsche Stimme. Eher für Bastel-Setups.

github.com/MycroftAI/mimic3 →

Online-Services mit freiem Kontingent

Schnelle Web-Generatoren, die eine begrenzte Anzahl Zeichen pro Tag oder Monat ohne Bezahlung erlauben. Gut für Einzeltexte, nicht geeignet für laufende Pipelines.

Free-Tier

NaturalReader

Online-Reader mit deutschen Stimmen. Free-Tier: ein paar tausend Zeichen pro Tag, kein Download im freien Tarif.

naturalreaders.com →

Free-Tier

TTSMP3

Simple Web-Oberfläche, MP3-Download direkt möglich. Wirbt mit deutschen Stimmen (u. a. Marlene, Hans). Free-Tier ca. 3.000 Zeichen pro Tag.

ttsmp3.com →

Free-Tier

VoiceMaker

Zugriff auf Amazon-Polly- und Google-Cloud-Stimmen über eine Demo-Oberfläche. Free-Tier mit Wasserzeichen-Stimme und Limit.

voicemaker.in →

Free-Tier

ttsfree.com

Schnelle Demo-Seite, deutsche Standard-Stimmen, ~5.000 Zeichen pro Generierung im Free-Tier.

ttsfree.com →

Kommerzielle Anbieter (ehrlich eingeordnet)

Für produktive Einsätze — Podcasts, Voice-Bots, Hörbücher, Schulungs-Audio — kommen Sie an einem zahlenden Anbieter selten vorbei: Stabilität, klare Lizenz, gleichbleibende Qualität.

Kostenpflichtig

ElevenLabs

Aktuell der Marktführer für natürlich klingende KI-Stimmen, sehr starke deutsche Qualität. Sarah, Charlotte, Anton und viele Community-Stimmen. Ab ~5 $/Monat im Starter-Tier mit kommerzieller Lizenz.

elevenlabs.io →

Kostenpflichtig

OpenAI TTS

Sechs Stimmen (Alloy, Echo, Fable, Onyx, Nova, Shimmer) auch auf Deutsch. Klang weniger Variantenreich als ElevenLabs, dafür sehr stabil. ~15 $ pro 1 Mio Zeichen.

platform.openai.com →

Kostenpflichtig

Microsoft Azure TTS

Dieselben Neural Voices wie oben, aber offiziell lizenziert. 4 $ pro 1 Mio Zeichen für Standard-Voices, mehr für HD-Stimmen. Free-Tier: 0,5 Mio Zeichen/Monat. Saubere Wahl, wenn Sie genau diese Stimmen brauchen.

azure.microsoft.com →

Kostenpflichtig

Amazon Polly

Deutsche Stimmen: Marlene, Hans, Vicki (Neural). Free-Tier: 5 Mio Zeichen/Monat im ersten Jahr. Eher technisch klingend, aber sehr stabil und Standard im AWS-Umfeld.

aws.amazon.com/polly →

Kostenpflichtig

Google Cloud TTS

WaveNet- und Neural2-Stimmen auf Deutsch. Free-Tier: 1 Mio Zeichen/Monat (Standard). Sehr gute Qualität, in der Regel etwas hölzerner als ElevenLabs.

cloud.google.com/text-to-speech →

Kostenpflichtig

IBM Watson TTS

Deutsche Stimmen: Birgit, Dieter, Erika. Eher konservativer Klang, gut für Vorlese-Anwendungen, Lite-Tier mit 10.000 Zeichen/Monat.

ibm.com/text-to-speech →

Vergleich auf einen Blick

Welche Lösung passt zu welchem Einsatzgebiet?

Lösung	Qualität	Kommerziell nutzbar	Lokal	Stimmen DE	Geeignet für
Edge TTS	sehr gut	Graubereich	nein	10	Tests, interner Einsatz
Browser Web Speech	variabel	ja	ja	~3	Accessibility-Buttons
Piper TTS	gut	ja	ja	~5	Geräte, eigene Server
Coqui TTS	gut	ja	ja	~3	Forschung, Anpassung
ElevenLabs	exzellent	ja	nein	40+	Podcast, Werbung, Buch
Azure TTS	sehr gut	ja	nein	21+	Enterprise, Voice-Bot
OpenAI TTS	sehr gut	ja	nein	6	Chat-Voice, App-Integration

Sie brauchen eine richtige TTS-Pipeline?

Wir bauen den ganzen Weg: Stimmen-Auswahl, Cleanup-Regeln für Umlaute und Eigennamen, Segment-Mastering auf −16 LUFS, automatisierte Generierung aus Texten, Anbindung an Podcast-Feeds oder Voice-Bots. Eigene Podcast-Pipeline und Voice-Agent Julia laufen bei uns im Haus.

Zur Podcast-Einrichtung

Beschreiben Sie Ihr Anliegen

Schreiben Sie uns kurz, worum es geht. Wir prüfen die Anfrage und melden uns per E-Mail mit dem nächsten Schritt.

Name

E-Mail

Ihre Nachricht

Ich habe die Datenschutzerklärung gelesen und bin mit der Verarbeitung meiner Angaben zur Bearbeitung der Anfrage einverstanden.

Häufig gestellte Fragen

Darf ich Edge-TTS-Stimmen kommerziell nutzen?

Microsoft hat die Edge-Vorlese-Funktion nicht offiziell als kommerzielle TTS-API freigegeben. Wer dieselben Stimmen kommerziell und rechtssicher braucht, nimmt die zahlungspflichtige Azure-Cognitive-Services-API — gleiches Stimm-Inventar, klare Lizenz. Für Open-Source-Stimmen wie Piper oder Coqui gilt die jeweilige Modell-Lizenz, die meisten sind kommerziell frei.

Welche Stimme klingt am natürlichsten?

Bei den hier gezeigten Edge-Stimmen sind Florian und Seraphina (die HD-Multilingual-Varianten) deutlich vorn — sie sind die neueste Generation. Bei den Standard-Stimmen wirken Katja, Conrad und Amala für die meisten Ohren am natürlichsten. ElevenLabs Sarah, Charlotte oder Anton sind in einer noch höheren Klasse, kosten aber Geld.

Funktionieren die Hörproben offline?

Die MP3s auf dieser Seite werden vom netzhandwerker.de-Server ausgeliefert, einmal geladen funktionieren sie weiter. Die Browser-Sprachsynthese (Web Speech API) braucht eine Stimme, die auf Ihrem Gerät installiert ist. Open-Source-Lösungen wie Piper laufen komplett offline, sobald die Modell-Datei lokal liegt.

Welche Stimme nimmt man für einen Podcast?

Wenn der Podcast „echt" wirken soll, ist ElevenLabs aktuell die beste Wahl — die Sprechpausen, Intonation und das Atmen sind dort deutlich realistischer als bei Edge oder OpenAI. Wir nutzen für unseren eigenen Podcast „Netzhandwerker Praxis-Talk" Chris Norddeutscher und Thomas Bariton bei ElevenLabs.

Was kostet eine eigene TTS-Pipeline?

Die Modell-Kosten selbst sind überschaubar (Edge ohne Gebühr, ElevenLabs ab 5 $/Monat, Azure ab 4 $ pro 1 Mio Zeichen). Aufwand entsteht durch die Sauberkeitsarbeit: SSML-Tagging für Eigennamen, Umlaut-Härtung, Pausen-Logik, Mastering. Für eine produktive Pipeline rechnen wir 290 € einmalige Einrichtung plus laufende Inhalts-Generierung je nach Volumen.

Können Sie eine bestehende Stimme klonen lassen?

Voice-Cloning ist technisch möglich (ElevenLabs Professional Voice Clone, ab ~22 €/Monat), aber rechtlich heikel. Wir machen das nur mit schriftlicher Einwilligung der Person, deren Stimme geklont wird. Wenn Sie Ihre eigene Stimme klonen lassen wollen für Ihr Unternehmen, begleiten wir den Prozess inklusive Lizenz-Dokumentation.

Funktioniert das auch in Schweizer Hochdeutsch?

Ja, Leni und Jan sind explizit Schweizer Hochdeutsch (de-CH). Echtes Schweizerdeutsch (Mundart) bilden auch sie nicht zuverlässig ab — das kann derzeit keine TTS-Lösung sauber. Für Mundart-Aufnahmen führt kein Weg an menschlichen Sprechern vorbei.

Welche Stimmen klingen kindgerecht?

Bei den aktuellen Edge-Stimmen gibt es keine, die als ausgesprochen kindlich markiert ist — die früher verfügbare Stimme Gisela wurde von Microsoft aus dem öffentlichen Edge-Endpoint entfernt und ist nur noch über die zahlungspflichtige Azure-API zu haben. Bei ElevenLabs gibt es mehrere Community-Stimmen, die als „child" markiert sind — Auswahl mit Vorsicht treffen wegen Stimmrechten.