Empfang Telefon, Chat, Termine, Rückruf
Dokumentation Angebote, Protokolle, Rechnungen
Betrieb Mail, Touren, Projekte, Recruiting
Branchen-Fachwissen SHK, Elektro, Maler
Sichtbarkeit Blog, Google-Profil, Audit
Für Ihre Branche KI-Lösungen für 8 Branchen
Open Source & KI Eigene Plattformen statt SaaS-Inseln
Verkündigung digital Werkzeuge für Gemeinden
Beispiele aus dem Haus KI-Anwendungen, die wir selbst betreiben
Übersicht Alle 56 Produkte auf einer Seite
Alle KI-Lösungen →
Beispiele aus dem Haus
Computer & Laptops PC, Mac, Kaufberatung
Mobilgeräte Smartphone, TV, Fotos
Peripherie & Netzwerk Drucker, WLAN, NAS
Smart Home & IoT Automation, PV, Homeoffice
Alle Hardware-Leistungen →
IT-Infrastruktur VPN, Netzwerk, DSGVO
Business-Software Buchhaltung, Kasse, Zeiterfassung
Web & Marketing Webseite, SEO, WordPress, Newsletter
Entwicklung & Beratung KI-Tools, Automation, Wartung, Beratung
Krypto & Web3 Steuern, Wallets, Mining, DePIN
Monitoring & IoT Sensoren, Dashboards, Alarmierung
Branchen-IT Spezialisierte IT für kleine Betriebe
Service & Recht Termin, Verträge, Karriere
Alle Unternehmens-Leistungen →
spuerwerk© Hub Sensor-Plattform Übersicht
spuerwerk© Mess-Module Temperatur, CO₂, Strom, …
spuerwerk© Branchen I Apotheke, Praxis, Hotel, …
spuerwerk© Branchen II Lager, Logistik, Werkstatt, …
linkx© Hub + Module Schlauer QR-Code mit Funktion
linkx© Module II Karte, Wache, Wahl, …
naturwerk© Bürger-Tech gegen Umweltgift
Weitere Submarken bildwache, fermentwerk, solsalino
Alle Submarken →

Deutsche TTS-Stimmen mit Hörproben

10 deutsche Microsoft-Edge-Stimmen aus Deutschland, Österreich und Schweiz, jede mit echter Hörprobe desselben deutschen Textes. Plus Open-Source-Alternativen, Browser-Sprachsynthese und ein ehrlicher Blick auf die kommerziellen Anbieter.

10 Neural Voices DE · AT · CH Identischer Vergleichstext Mit Umlauten & schwierigen Wörtern

Der Test-Text

Damit Stimmen vergleichbar sind, liest jede genau denselben Text vor — mit ä, ö, ü, ß, schwierigen zusammengesetzten Wörtern und Anglizismen, die deutsche Sprachausgabe traditionell ins Stolpern bringt.

Vorgelesen wird

„Moin im Münsterland! Die Netzhandwerker — Manufaktur für Digitales — bauen Künstliche-Intelligenz-Lösungen, Webseiten und Fernwartungs-Werkzeuge für mittelständische Unternehmen. Unsere Maßnahmen reichen von Schulungen über Workflow-Automatisierung bis zur Eigenentwicklung. Eigentum statt Abonnement, in deutscher Hand und mit Werkstatt-Mentalität: schöne Größenordnung, klare Zuständigkeiten, ehrliche Preise."

Microsoft Edge Neural Voices (10 Stimmen)

Microsofts Neural-TTS-Stimmen sind die mit Abstand größte und qualitativ konsistenteste Sammlung deutscher KI-Stimmen, die ohne API-Anmeldung nutzbar ist. Sie laufen über die Sprachausgabe-Funktion des Edge-Browsers (auch bekannt als „Read Aloud") und lassen sich technisch auch außerhalb davon ansprechen. Lizenz-Hinweis am Ende der Liste.

Katja

weiblich · Deutschland · Standard, freundlich

de-DE-KatjaNeural

Conrad

männlich · Deutschland · Standard, freundlich

de-DE-ConradNeural

Amala

weiblich · Deutschland · warm, ruhig

de-DE-AmalaNeural

Killian

männlich · Deutschland · nüchtern, technisch

de-DE-KillianNeural

Florian (HD)

männlich · Deutschland · HD, multilingual

de-DE-FlorianMultilingualNeural

Seraphina (HD)

weiblich · Deutschland · HD, multilingual

de-DE-SeraphinaMultilingualNeural

Ingrid

weiblich · Österreich · Wiener Färbung

de-AT-IngridNeural

Jonas

männlich · Österreich · Wiener Färbung

de-AT-JonasNeural

Leni

weiblich · Schweiz · Schweizer Hochdeutsch

de-CH-LeniNeural

Jan

männlich · Schweiz · Schweizer Hochdeutsch

de-CH-JanNeural

Hinweis · 11 Stimmen nur noch über Azure verfügbar

Microsoft hat das öffentlich zugängliche Stimmen-Inventar des Edge-Read-Aloud-Endpoints inzwischen auf 10 deutsche Voices reduziert. Weitere 11 Neural Voices — Bernd, Christoph, Elke, Gisela, Kasper, Klarissa, Klaus, Louisa, Maja, Ralf und Tanja — gibt es weiterhin, aber nur noch über die zahlungspflichtige Azure-Cognitive-Services-API. Wer diese Stimmen kommerziell und stabil braucht, kommt an Azure (4 $ pro 1 Mio Zeichen) nicht vorbei.

Lizenz-Hinweis

Edge-TTS-Stimmen sind über den Edge-Browser („Vorlesen"-Funktion) ohne Bezahlung zugänglich. Die direkte API-Nutzung außerhalb des Browsers bewegt sich in einem Graubereich — Microsoft hat sie nicht offiziell für kommerzielle Drittnutzung freigegeben. Für kommerzielle Audio-Produktionen empfehlen wir die zahlungspflichtige Azure-Cognitive-Services-API mit denselben Stimmen oder einen sauber lizenzierten Anbieter wie ElevenLabs. Die Hörproben hier sind als technischer Vergleich zu verstehen.

Browser-Sprachsynthese (Web Speech API)

Jeder moderne Browser kann Text vorlesen — über die im Betriebssystem installierten Stimmen. Qualität und Auswahl hängen von Ihrem Gerät ab: macOS hat hochwertige Stimmen (Anna, Petra, Markus), Windows liefert Microsoft Hedda/Stefan, Android nutzt Google-TTS, iOS hat Anna/Helena. Live-Test:

Hinweis: Die Stimmen kommen direkt von Ihrem Gerät — Anzahl und Qualität variieren je nach Betriebssystem und Browser. Auf manchen Linux-Systemen ist gar keine TTS installiert.

Open-Source-Stimmen (lokal, frei für alles)

Wenn Sie eine TTS-Stimme dauerhaft nutzen wollen — kommerziell, im Produkt, in Geräten — sind lokal laufende Open-Source-Modelle die saubere Wahl. Kein API-Vendor, keine Tracking-Sorgen, keine Lizenz-Grauzone. Drei sinnvolle Kandidaten für Deutsch:

Open Source

Piper TTS

Schnelles Neural-TTS, läuft auf Raspberry Pi und Mini-PCs. Mehrere deutsche Stimmen (Thorsten, Eva-K, Karlsson, Kerstin), in der Qualität nah an Microsoft-Stimmen. Apache-2-Lizenz, kommerziell frei.

github.com/rhasspy/piper →

Open Source

Coqui TTS

Größerer Modell-Zoo, deutsche Stimmen u. a. Thorsten-Voice (gespendet von Thorsten Müller, Open-Source-Community). Etwas schwerer im Setup, dafür mehr Kontrolle über Klang und Sprechtempo. MPL-2.

github.com/coqui-ai/TTS →

Open Source

eSpeak NG

Robotisch klingend, aber winzig (kB statt MB), startet sofort, läuft auf jeder Hardware. Gut für Accessibility-Anwendungen, Screen-Reader, Notfall-Ansagen. GPL-3.

github.com/espeak-ng/espeak-ng →

Open Source

Thorsten-Voice

Dataset eines deutschen Open-Source-Enthusiasten, der seine eigene Stimme freigegeben hat. Wird in Piper, Coqui und Mozilla TTS genutzt. Liebevolles Community-Projekt mit hervorragender Qualität für eine freie Stimme.

thorsten-voice.de →

Open Source

MaryTTS

Java-basiert, vom DFKI mitentwickelt, historisch sehr verbreitet im akademischen Umfeld. Klang heute etwas hinter Piper/Coqui zurück, aber gut dokumentiert und stabil.

github.com/marytts/marytts →

Open Source

Mimic 3

Schlanker Piper-Vorgänger von Mycroft AI. Wird seit Mycroft-Insolvenz nicht mehr aktiv weiterentwickelt, läuft aber stabil und hat brauchbare deutsche Stimme. Eher für Bastel-Setups.

github.com/MycroftAI/mimic3 →

Online-Services mit freiem Kontingent

Schnelle Web-Generatoren, die eine begrenzte Anzahl Zeichen pro Tag oder Monat ohne Bezahlung erlauben. Gut für Einzeltexte, nicht geeignet für laufende Pipelines.

Free-Tier

NaturalReader

Online-Reader mit deutschen Stimmen. Free-Tier: ein paar tausend Zeichen pro Tag, kein Download im freien Tarif.

naturalreaders.com →

Free-Tier

TTSMP3

Simple Web-Oberfläche, MP3-Download direkt möglich. Wirbt mit deutschen Stimmen (u. a. Marlene, Hans). Free-Tier ca. 3.000 Zeichen pro Tag.

ttsmp3.com →

Free-Tier

VoiceMaker

Zugriff auf Amazon-Polly- und Google-Cloud-Stimmen über eine Demo-Oberfläche. Free-Tier mit Wasserzeichen-Stimme und Limit.

voicemaker.in →

Free-Tier

ttsfree.com

Schnelle Demo-Seite, deutsche Standard-Stimmen, ~5.000 Zeichen pro Generierung im Free-Tier.

ttsfree.com →

Kommerzielle Anbieter (ehrlich eingeordnet)

Für produktive Einsätze — Podcasts, Voice-Bots, Hörbücher, Schulungs-Audio — kommen Sie an einem zahlenden Anbieter selten vorbei: Stabilität, klare Lizenz, gleichbleibende Qualität.

Kostenpflichtig

ElevenLabs

Aktuell der Marktführer für natürlich klingende KI-Stimmen, sehr starke deutsche Qualität. Sarah, Charlotte, Anton und viele Community-Stimmen. Ab ~5 $/Monat im Starter-Tier mit kommerzieller Lizenz.

elevenlabs.io →

Kostenpflichtig

OpenAI TTS

Sechs Stimmen (Alloy, Echo, Fable, Onyx, Nova, Shimmer) auch auf Deutsch. Klang weniger Variantenreich als ElevenLabs, dafür sehr stabil. ~15 $ pro 1 Mio Zeichen.

platform.openai.com →

Kostenpflichtig

Microsoft Azure TTS

Dieselben Neural Voices wie oben, aber offiziell lizenziert. 4 $ pro 1 Mio Zeichen für Standard-Voices, mehr für HD-Stimmen. Free-Tier: 0,5 Mio Zeichen/Monat. Saubere Wahl, wenn Sie genau diese Stimmen brauchen.

azure.microsoft.com →

Kostenpflichtig

Amazon Polly

Deutsche Stimmen: Marlene, Hans, Vicki (Neural). Free-Tier: 5 Mio Zeichen/Monat im ersten Jahr. Eher technisch klingend, aber sehr stabil und Standard im AWS-Umfeld.

aws.amazon.com/polly →

Kostenpflichtig

Google Cloud TTS

WaveNet- und Neural2-Stimmen auf Deutsch. Free-Tier: 1 Mio Zeichen/Monat (Standard). Sehr gute Qualität, in der Regel etwas hölzerner als ElevenLabs.

cloud.google.com/text-to-speech →

Kostenpflichtig

IBM Watson TTS

Deutsche Stimmen: Birgit, Dieter, Erika. Eher konservativer Klang, gut für Vorlese-Anwendungen, Lite-Tier mit 10.000 Zeichen/Monat.

ibm.com/text-to-speech →

Vergleich auf einen Blick

Welche Lösung passt zu welchem Einsatzgebiet?

LösungQualitätKommerziell nutzbarLokalStimmen DEGeeignet für
Edge TTSsehr gutGraubereichnein10Tests, interner Einsatz
Browser Web Speechvariabeljaja~3Accessibility-Buttons
Piper TTSgutjaja~5Geräte, eigene Server
Coqui TTSgutjaja~3Forschung, Anpassung
ElevenLabsexzellentjanein40+Podcast, Werbung, Buch
Azure TTSsehr gutjanein21+Enterprise, Voice-Bot
OpenAI TTSsehr gutjanein6Chat-Voice, App-Integration

Sie brauchen eine richtige TTS-Pipeline?

Wir bauen den ganzen Weg: Stimmen-Auswahl, Cleanup-Regeln für Umlaute und Eigennamen, Segment-Mastering auf −16 LUFS, automatisierte Generierung aus Texten, Anbindung an Podcast-Feeds oder Voice-Bots. Eigene Podcast-Pipeline und Voice-Agent Julia laufen bei uns im Haus.

Zur Podcast-Einrichtung

Beschreiben Sie Ihr Problem

Wir melden uns bei Ihnen und finden eine Lösung.

Häufig gestellte Fragen

Darf ich Edge-TTS-Stimmen kommerziell nutzen?

Microsoft hat die Edge-Vorlese-Funktion nicht offiziell als kommerzielle TTS-API freigegeben. Wer dieselben Stimmen kommerziell und rechtssicher braucht, nimmt die zahlungspflichtige Azure-Cognitive-Services-API — gleiches Stimm-Inventar, klare Lizenz. Für Open-Source-Stimmen wie Piper oder Coqui gilt die jeweilige Modell-Lizenz, die meisten sind kommerziell frei.

Welche Stimme klingt am natürlichsten?

Bei den hier gezeigten Edge-Stimmen sind Florian und Seraphina (die HD-Multilingual-Varianten) deutlich vorn — sie sind die neueste Generation. Bei den Standard-Stimmen wirken Katja, Conrad und Amala für die meisten Ohren am natürlichsten. ElevenLabs Sarah, Charlotte oder Anton sind in einer noch höheren Klasse, kosten aber Geld.

Funktionieren die Hörproben offline?

Die MP3s auf dieser Seite werden vom netzhandwerker.de-Server ausgeliefert, einmal geladen funktionieren sie weiter. Die Browser-Sprachsynthese (Web Speech API) braucht eine Stimme, die auf Ihrem Gerät installiert ist. Open-Source-Lösungen wie Piper laufen komplett offline, sobald die Modell-Datei lokal liegt.

Welche Stimme nimmt man für einen Podcast?

Wenn der Podcast „echt" wirken soll, ist ElevenLabs aktuell die beste Wahl — die Sprechpausen, Intonation und das Atmen sind dort deutlich realistischer als bei Edge oder OpenAI. Wir nutzen für unseren eigenen Podcast „Netzhandwerker Praxis-Talk" Chris Norddeutscher und Thomas Bariton bei ElevenLabs.

Was kostet eine eigene TTS-Pipeline?

Die Modell-Kosten selbst sind überschaubar (Edge ohne Gebühr, ElevenLabs ab 5 $/Monat, Azure ab 4 $ pro 1 Mio Zeichen). Aufwand entsteht durch die Sauberkeitsarbeit: SSML-Tagging für Eigennamen, Umlaut-Härtung, Pausen-Logik, Mastering. Für eine produktive Pipeline rechnen wir 290 € einmalige Einrichtung plus laufende Inhalts-Generierung je nach Volumen.

Können Sie eine bestehende Stimme klonen lassen?

Voice-Cloning ist technisch möglich (ElevenLabs Professional Voice Clone, ab ~22 €/Monat), aber rechtlich heikel. Wir machen das nur mit schriftlicher Einwilligung der Person, deren Stimme geklont wird. Wenn Sie Ihre eigene Stimme klonen lassen wollen für Ihr Unternehmen, begleiten wir den Prozess inklusive Lizenz-Dokumentation.

Funktioniert das auch in Schweizer Hochdeutsch?

Ja, Leni und Jan sind explizit Schweizer Hochdeutsch (de-CH). Echtes Schweizerdeutsch (Mundart) bilden auch sie nicht zuverlässig ab — das kann derzeit keine TTS-Lösung sauber. Für Mundart-Aufnahmen führt kein Weg an menschlichen Sprechern vorbei.

Welche Stimmen klingen kindgerecht?

Bei den aktuellen Edge-Stimmen gibt es keine, die als ausgesprochen kindlich markiert ist — die früher verfügbare Stimme Gisela wurde von Microsoft aus dem öffentlichen Edge-Endpoint entfernt und ist nur noch über die zahlungspflichtige Azure-API zu haben. Bei ElevenLabs gibt es mehrere Community-Stimmen, die als „child" markiert sind — Auswahl mit Vorsicht treffen wegen Stimmrechten.

Cookie-EinwilligungWir nutzen Cookies und externe Dienste (Statistik, Terminbuchung, Kartenmaterial), um unsere Website zu verbessern. Sie können einzelne Kategorien auswählen oder Ihre Auswahl jederzeit im Footer unter „Cookie-Einstellungen“ anpassen. Mehr erfahren
Direkt per WhatsApp schreiben