Empfang Telefon, Chat, Termine, Rückruf
Dokumentation Angebote, Protokolle, Rechnungen
Betrieb Mail, Touren, Projekte, Recruiting
Branchen-Fachwissen SHK, Elektro, Maler
Sichtbarkeit Blog, Google-Profil, Audit
Übersicht Alle 20 Produkte auf einer Seite
Alle KI-Lösungen →
Computer & Laptops PC, Mac, Kaufberatung
Mobilgeräte Smartphone, TV, Fotos
Peripherie & Netzwerk Drucker, WLAN, NAS
Smart Home & IoT Automation, PV, Homeoffice
Alle Hardware-Leistungen →
Sofort-Hilfe Selbsttest, Notfall, Checklisten
Schulungen KI, PC, Senioren
Schutz & Vorsorge Passwörter, Jugendschutz, Nachlass
Alle Privat-Leistungen →
IT-Infrastruktur VPN, Netzwerk, DSGVO
Business-Software Buchhaltung, Kasse, Zeiterfassung
Web & Marketing Webseite, SEO, WordPress
Entwicklung & Beratung KI-Tools, Automation, Wartung, Beratung
Monitoring & IoT Sensoren, Dashboards, Alarmierung
Alle Unternehmens-Leistungen →
Voice & Telefonie Eigener KI-Telefonassistent im Dauerbetrieb
Automatisierung Selbstgebaute Prozesse
KI-Content Audio und Medien aus KI-Produktion
Übersicht Alle Eigenprojekte auf einer Seite
Alle Referenzen →
Neu im Blog Die aktuellsten Artikel
Systeme & Netzwerk Windows, Linux, WLAN, Homeoffice
Software & Online KI, E-Mail, Web, Sicherheit
Geräte & Branchen Smartphone, Drucker, Agrar
Alle Artikel im Wissensbereich →
KI-Produkt

KI-Diktat
Sprache zu Text für Windows

Hotkey drücken, sprechen, Text erscheint im aktiven Textfeld. Lokal auf Ihrem Rechner — ohne API-Gebühren. Oder in der Cloud mit Groq Whisper — 9 Mal günstiger als OpenAI. Keine Monatsgebühr, kein Abo.

Isometrische Illustration eines Windows-Arbeitsplatzes mit Mikrofon, Hotkey-Indikator und Text-Strom in ein E-Mail-Fenster

Warum eigenes Diktat-Tool statt Windows-Bordmittel oder Dragon

Ein geübter Tipper schafft 50 Wörter pro Minute. Gesprochen sind es 130. Wer eine längere E-Mail, ein Protokoll oder einen Gesprächsbericht diktiert statt tippt, ist in weniger als der halben Zeit fertig. Das Problem: Die Windows-Bordmittel (Win+H) sind seit Jahren unzuverlässig und erkennen Fachbegriffe schlecht. Dragon NaturallySpeaking kostet als Professional-Lizenz über 500 Euro. Cloud-APIs wie OpenAI Whisper liegen bei 36 Cent pro Stunde — für einen Vielschreiber addieren sich das schnell auf.

KI-Diktat ist die dritte Variante: eine eingerichtete Windows-EXE, die entweder vollständig lokal läuft (faster-whisper auf Ihrer CPU, Kosten: null) oder via Groq Whisper in die Cloud geht (2,4 Cent pro Stunde Audio, 15 Mal schneller als lokale Transkription). Sie entscheiden pro Diktat, welchen Modus Sie wollen — für sensible Inhalte lokal, für längere Texte Cloud.

Nach dem Einrichten gibt es kein Abo, keine Monatskosten, keine laufenden Gebühren bei uns. Sie kaufen einmal die Einrichtung, wir liefern das fertige Setup mit Ihrem Fachvokabular trainiert, Hotkey konfiguriert, und Sie nutzen es unbegrenzt weiter — mit Updates für zwölf Monate inklusive.

Wie das Diktieren im Alltag aussieht

Schritt 1 — Cursor im Textfeld: Sie sind in Outlook, Word, einem Browser-Formular, Ihrem CRM, Teams-Chat — egal wo. Wichtig ist nur, dass der Cursor im Textfeld blinkt. KI-Diktat läuft im Hintergrund im System-Tray.

Schritt 2 — Hotkey: Sie drücken Ihre konfigurierte Taste. Zwei Modi zur Wahl: Push-to-Talk (Taste halten, solange Sie sprechen) oder Toggle (einmal drücken = an, nochmal = aus). Ein kurzer Beep bestaetigt den Start, ein Tray-Icon leuchtet rot.

Schritt 3 — Sprechen: Reden Sie in normaler Geschwindigkeit, auch mit Füllwörtern, Pausen, Selbstkorrekturen. Die KI kümmert sich in Schritt 4 darum. Kein "Komma" oder "Punkt" diktieren — Claude Haiku erledigt die Zeichensetzung selbst.

Schritt 4 — Transkription plus Politur: Das Audio geht an Whisper (lokal oder Groq). Der Rohtext geht an Claude Haiku 4.5, der Füllwörter entfernt, Groß-/Kleinschreibung setzt, Zeichensetzung einfügt und Selbstkorrekturen weglässt. Gesamt-Latenz: 1 bis 2 Sekunden im Cloud-Modus, 3 bis 8 Sekunden lokal.

Schritt 5 — Einfügen: Der fertige Text erscheint Buchstabe für Buchstabe im aktiven Textfeld, so als hätten Sie ihn getippt. Ein Beep signalisiert das Ende. Sie lesen kurz durch, schicken ab, machen weiter.

Für wen sich das Diktat-Tool lohnt

Vielschreiber im Büro: Wer pro Tag eine Stunde oder mehr mit E-Mails, Protokollen, Zusammenfassungen, Notizen und CRM-Einträgen verbringt, spart bei halber Tippgeschwindigkeit dreistellige Stunden pro Jahr. Ärzte und Zahnärzte, die Befunde direkt nach der Sprechstunde diktieren statt abends im Studium. Anwälte und Steuerberater, die Gutachten und Schriftsätze sprechen können statt tippen. Makler, Gutachter, Pflegefachkräfte, Handwerker mit Dokumentationspflicht, Journalisten, Autoren.

Menschen mit Handverletzungen, Sehnenscheidenentzündung, Karpaltunnelsyndrom oder RSI: Für die ist das Tool kein Nice-to-have, sondern ein Arbeitsplatz-Erhalter. Wir richten es bei Bedarf mit einem bequemen Fuß-Schalter als Hotkey ein, damit die Hände gänzlich geschont werden.

Weniger sinnvoll ist das Tool für reine Zahlen-Eingabe (Tabellen, Buchhaltung, Formulare), wo Tippen oft schneller ist, oder bei Arbeiten, die laufend durch Kurz-Eingaben unterbrochen werden. Und natürlich für Mac- und Linux-Nutzer — aktuell läuft es nur auf Windows 10 und 11.

Was wir konkret für Sie einrichten

Single-EXE Installation

Eine einzelne ausführbare Datei, die per MSI-Installer oder Portable-ZIP ausgeliefert wird. Läuft im System-Tray, kein Browser nötig.

Lokaler Modus mit faster-whisper

Modell large-v3-turbo in int8-Quantisierung. Läuft auf jeder modernen CPU, keine GPU zwingend erforderlich. Null Cent pro Transkription.

Cloud-Modus mit Groq Whisper

Groq-API, deutlich schneller als lokale Transkription. Nur 2,4 Cent pro Stunde Audio — 9 Mal günstiger als OpenAI. Pay-per-Use über Ihren Groq-Key.

Claude Haiku 4.5 Cleanup

Der Rohtext durchläuft einen Cleanup-Schritt: Füllwörter raus, Zeichensetzung rein, Groß-/Kleinschreibung korrekt, Selbstkorrekturen entfernt. Fachvokabular-bewusst.

Push-to-Talk plus Toggle

Zwei Aufnahme-Modi frei wählbar. Push-to-Talk für kurze Eingaben, Toggle für lange Diktate. Hotkey frei konfigurierbar — auch Funktionstasten, Multimedia-Tasten oder Maustasten.

Vokabular-Training

Ihre Fachbegriffe, Produktnamen, Kundenbezeichnungen, Pharmazie-Namen, Paragraphen werden im Setup trainiert. Die KI erkennt sie beim ersten Mal richtig — kein "Kortisonspraejonat" statt "Cortison-Präparat".

Ton-Feedback plus Tray-Icon

Kurzer Beep bei Aufnahme-Start, anderer Beep bei Textinjection. Tray-Icon blinkt in den drei Phasen rot/gelb/grün. Keine Bildschirm-Overlays, keine Ablenkung.

Logs mit Latenz-Histogramm

Jede Aufnahme wird gelogged mit Dauer, STT-Latenz, Cleanup-Latenz, Inject-Latenz. Sie sehen, ob lokal oder Cloud schneller ist — und können datenbasiert optimieren.

Preise im Vergleich – und was KI-Diktat kostet

Vor der Preis-Box der Markt-Kontext: Was kostet Diktat-Software 2026 wirklich?

Dragon Professional v16
529 Euro einmalig, ohne Support
+ keine Cloud-KI, veraltet
OpenAI Whisper API
36 Cent pro Stunde Audio
reine API, kein Tool
Groq Whisper (unser Tool)
2,4 Cent pro Stunde Audio
über eigenen Groq-Key
Lokal faster-whisper
0 Cent pro Transkription
etwas langsamer als Cloud
Windows Win+H
0 Cent in Windows enthalten
unzuverlässig, keine Fachbegriffe
Microsoft Azure Speech
60 Cent pro Stunde Audio
Enterprise-Cloud, komplex

Preisstand: 21. April 2026. API-Preise und Lizenzmodelle ändern sich laufend — vor einer Kaufentscheidung bitte beim jeweiligen Anbieter gegenprüfen.

Einmalig
199€
netto, §19 UStG

Komplett-Setup: Windows-EXE auf Ihrem Rechner, Vokabular-Training, Hotkey-Konfiguration, Groq-Account-Einrichtung optional, ein Probe-Diktat mit Feintuning. Zwölf Monate Updates inklusive.

Monatlich
0€
kein Abo, nichts zu kündigen

Ihre Cloud-Kosten: Bei täglich einer Stunde Diktat via Groq zahlen Sie über Ihren Groq-Key rund 72 Cent pro Monat. Lokal-Modus ohne API-Kosten, Claude Haiku Cleanup kostet etwa 15 Cent pro Stunde diktierten Texts.

Jetzt anfragen ab 199€

Datenschutz und DSGVO

Beim Thema Diktat geht es oft um sensible Inhalte — Patienten-Befunde, Mandanten-Schriftsätze, vertrauliche Kundenkommunikation. Deshalb ist die Wahl zwischen Lokal- und Cloud-Modus bewusst Ihnen überlassen.

Lokal-Modus: Nichts verlässt Ihren Rechner. Das Audio wird von faster-whisper auf Ihrer CPU verarbeitet und sofort verworfen, der Rohtext geht optional an Claude Haiku für Cleanup — oder auch nicht, das ist konfigurierbar. Mit Cleanup-aus haben Sie eine 100 Prozent on-device Lösung.

Cloud-Modus Groq: Das Audio geht per HTTPS an Groq, wird transkribiert und sofort gelöscht. Groq speichert nichts für Training (Opt-Out standardmäßig aktiviert). AV-Vertrag nach Art. 28 DSGVO liegt uns vor und wird bei Bedarf an Sie weitergegeben.

Cleanup-Modus Anthropic: Claude Haiku verarbeitet den transkribierten Text. Anthropic speichert nichts zu Trainings-Zwecken (API-Standardeinstellung). EU-Rechenzentren werden zunehmend verfügbar, aktuell laufen die Anfragen meist über US-Infrastruktur mit EU-Standardvertragsklauseln nach EU-Kommissionsbeschluss 2021/914.

Beschreiben Sie Ihr Problem

Wir melden uns bei Ihnen und finden eine Lösung.

Ab 29 € pro 30 Minuten (Endpreis, § 19 UStG). Weitere Preismodelle unter AGB § 4.
Anfrage – noch kein Vertragsschluss. Der Vertrag kommt erst durch Terminvereinbarung zustande (§ 3 AGB). Ihre Angaben werden zur Bearbeitung Ihrer Anfrage verarbeitet; Details in der Datenschutzerklärung. Bitte erstellen Sie vor dem Termin ein Backup Ihrer wichtigen Daten (§ 5 Abs. 4 AGB).

Häufig gestellte Fragen

Warum soll ich 199 Euro zahlen, wenn Windows doch Win+H eingebaut hat?

Win+H ist bekannt unzuverlässig: hängt beim Start, erkennt Fachbegriffe schlecht, hat kein Cleanup, keine Groq-Anbindung, kein konfigurierbares Vokabular. Für den Ersteinsatz okay, für produktives Diktieren nicht. Wer täglich eine Stunde spricht, hat die 199 Euro in der ersten Arbeitswoche eingespart.

Kann ich das Tool auch auf Mac oder Linux nutzen?

Aktuell nur Windows 10 und 11 (64-Bit). Eine Mac-Portierung ist geplant, aber nicht zeitnah. Für Linux existiert ein Prototyp, aber ohne Tray-Integration. Wenn Sie Mac- oder Linux-Nutzer sind, schreiben Sie uns trotzdem — wir führen eine Interessen-Liste.

Wie unterscheidet sich Groq Whisper qualitativ von OpenAI Whisper?

Gleiches Modell (whisper-large-v3-turbo), andere Infrastruktur. Groq läuft auf spezieller Inferenz-Hardware (LPU), OpenAI auf normalen GPU-Clustern. Latenz: Groq deutlich schneller (oft unter 500 ms für 10 Sekunden Audio). Qualität: identisch. Preis: Groq ist rund 9 Mal günstiger.

Welche Hardware-Anforderungen gibt es für den lokalen Modus?

CPU: moderne 8-Kern-CPU ab i5/Ryzen 5 der letzten fünf Jahre. RAM: 8 GB reichen, 16 GB sind komfortabel. Eine GPU ist nicht zwingend erforderlich — wenn eine NVIDIA-Karte vorhanden ist (GTX 1060 oder besser), beschleunigt sie die Transkription auf das Drei- bis Fünffache. AMD-Karten werden aktuell nicht unterstützt.

Welches Mikrofon empfehlen Sie?

Fürs Diktieren ist ein Headset-Mikrofon besser als ein Tisch-Mikrofon: konsistenter Abstand, weniger Raumhall, robust gegen Bewegung. Wir empfehlen das Jabra Evolve 30 II (rund 80 Euro) oder das Poly Blackwire 3220 (rund 60 Euro). Beide per USB, Plug-and-Play, sehr gute Spracherkennungs-Qualität. USB-Kondensator wie Beyerdynamic Fox geht auch, nimmt aber mehr Raumhall mit.

Wie funktioniert das Vokabular-Training genau?

Im Setup-Termin sammeln wir Ihre häufigsten Fachbegriffe, Produktnamen, Kundenbezeichnungen. Die landen in einer config.toml unter [vocab.custom]. Beim Cleanup-Schritt weist Claude Haiku den Kontext an, diese Begriffe präferenziert zu nutzen. Ergebnis: "Diclofenac" statt "Diklofenak", "Müller GmbH" statt "Müller gmbH". Später können Sie die Liste jederzeit selbst erweitern.

Was passiert, wenn Groq oder Anthropic ausfällt?

Das Tool schaltet automatisch auf lokalen Fallback: wenn Groq nicht antwortet, läuft faster-whisper auf Ihrer CPU. Wenn Anthropic nicht antwortet, entfällt nur das Cleanup — Sie bekommen den Rohtext (ohne Zeichensetzung, mit Füllwörtern). Auch das ist nutzbar und wird per Tray-Icon-Farbe signalisiert.

Gibt es ein Update-Abo nach den zwölf Monaten?

Nach Ablauf der zwölf Monate: 49 Euro pro Jahr für weitere Updates. Ohne Update-Abo läuft Ihre Version unverändert weiter — das bleibt Ihre Entscheidung. Die Whisper- und Claude-API-Calls funktionieren so oder so weiter, solange die externen Services laufen.

Kann das Tool auch direkt in Word oder Outlook diktieren?

Ja — KI-Diktat injiziert den Text in das aktive Textfeld, egal ob das Word, Outlook, Teams, ein Browser-Formular, das CRM oder ein Editor ist. Es gibt kein Plug-in, keine COM-Integration, keine Office-Version-Abhängigkeit. Voraussetzung ist nur: der Cursor muss im Textfeld blinken.

Wie lange dauert die Einrichtung?

Zwei Stunden per Fernwartung. Erste Stunde: Installation, Tests, Hotkey-Konfiguration, Groq-Account-Setup (falls gewünscht), erste Probediktate. Zweite Stunde: Vokabular-Training mit Ihren Fachbegriffen, Feintuning der Cleanup-Einstellungen, Integration in Ihren typischen Workflow. Danach sind Sie sofort produktiv.

Direkt per WhatsApp schreiben