KI-Diktat
Sprache zu Text für Windows
Hotkey drücken, sprechen, Text erscheint im aktiven Textfeld. Lokal auf Ihrem Rechner — ohne laufende API-Kosten. Oder in der Cloud mit Groq Whisper — deutlich wirtschaftlicher als OpenAI. Einmalige Einrichtung, kein Abo.
Warum eigenes Diktat-Tool statt Windows-Bordmittel oder Dragon
Ein geübter Tipper schafft 50 Wörter pro Minute. Gesprochen sind es 130. Wer eine längere E-Mail, ein Protokoll oder einen Gesprächsbericht diktiert statt tippt, ist in weniger als der halben Zeit fertig. Das Problem: Die Windows-Bordmittel (Win+H) sind seit Jahren unzuverlässig und erkennen Fachbegriffe schlecht. Klassische Lizenzlösungen wie Dragon NaturallySpeaking sind preislich anspruchsvoll, und reine Cloud-APIs wie OpenAI Whisper summieren sich für Vielschreiber im Dauereinsatz spürbar auf.
KI-Diktat ist die dritte Variante: eine eingerichtete Windows-EXE, die entweder vollständig lokal läuft (faster-whisper auf Ihrer CPU, ohne API-Gebühr pro Diktat) oder via Groq Whisper in die Cloud geht (deutlich schneller als lokale Transkription). Sie entscheiden pro Diktat, welchen Modus Sie wollen — für sensible Inhalte lokal, für längere Texte Cloud.
Nach dem Einrichten gibt es kein Abo und keine wiederkehrenden Gebühren bei uns. Sie erhalten die fertige Lizenz inklusive Service: das Setup ist mit Ihrem Fachvokabular trainiert, der Hotkey konfiguriert, und Sie nutzen das Tool unbegrenzt weiter — mit Updates für zwölf Monate inklusive.
Wie das Diktieren im Alltag aussieht
Schritt 1 — Cursor im Textfeld: Sie sind in Outlook, Word, einem Browser-Formular, Ihrem CRM, Teams-Chat — egal wo. Wichtig ist nur, dass der Cursor im Textfeld blinkt. KI-Diktat läuft im Hintergrund im System-Tray.
Schritt 2 — Hotkey: Sie drücken Ihre konfigurierte Taste. Zwei Modi zur Wahl: Push-to-Talk (Taste halten, solange Sie sprechen) oder Toggle (einmal drücken = an, nochmal = aus). Ein kurzer Beep bestätigt den Start, ein Tray-Icon leuchtet rot.
Schritt 3 — Sprechen: Reden Sie in normaler Geschwindigkeit, auch mit Füllwörtern, Pausen, Selbstkorrekturen. Die KI kümmert sich in Schritt 4 darum. Kein "Komma" oder "Punkt" diktieren — Claude Haiku erledigt die Zeichensetzung selbst.
Schritt 4 — Transkription plus Politur: Das Audio geht an Whisper (lokal oder Groq). Der Rohtext geht an Claude Haiku 4.5, der Füllwörter entfernt, Groß-/Kleinschreibung setzt, Zeichensetzung einfügt und Selbstkorrekturen weglässt. Gesamt-Latenz: 1 bis 2 Sekunden im Cloud-Modus, 3 bis 8 Sekunden lokal.
Schritt 5 — Einfügen: Der fertige Text erscheint Buchstabe für Buchstabe im aktiven Textfeld, so als hätten Sie ihn getippt. Ein Beep signalisiert das Ende. Sie lesen kurz durch, schicken ab, machen weiter.
Für wen sich das Diktat-Tool lohnt
Vielschreiber im Büro: Wer pro Tag eine Stunde oder mehr mit E-Mails, Protokollen, Zusammenfassungen, Notizen und CRM-Einträgen verbringt, spart bei halber Tippgeschwindigkeit dreistellige Stunden pro Jahr. Ärzte und Zahnärzte, die Befunde direkt nach der Sprechstunde diktieren statt abends im Studium. Anwälte und Steuerberater, die Gutachten und Schriftsätze sprechen können statt tippen. Makler, Gutachter, Pflegefachkräfte, Handwerker mit Dokumentationspflicht, Journalisten, Autoren.
Menschen mit Handverletzungen, Sehnenscheidenentzündung, Karpaltunnelsyndrom oder RSI: Für die ist das Tool kein Nice-to-have, sondern ein Arbeitsplatz-Erhalter. Wir richten es bei Bedarf mit einem bequemen Fuß-Schalter als Hotkey ein, damit die Hände gänzlich geschont werden.
Weniger sinnvoll ist das Tool für reine Zahlen-Eingabe (Tabellen, Buchhaltung, Formulare), wo Tippen oft schneller ist, oder bei Arbeiten, die laufend durch Kurz-Eingaben unterbrochen werden. Und natürlich für Mac- und Linux-Nutzer — aktuell läuft es nur auf Windows 10 und 11.
Was wir konkret für Sie einrichten
Single-EXE Installation
Eine einzelne ausführbare Datei, die per MSI-Installer oder Portable-ZIP ausgeliefert wird. Läuft im System-Tray, kein Browser nötig.
Lokaler Modus mit faster-whisper
Modell large-v3-turbo in int8-Quantisierung. Läuft auf jeder modernen CPU, keine GPU zwingend erforderlich. Keine API-Gebühr pro Transkription.
Cloud-Modus mit Groq Whisper
Groq-API, deutlich schneller als lokale Transkription. Wirtschaftlich attraktiver als vergleichbare OpenAI-Anbindungen. Abrechnung nach Verbrauch über Ihren eigenen Groq-Key.
Claude Haiku 4.5 Cleanup
Der Rohtext durchläuft einen Cleanup-Schritt: Füllwörter raus, Zeichensetzung rein, Groß-/Kleinschreibung korrekt, Selbstkorrekturen entfernt. Fachvokabular-bewusst.
Push-to-Talk plus Toggle
Zwei Aufnahme-Modi frei wählbar. Push-to-Talk für kurze Eingaben, Toggle für lange Diktate. Hotkey frei konfigurierbar — auch Funktionstasten, Multimedia-Tasten oder Maustasten.
Vokabular-Training
Ihre Fachbegriffe, Produktnamen, Kundenbezeichnungen, Pharmazie-Namen, Paragraphen werden im Setup trainiert. Die KI erkennt sie beim ersten Mal richtig — kein "Kortisonspraejonat" statt "Cortison-Präparat".
Ton-Feedback plus Tray-Icon
Kurzer Beep bei Aufnahme-Start, anderer Beep bei Textinjection. Tray-Icon blinkt in den drei Phasen rot/gelb/grün. Keine Bildschirm-Overlays, keine Ablenkung.
Logs mit Latenz-Histogramm
Jede Aufnahme wird gelogged mit Dauer, STT-Latenz, Cleanup-Latenz, Inject-Latenz. Sie sehen, ob lokal oder Cloud schneller ist — und können datenbasiert optimieren.
Diktat-Software 2026 im Marktüberblick
Wer Diktat-Tools vergleicht, stößt auf sehr unterschiedliche Modelle: klassische Desktop-Lizenzen, reine Cloud-APIs, Bordmittel des Betriebssystems sowie hybride Setups wie unseres. Hier eine fachliche Einordnung der gängigsten Optionen — ohne Preisangaben, da sich diese laufend ändern.
klassische Desktop-Lizenz, ohne Cloud-KI, technisch veraltet, kein laufender Cleanup-Schritt
reine Cloud-API, kein fertiges Bedien-Tool, eigene Integration nötig, abgerechnet nach Audio-Stunden
über Ihren eigenen Groq-Key, sehr niedrige Latenz, pay-per-use Abrechnung direkt bei Groq
vollständig auf Ihrer CPU, keine API-Anbindung notwendig, etwas langsamer als Cloud
in Windows enthalten, unzuverlässig, schwache Fachbegriff-Erkennung
Enterprise-Cloud, komplexes Setup, hohe Skalierbarkeit, abgerechnet nach Audio-Stunden
Hinweis: Lizenzmodelle und API-Tarife der genannten Anbieter ändern sich laufend — bitte vor einer Kaufentscheidung beim jeweiligen Anbieter gegenprüfen.
Komplett-Setup: Windows-EXE auf Ihrem Rechner, Vokabular-Training, Hotkey-Konfiguration, Groq-Account-Einrichtung optional, ein Probe-Diktat mit Feintuning. Zwölf Monate Updates inklusive.
Ihre Cloud-Anbindung: Die Groq-API rechnen Sie über Ihren eigenen Groq-Key direkt mit Groq ab. Der Lokal-Modus läuft ohne externe Abrechnung. Der Claude-Haiku-Cleanup wird über Ihren Anthropic-Key abgerechnet — bei uns selbst entstehen keine wiederkehrenden Gebühren.
Datenschutz und DSGVO
Beim Thema Diktat geht es oft um sensible Inhalte — Patienten-Befunde, Mandanten-Schriftsätze, vertrauliche Kundenkommunikation. Deshalb ist die Wahl zwischen Lokal- und Cloud-Modus bewusst Ihnen überlassen.
Lokal-Modus: Nichts verlässt Ihren Rechner. Das Audio wird von faster-whisper auf Ihrer CPU verarbeitet und sofort verworfen, der Rohtext geht optional an Claude Haiku für Cleanup — oder auch nicht, das ist konfigurierbar. Mit Cleanup-aus haben Sie eine 100 Prozent on-device Lösung.
Cloud-Modus Groq: Das Audio geht per HTTPS an Groq, wird transkribiert und sofort gelöscht. Groq speichert nichts für Training (Opt-Out standardmäßig aktiviert). AV-Vertrag nach Art. 28 DSGVO liegt uns vor und wird bei Bedarf an Sie weitergegeben.
Cleanup-Modus Anthropic: Claude Haiku verarbeitet den transkribierten Text. Anthropic speichert nichts zu Trainings-Zwecken (API-Standardeinstellung). EU-Rechenzentren werden zunehmend verfügbar, aktuell laufen die Anfragen meist über US-Infrastruktur mit EU-Standardvertragsklauseln nach EU-Kommissionsbeschluss 2021/914.
Beschreiben Sie Ihr Anliegen
Schreiben Sie uns kurz, worum es geht. Wir prüfen die Anfrage und melden uns per E-Mail mit dem nächsten Schritt.
Häufig gestellte Fragen
Warum eine eingerichtete Lösung, wenn Windows doch Win+H eingebaut hat?
Win+H ist bekannt unzuverlässig: hängt beim Start, erkennt Fachbegriffe schlecht, hat kein Cleanup, keine Groq-Anbindung, kein konfigurierbares Vokabular. Für den Ersteinsatz okay, für produktives Diktieren nicht. Wer täglich eine Stunde spricht, rechnet die Investition in eine professionell eingerichtete Lösung schon nach kurzer Zeit über die gewonnene Arbeitszeit ein.
Kann ich das Tool auch auf Mac oder Linux nutzen?
Aktuell nur Windows 10 und 11 (64-Bit). Eine Mac-Portierung ist geplant, aber nicht zeitnah. Für Linux existiert ein Prototyp, aber ohne Tray-Integration. Wenn Sie Mac- oder Linux-Nutzer sind, schreiben Sie uns trotzdem — wir führen eine Interessen-Liste.
Wie unterscheidet sich Groq Whisper qualitativ von OpenAI Whisper?
Gleiches Modell (whisper-large-v3-turbo), andere Infrastruktur. Groq läuft auf spezieller Inferenz-Hardware (LPU), OpenAI auf normalen GPU-Clustern. Latenz: Groq deutlich schneller (oft unter 500 ms für 10 Sekunden Audio). Qualität: identisch. Wirtschaftlich: Groq ist gegenüber OpenAI deutlich attraktiver.
Welche Hardware-Anforderungen gibt es für den lokalen Modus?
CPU: moderne 8-Kern-CPU ab i5/Ryzen 5 der letzten fünf Jahre. RAM: 8 GB reichen, 16 GB sind komfortabel. Eine GPU ist nicht zwingend erforderlich — wenn eine NVIDIA-Karte vorhanden ist (GTX 1060 oder besser), beschleunigt sie die Transkription auf das Drei- bis Fünffache. AMD-Karten werden aktuell nicht unterstützt.
Welches Mikrofon empfehlen Sie?
Fürs Diktieren ist ein Headset-Mikrofon besser als ein Tisch-Mikrofon: konsistenter Abstand, weniger Raumhall, robust gegen Bewegung. Wir empfehlen das Jabra Evolve 30 II oder das Poly Blackwire 3220. Beide per USB, Plug-and-Play, sehr gute Spracherkennungs-Qualität. USB-Kondensator wie Beyerdynamic Fox geht auch, nimmt aber mehr Raumhall mit.
Wie funktioniert das Vokabular-Training genau?
Im Setup-Termin sammeln wir Ihre häufigsten Fachbegriffe, Produktnamen, Kundenbezeichnungen. Die landen in einer config.toml unter [vocab.custom]. Beim Cleanup-Schritt weist Claude Haiku den Kontext an, diese Begriffe präferenziert zu nutzen. Ergebnis: "Diclofenac" statt "Diklofenak", "Müller GmbH" statt "Müller gmbH". Später können Sie die Liste jederzeit selbst erweitern.
Was passiert, wenn Groq oder Anthropic ausfällt?
Das Tool schaltet automatisch auf lokalen Fallback: wenn Groq nicht antwortet, läuft faster-whisper auf Ihrer CPU. Wenn Anthropic nicht antwortet, entfällt nur das Cleanup — Sie bekommen den Rohtext (ohne Zeichensetzung, mit Füllwörtern). Auch das ist nutzbar und wird per Tray-Icon-Farbe signalisiert.
Gibt es eine Update-Verlängerung nach den zwölf Monaten?
Nach Ablauf der zwölf Monate können Sie die Updates auf Anfrage jährlich verlängern. Ohne Verlängerung läuft Ihre Version unverändert weiter — das bleibt Ihre Entscheidung. Die Whisper- und Claude-API-Calls funktionieren so oder so weiter, solange die externen Services laufen.
Kann das Tool auch direkt in Word oder Outlook diktieren?
Ja — KI-Diktat injiziert den Text in das aktive Textfeld, egal ob das Word, Outlook, Teams, ein Browser-Formular, das CRM oder ein Editor ist. Es gibt kein Plug-in, keine COM-Integration, keine Office-Version-Abhängigkeit. Voraussetzung ist nur: der Cursor muss im Textfeld blinken.
Wie lange dauert die Einrichtung?
Zwei Stunden per Fernwartung. Erste Stunde: Installation, Tests, Hotkey-Konfiguration, Groq-Account-Setup (falls gewünscht), erste Probediktate. Zweite Stunde: Vokabular-Training mit Ihren Fachbegriffen, Feintuning der Cleanup-Einstellungen, Integration in Ihren typischen Workflow. Danach sind Sie sofort produktiv.
