Empfang Telefon, Chat, Termine, Rückruf
Dokumentation Angebote, Protokolle, Rechnungen
Betrieb Mail, Touren, Projekte, Recruiting
Branchen-Fachwissen SHK, Elektro, Maler
Sichtbarkeit Blog, Google-Profil, Audit
Für Ihre Branche KI-Lösungen für 8 Branchen
Open Source & KI Eigene Plattformen statt SaaS-Inseln
Verkündigung digital Werkzeuge für Gemeinden
Beispiele aus dem Haus KI-Anwendungen, die wir selbst betreiben
Übersicht Alle 56 Produkte auf einer Seite
Alle KI-Lösungen →
Beispiele aus dem Haus
Computer & Laptops PC, Mac, Kaufberatung
Mobilgeräte Smartphone, TV, Fotos
Peripherie & Netzwerk Drucker, WLAN, NAS
Smart Home & IoT Automation, PV, Homeoffice
Alle Hardware-Leistungen →
IT-Infrastruktur VPN, Netzwerk, DSGVO
Business-Software Buchhaltung, Kasse, Zeiterfassung
Web & Marketing Webseite, SEO, WordPress, Newsletter
Entwicklung & Beratung KI-Tools, Automation, Wartung, Beratung
Krypto & Web3 Steuern, Wallets, Mining, DePIN
Monitoring & IoT Sensoren, Dashboards, Alarmierung
Branchen-IT Spezialisierte IT für kleine Betriebe
Service & Recht Termin, Verträge, Karriere
Alle Unternehmens-Leistungen →
spuerwerk© Mess-Module Temperatur, CO₂, Strom, …
spuerwerk© Branchen I Apotheke, Praxis, Hotel, …
spuerwerk© Branchen II Lager, Logistik, Werkstatt, …
linkx© Hub + Module Schlauer QR-Code mit Funktion
linkx© Module II Karte, Wache, Wahl, …
naturwerk© Bürger-Tech gegen Umweltgift
Weitere Submarken bildwache, fermentwerk, kurierwerk, spaehwerk
diffus© Modi I Privat, Erbe, B2B, Versicherung
diffus© Modi II Pflege, Miete, Reise, Sammler, Logistik
Alle Submarken →
KI-Produkt

KI-Diktat
Sprache zu Text für Windows

Hotkey drücken, sprechen, Text erscheint im aktiven Textfeld. Lokal auf Ihrem Rechner — ohne laufende API-Kosten. Oder in der Cloud mit Groq Whisper — deutlich wirtschaftlicher als OpenAI. Einmalige Einrichtung, kein Abo.

Isometrische Illustration eines Windows-Arbeitsplatzes mit Mikrofon, Hotkey-Indikator und Text-Strom in ein E-Mail-Fenster

Warum eigenes Diktat-Tool statt Windows-Bordmittel oder Dragon

Ein geübter Tipper schafft 50 Wörter pro Minute. Gesprochen sind es 130. Wer eine längere E-Mail, ein Protokoll oder einen Gesprächsbericht diktiert statt tippt, ist in weniger als der halben Zeit fertig. Das Problem: Die Windows-Bordmittel (Win+H) sind seit Jahren unzuverlässig und erkennen Fachbegriffe schlecht. Klassische Lizenzlösungen wie Dragon NaturallySpeaking sind preislich anspruchsvoll, und reine Cloud-APIs wie OpenAI Whisper summieren sich für Vielschreiber im Dauereinsatz spürbar auf.

KI-Diktat ist die dritte Variante: eine eingerichtete Windows-EXE, die entweder vollständig lokal läuft (faster-whisper auf Ihrer CPU, ohne API-Gebühr pro Diktat) oder via Groq Whisper in die Cloud geht (deutlich schneller als lokale Transkription). Sie entscheiden pro Diktat, welchen Modus Sie wollen — für sensible Inhalte lokal, für längere Texte Cloud.

Nach dem Einrichten gibt es kein Abo und keine wiederkehrenden Gebühren bei uns. Sie erhalten die fertige Lizenz inklusive Service: das Setup ist mit Ihrem Fachvokabular trainiert, der Hotkey konfiguriert, und Sie nutzen das Tool unbegrenzt weiter — mit Updates für zwölf Monate inklusive.

Wie das Diktieren im Alltag aussieht

Schritt 1 — Cursor im Textfeld: Sie sind in Outlook, Word, einem Browser-Formular, Ihrem CRM, Teams-Chat — egal wo. Wichtig ist nur, dass der Cursor im Textfeld blinkt. KI-Diktat läuft im Hintergrund im System-Tray.

Schritt 2 — Hotkey: Sie drücken Ihre konfigurierte Taste. Zwei Modi zur Wahl: Push-to-Talk (Taste halten, solange Sie sprechen) oder Toggle (einmal drücken = an, nochmal = aus). Ein kurzer Beep bestätigt den Start, ein Tray-Icon leuchtet rot.

Schritt 3 — Sprechen: Reden Sie in normaler Geschwindigkeit, auch mit Füllwörtern, Pausen, Selbstkorrekturen. Die KI kümmert sich in Schritt 4 darum. Kein "Komma" oder "Punkt" diktieren — Claude Haiku erledigt die Zeichensetzung selbst.

Schritt 4 — Transkription plus Politur: Das Audio geht an Whisper (lokal oder Groq). Der Rohtext geht an Claude Haiku 4.5, der Füllwörter entfernt, Groß-/Kleinschreibung setzt, Zeichensetzung einfügt und Selbstkorrekturen weglässt. Gesamt-Latenz: 1 bis 2 Sekunden im Cloud-Modus, 3 bis 8 Sekunden lokal.

Schritt 5 — Einfügen: Der fertige Text erscheint Buchstabe für Buchstabe im aktiven Textfeld, so als hätten Sie ihn getippt. Ein Beep signalisiert das Ende. Sie lesen kurz durch, schicken ab, machen weiter.

Für wen sich das Diktat-Tool lohnt

Vielschreiber im Büro: Wer pro Tag eine Stunde oder mehr mit E-Mails, Protokollen, Zusammenfassungen, Notizen und CRM-Einträgen verbringt, spart bei halber Tippgeschwindigkeit dreistellige Stunden pro Jahr. Ärzte und Zahnärzte, die Befunde direkt nach der Sprechstunde diktieren statt abends im Studium. Anwälte und Steuerberater, die Gutachten und Schriftsätze sprechen können statt tippen. Makler, Gutachter, Pflegefachkräfte, Handwerker mit Dokumentationspflicht, Journalisten, Autoren.

Menschen mit Handverletzungen, Sehnenscheidenentzündung, Karpaltunnelsyndrom oder RSI: Für die ist das Tool kein Nice-to-have, sondern ein Arbeitsplatz-Erhalter. Wir richten es bei Bedarf mit einem bequemen Fuß-Schalter als Hotkey ein, damit die Hände gänzlich geschont werden.

Weniger sinnvoll ist das Tool für reine Zahlen-Eingabe (Tabellen, Buchhaltung, Formulare), wo Tippen oft schneller ist, oder bei Arbeiten, die laufend durch Kurz-Eingaben unterbrochen werden. Und natürlich für Mac- und Linux-Nutzer — aktuell läuft es nur auf Windows 10 und 11.

Was wir konkret für Sie einrichten

Single-EXE Installation

Eine einzelne ausführbare Datei, die per MSI-Installer oder Portable-ZIP ausgeliefert wird. Läuft im System-Tray, kein Browser nötig.

Lokaler Modus mit faster-whisper

Modell large-v3-turbo in int8-Quantisierung. Läuft auf jeder modernen CPU, keine GPU zwingend erforderlich. Keine API-Gebühr pro Transkription.

Cloud-Modus mit Groq Whisper

Groq-API, deutlich schneller als lokale Transkription. Wirtschaftlich attraktiver als vergleichbare OpenAI-Anbindungen. Abrechnung nach Verbrauch über Ihren eigenen Groq-Key.

Claude Haiku 4.5 Cleanup

Der Rohtext durchläuft einen Cleanup-Schritt: Füllwörter raus, Zeichensetzung rein, Groß-/Kleinschreibung korrekt, Selbstkorrekturen entfernt. Fachvokabular-bewusst.

Push-to-Talk plus Toggle

Zwei Aufnahme-Modi frei wählbar. Push-to-Talk für kurze Eingaben, Toggle für lange Diktate. Hotkey frei konfigurierbar — auch Funktionstasten, Multimedia-Tasten oder Maustasten.

Vokabular-Training

Ihre Fachbegriffe, Produktnamen, Kundenbezeichnungen, Pharmazie-Namen, Paragraphen werden im Setup trainiert. Die KI erkennt sie beim ersten Mal richtig — kein "Kortisonspraejonat" statt "Cortison-Präparat".

Ton-Feedback plus Tray-Icon

Kurzer Beep bei Aufnahme-Start, anderer Beep bei Textinjection. Tray-Icon blinkt in den drei Phasen rot/gelb/grün. Keine Bildschirm-Overlays, keine Ablenkung.

Logs mit Latenz-Histogramm

Jede Aufnahme wird gelogged mit Dauer, STT-Latenz, Cleanup-Latenz, Inject-Latenz. Sie sehen, ob lokal oder Cloud schneller ist — und können datenbasiert optimieren.

Diktat-Software 2026 im Marktüberblick

Wer Diktat-Tools vergleicht, stößt auf sehr unterschiedliche Modelle: klassische Desktop-Lizenzen, reine Cloud-APIs, Bordmittel des Betriebssystems sowie hybride Setups wie unseres. Hier eine fachliche Einordnung der gängigsten Optionen — ohne Preisangaben, da sich diese laufend ändern.

Dragon Professional v16
klassische Desktop-Lizenz, ohne Cloud-KI, technisch veraltet, kein laufender Cleanup-Schritt
OpenAI Whisper API
reine Cloud-API, kein fertiges Bedien-Tool, eigene Integration nötig, abgerechnet nach Audio-Stunden
Groq Whisper (unser Tool)
über Ihren eigenen Groq-Key, sehr niedrige Latenz, pay-per-use Abrechnung direkt bei Groq
Lokal faster-whisper
vollständig auf Ihrer CPU, keine API-Anbindung notwendig, etwas langsamer als Cloud
Windows Win+H
in Windows enthalten, unzuverlässig, schwache Fachbegriff-Erkennung
Microsoft Azure Speech
Enterprise-Cloud, komplexes Setup, hohe Skalierbarkeit, abgerechnet nach Audio-Stunden

Hinweis: Lizenzmodelle und API-Tarife der genannten Anbieter ändern sich laufend — bitte vor einer Kaufentscheidung beim jeweiligen Anbieter gegenprüfen.

Lizenz und Service

Komplett-Setup: Windows-EXE auf Ihrem Rechner, Vokabular-Training, Hotkey-Konfiguration, Groq-Account-Einrichtung optional, ein Probe-Diktat mit Feintuning. Zwölf Monate Updates inklusive.

Laufende Nutzung

Ihre Cloud-Anbindung: Die Groq-API rechnen Sie über Ihren eigenen Groq-Key direkt mit Groq ab. Der Lokal-Modus läuft ohne externe Abrechnung. Der Claude-Haiku-Cleanup wird über Ihren Anthropic-Key abgerechnet — bei uns selbst entstehen keine wiederkehrenden Gebühren.

Jetzt anfragen

Datenschutz und DSGVO

Beim Thema Diktat geht es oft um sensible Inhalte — Patienten-Befunde, Mandanten-Schriftsätze, vertrauliche Kundenkommunikation. Deshalb ist die Wahl zwischen Lokal- und Cloud-Modus bewusst Ihnen überlassen.

Lokal-Modus: Nichts verlässt Ihren Rechner. Das Audio wird von faster-whisper auf Ihrer CPU verarbeitet und sofort verworfen, der Rohtext geht optional an Claude Haiku für Cleanup — oder auch nicht, das ist konfigurierbar. Mit Cleanup-aus haben Sie eine 100 Prozent on-device Lösung.

Cloud-Modus Groq: Das Audio geht per HTTPS an Groq, wird transkribiert und sofort gelöscht. Groq speichert nichts für Training (Opt-Out standardmäßig aktiviert). AV-Vertrag nach Art. 28 DSGVO liegt uns vor und wird bei Bedarf an Sie weitergegeben.

Cleanup-Modus Anthropic: Claude Haiku verarbeitet den transkribierten Text. Anthropic speichert nichts zu Trainings-Zwecken (API-Standardeinstellung). EU-Rechenzentren werden zunehmend verfügbar, aktuell laufen die Anfragen meist über US-Infrastruktur mit EU-Standardvertragsklauseln nach EU-Kommissionsbeschluss 2021/914.

Beschreiben Sie Ihr Anliegen

Schreiben Sie uns kurz, worum es geht. Wir prüfen die Anfrage und melden uns per E-Mail mit dem nächsten Schritt.

Häufig gestellte Fragen

Warum eine eingerichtete Lösung, wenn Windows doch Win+H eingebaut hat?

Win+H ist bekannt unzuverlässig: hängt beim Start, erkennt Fachbegriffe schlecht, hat kein Cleanup, keine Groq-Anbindung, kein konfigurierbares Vokabular. Für den Ersteinsatz okay, für produktives Diktieren nicht. Wer täglich eine Stunde spricht, rechnet die Investition in eine professionell eingerichtete Lösung schon nach kurzer Zeit über die gewonnene Arbeitszeit ein.

Kann ich das Tool auch auf Mac oder Linux nutzen?

Aktuell nur Windows 10 und 11 (64-Bit). Eine Mac-Portierung ist geplant, aber nicht zeitnah. Für Linux existiert ein Prototyp, aber ohne Tray-Integration. Wenn Sie Mac- oder Linux-Nutzer sind, schreiben Sie uns trotzdem — wir führen eine Interessen-Liste.

Wie unterscheidet sich Groq Whisper qualitativ von OpenAI Whisper?

Gleiches Modell (whisper-large-v3-turbo), andere Infrastruktur. Groq läuft auf spezieller Inferenz-Hardware (LPU), OpenAI auf normalen GPU-Clustern. Latenz: Groq deutlich schneller (oft unter 500 ms für 10 Sekunden Audio). Qualität: identisch. Wirtschaftlich: Groq ist gegenüber OpenAI deutlich attraktiver.

Welche Hardware-Anforderungen gibt es für den lokalen Modus?

CPU: moderne 8-Kern-CPU ab i5/Ryzen 5 der letzten fünf Jahre. RAM: 8 GB reichen, 16 GB sind komfortabel. Eine GPU ist nicht zwingend erforderlich — wenn eine NVIDIA-Karte vorhanden ist (GTX 1060 oder besser), beschleunigt sie die Transkription auf das Drei- bis Fünffache. AMD-Karten werden aktuell nicht unterstützt.

Welches Mikrofon empfehlen Sie?

Fürs Diktieren ist ein Headset-Mikrofon besser als ein Tisch-Mikrofon: konsistenter Abstand, weniger Raumhall, robust gegen Bewegung. Wir empfehlen das Jabra Evolve 30 II oder das Poly Blackwire 3220. Beide per USB, Plug-and-Play, sehr gute Spracherkennungs-Qualität. USB-Kondensator wie Beyerdynamic Fox geht auch, nimmt aber mehr Raumhall mit.

Wie funktioniert das Vokabular-Training genau?

Im Setup-Termin sammeln wir Ihre häufigsten Fachbegriffe, Produktnamen, Kundenbezeichnungen. Die landen in einer config.toml unter [vocab.custom]. Beim Cleanup-Schritt weist Claude Haiku den Kontext an, diese Begriffe präferenziert zu nutzen. Ergebnis: "Diclofenac" statt "Diklofenak", "Müller GmbH" statt "Müller gmbH". Später können Sie die Liste jederzeit selbst erweitern.

Was passiert, wenn Groq oder Anthropic ausfällt?

Das Tool schaltet automatisch auf lokalen Fallback: wenn Groq nicht antwortet, läuft faster-whisper auf Ihrer CPU. Wenn Anthropic nicht antwortet, entfällt nur das Cleanup — Sie bekommen den Rohtext (ohne Zeichensetzung, mit Füllwörtern). Auch das ist nutzbar und wird per Tray-Icon-Farbe signalisiert.

Gibt es eine Update-Verlängerung nach den zwölf Monaten?

Nach Ablauf der zwölf Monate können Sie die Updates auf Anfrage jährlich verlängern. Ohne Verlängerung läuft Ihre Version unverändert weiter — das bleibt Ihre Entscheidung. Die Whisper- und Claude-API-Calls funktionieren so oder so weiter, solange die externen Services laufen.

Kann das Tool auch direkt in Word oder Outlook diktieren?

Ja — KI-Diktat injiziert den Text in das aktive Textfeld, egal ob das Word, Outlook, Teams, ein Browser-Formular, das CRM oder ein Editor ist. Es gibt kein Plug-in, keine COM-Integration, keine Office-Version-Abhängigkeit. Voraussetzung ist nur: der Cursor muss im Textfeld blinken.

Wie lange dauert die Einrichtung?

Zwei Stunden per Fernwartung. Erste Stunde: Installation, Tests, Hotkey-Konfiguration, Groq-Account-Setup (falls gewünscht), erste Probediktate. Zweite Stunde: Vokabular-Training mit Ihren Fachbegriffen, Feintuning der Cleanup-Einstellungen, Integration in Ihren typischen Workflow. Danach sind Sie sofort produktiv.

Cookie-EinwilligungWir nutzen technisch notwendige Cookies und laden externe Inhalte wie Terminbuchung oder Kartenmaterial nur nach Ihrer Zustimmung. Unsere Reichweitenmessung läuft cookielos auf unserem eigenen Server. Mehr erfahren