Empfang Telefon, Chat, Termine, Rückruf
Dokumentation Angebote, Protokolle, Rechnungen
Betrieb Mail, Touren, Projekte, Recruiting
Branchen-Fachwissen SHK, Elektro, Maler
Sichtbarkeit Blog, Google-Profil, Audit
Für Ihre Branche KI-Lösungen für 8 Branchen
Open Source & KI Eigene Plattformen statt SaaS-Inseln
Verkündigung digital Werkzeuge für Gemeinden
Beispiele aus dem Haus KI-Anwendungen, die wir selbst betreiben
Übersicht Alle 56 Produkte auf einer Seite
Alle KI-Lösungen →
Beispiele aus dem Haus
Computer & Laptops PC, Mac, Kaufberatung
Mobilgeräte Smartphone, TV, Fotos
Peripherie & Netzwerk Drucker, WLAN, NAS
Smart Home & IoT Automation, PV, Homeoffice
Alle Hardware-Leistungen →
IT-Infrastruktur VPN, Netzwerk, DSGVO
Business-Software Buchhaltung, Kasse, Zeiterfassung
Web & Marketing Webseite, SEO, WordPress, Newsletter
Entwicklung & Beratung KI-Tools, Automation, Wartung, Beratung
Monitoring & IoT Sensoren, Dashboards, Alarmierung
Branchen-IT Spezialisierte IT für kleine Betriebe
Service & Recht Termin, Verträge, Karriere
Alle Unternehmens-Leistungen →
KI-Wissen · Hardware Drei Computer-Generationen auf einem Schreibtisch: ein älterer ThinkPad mit Linux-Terminal, ein Mid-Tower-PC mit Grafikkarte und ein Mac Studio – jede Hardware-Klasse mit eigenem passenden lokalen Sprachmodell.

Lokale Sprachmodelle herunterladen: Für jede Hardware das passende Open-Source-LLM

Veröffentlicht am 28. April 2026 · Lesezeit ca. 32 Minuten · Aktualisiert für Modellstand Frühjahr 2026

Die Idee, ein Sprachmodell auf dem eigenen Rechner laufen zu lassen, fühlte sich noch vor zwei Jahren wie ein Hobbyprojekt für Bastler an. Heute ist sie Praxis: Auf einem acht Jahre alten Linux-Laptop läuft ein kleines Modell für E-Mail-Entwürfe und Kurzfassungen. Auf einem aktuellen Bürorechner mit 16 GB Arbeitsspeicher läuft ein Modell, das ehrliche Konkurrenz zu kostenpflichtigen Cloud-Diensten ist. Auf einem Mac Studio mit 128 GB Unified Memory laufen Modelle, die vor zwölf Monaten noch Rechenzentren benötigten. Wir zeigen Ihnen in diesem Beitrag, welches frei verfügbare Modell zu welcher Hardware passt – vom ThinkPad mit Ubuntu bis zum frisch ausgepackten Workstation-Tower.

Schnelle Antwort

Wenn Sie 4–8 GB Arbeitsspeicher haben: Phi-3 Mini oder Qwen 2.5 1.5B. Mit 16 GB: Llama 3.2 3B, Mistral 7B Q4 oder Gemma 2 9B Q4. Mit 32 GB: Mistral Small 3 (24B) oder Qwen 2.5 32B Q4. Mit 64 GB plus dedizierter Grafikkarte: Llama 3.3 70B Q4. Mit 128+ GB Unified Memory (Mac Studio Ultra): DeepSeek V3 oder Qwen 3 235B. Als Werkzeug zum Starten empfehlen wir Einsteigern Ollama oder LM Studio.

Was ist ein lokales Sprachmodell überhaupt?

Ein Sprachmodell ist eine sehr große Datei mit Zahlen, die so trainiert wurde, dass sie Texte fortsetzen kann. Die meisten Menschen kennen Sprachmodelle nur aus Cloud-Diensten wie ChatGPT, Claude oder Gemini. Dort schickt der Browser jede Eingabe zu einem Rechenzentrum, dort läuft das Modell auf dutzenden Hochleistungs-Grafikkarten, und die Antwort kommt zurück. Das funktioniert hervorragend – aber jede Eingabe verlässt Ihren Rechner und liegt für mindestens einen Moment auf einem fremden Server.

Ein lokales Sprachmodell ist genau dieselbe Art Datei, aber sie liegt auf Ihrer Festplatte. Wenn Sie etwas eingeben, rechnet Ihr eigener Prozessor die Antwort aus. Nichts verlässt das Gerät. Keine Anmeldung, keine Cloud-Nutzungsbedingungen, keine monatlichen Gebühren. Die Modelldatei selbst dürfen Sie weitergeben, kopieren, sichern – sie ist Open-Weights, also offen verfügbar.

Der Haken ist die Größe. Ein gutes Modell hat zwischen 3 und 700 Milliarden Parameter (Zahlen). Selbst stark komprimiert braucht ein 7-Milliarden-Modell etwa 4 GB Speicher, ein 70-Milliarden-Modell rund 40 GB. Damit das auf einem normalen Rechner überhaupt läuft, gibt es zwei wichtige Tricks: Quantisierung (die Zahlen werden auf weniger Bit pro Parameter gerundet, das spart drei Viertel des Speichers bei kaum sichtbarem Qualitätsverlust) und llama.cpp (eine Open-Source-Engine, die diese komprimierten Modelle effizient auf normalen CPUs ausführt). Fast alle Werkzeuge, die wir gleich vorstellen, basieren auf llama.cpp im Hintergrund.

Wichtig zu wissen: Ein lokales Modell ersetzt nicht in jeder Hinsicht die großen Cloud-Modelle. Ein 7B-Modell auf Ihrem Laptop kann hervorragend deutsche E-Mails schreiben, Texte zusammenfassen, einfache Programmieraufgaben lösen, Tabellen umformatieren oder beim Brainstorming helfen. Es kann aber nicht im Web suchen, kennt keine Ereignisse nach seinem Trainingsstichtag und versagt bei sehr komplexen logischen Aufgaben, die ein Cloud-Modell mit 200 Milliarden Parametern noch löst. Welches Modell zu welchem Zweck passt, beschreiben wir gleich pro Klasse.

Warum ein lokales Modell statt Cloud-Abo?

Es gibt vier Gründe, warum sich der Aufwand lohnen kann. Sie sind unterschiedlich gewichtig je nach Person.

Datenschutz. Wenn Sie Mandatsverhältnisse, Patientendaten, Personaldaten, interne Strategiedokumente oder schlicht private Tagebucheinträge mit einem Sprachmodell verarbeiten wollen, ist die Cloud-Variante meistens kritisch. Selbst wenn der Anbieter Anti-Training-Klauseln einräumt, geht der Text einmal über die Leitung und liegt zumindest kurz auf einem Server. Mit einem lokalen Modell verlässt der Text Ihr Gerät nie. Für Anwälte, Ärzte, Steuerberater, HR-Verantwortliche und Journalisten kann das schon der allein entscheidende Grund sein.

Keine laufenden Kosten. Cloud-Sprachmodelle kosten zwischen 0 € (mit knappen Limits) und 200 € pro Monat (Pro-Tarife mehrerer Anbieter zusammen). Ein lokales Modell kostet einmal Hardware – und sonst nichts. Wer das Modell intensiv nutzt, hat die Anfangsinvestition in einer Mid-Tower-Workstation in unter einem Jahr drin. Wer einen alten Rechner reaktiviert, hat von Anfang an nur Strom als laufende Position.

Offline-Verfügbarkeit. Lokal läuft auch ohne Internet. Auf der Bahnfahrt, im Ferienhaus mit dem letzten halben Funkbalken, im abgelegenen Versorgungsgebiet, bei Internet-Ausfall, in der hauseigenen Werkstatt im Keller. Für Selbstversorger, Krisenvorsorge und Menschen mit unzuverlässiger Anbindung ist das ein eigener Wert.

Keine Plattform-Abhängigkeit. Wenn ein Cloud-Anbieter sein Modell aktualisiert, sich der Tonfall ändert oder ein Tarif eingestellt wird, sind Sie ausgeliefert. Lokal haben Sie das Modell, das Sie kennen, in der Version, die Sie kennen, in dem Tonfall, den Sie kennen. Es kann nicht von außen kaputt gemacht werden.

Es gibt auch Gegenargumente, ehrlicherweise. Ein lokales 7B-Modell schreibt nicht so flüssig wie GPT-4. Ein lokales 70B-Modell ist nicht so schnell wie ein Cloud-API-Endpoint. Wenn Sie nur Texte zusammenfassen oder Mails übersetzen wollen, ist eine Cloud-Lösung oft günstiger und schneller. Die ehrliche Antwort lautet: Hybrid ist meistens am sinnvollsten – sensible Inhalte lokal, alltägliche Routine in der Cloud.

Vier Tricks verstehen, dann passt das Modell zur Hardware

Bevor wir in die Hardware-Klassen einsteigen, lohnt es sich, vier Begriffe zu erklären, die Sie immer wieder sehen werden. Wer sie versteht, kann auf jeder Modell-Seite (zum Beispiel auf huggingface.co) sofort einschätzen, ob ein Modell auf den eigenen Rechner passt.

Parameter-Anzahl (B). Die Zahl mit dem B (Billion, also Milliarden) gibt die Größe an. Llama 3.2 3B hat 3 Milliarden Parameter, Llama 3.3 70B hat 70 Milliarden. Mehr Parameter bedeuten in der Regel bessere Antworten, aber auch mehr Speicherbedarf und langsamere Geschwindigkeit. Faustregel: 1B braucht roh ungefähr 2 GB Speicher, quantisiert auf Q4 ungefähr 0,6 GB.

Quantisierung (Q4, Q5, Q8). Die Originaldatei eines 7B-Modells ist etwa 14 GB groß. Quantisierung rundet die internen Zahlen, sodass jeder Parameter weniger Bit braucht. Q8 ist fast unmerklich schlechter als das Original. Q4 (genauer: Q4_K_M oder Q4_0) ist der Standard für lokale Nutzung – etwa 4 GB für ein 7B-Modell, qualitativ schon spürbar schwächer als das Original, aber meistens völlig ausreichend. Q3 oder Q2 sind nur etwas für Notfälle, dort werden die Antworten merklich schlechter.

Kontextfenster (Token-Anzahl). Das ist die Menge an Text, die das Modell auf einmal sehen kann. 4.096 Token entsprechen ungefähr 6 Seiten, 32.768 Token rund 50 Seiten, 128.000 Token entsprechen einem dicken Roman. Größere Fenster brauchen mehr Arbeitsspeicher zur Laufzeit. Wenn Sie ein PDF zusammenfassen wollen, brauchen Sie ein großes Kontextfenster.

Token pro Sekunde. Das Maß für Geschwindigkeit. Ein Token ist ungefähr eine Silbe oder ein kurzes Wort. Unter 5 Token pro Sekunde wirkt das Modell zäh, 10–20 fühlt sich angenehm an, 50+ ist Cloud-Niveau. Diese Zahl hängt am stärksten von der Hardware ab – Grafikkarte beschleunigt sehr viel, schneller Arbeitsspeicher hilft auch.

Sieben Hardware-Klassen, sieben Empfehlungen

Wir gehen jetzt in sieben Schritten von der ältesten bis zur neuesten Hardware. Pro Klasse nennen wir 2–4 konkret passende Modelle, was sie können, was sie nicht können, und welches Werkzeug sich für den Start eignet. Sie können direkt zu Ihrer Klasse springen.

1

Älterer Linux-Laptop oder schwacher Mini-PC

2 Kerne · 4 GB RAM · keine dedizierte Grafik

Diese Klasse umfasst Geräte wie einen Lenovo ThinkPad T440 (2014), einen Intel-NUC der ersten Generationen, einen alten MacBook Air (Intel) oder ein Acer Aspire aus etwa 2015. Auf Windows fühlt sich das alles zäh an, aber mit einer schlanken Linux-Distribution (Linux Mint, Xubuntu, MX Linux) sind das immer noch brauchbare Arbeitsgeräte. Auf solchen Geräten wirkt es zunächst aussichtslos, ein KI-Modell laufen zu lassen – aber es geht, wenn Sie das richtige Modell wählen.

Die Geschwindigkeit liegt bei 2–6 Token pro Sekunde – also etwa so schnell, wie ein Mensch flott Texte tippt. Für interaktive Chats genug, für lange Texte spürbar zäh. Das Kontextfenster sollten Sie auf 2.048 oder 4.096 Token begrenzen, sonst geht der Arbeitsspeicher aus.

Phi-3 Mini (3,8 Milliarden Parameter, Q4)

Hersteller: Microsoft Research · Größe: 2,3 GB · RAM-Bedarf: 4 GB

Microsofts Forschungsabteilung hat Phi-3 mit dem ausdrücklichen Ziel gebaut, ein wirklich kleines Modell mit überraschend guter Qualität zu liefern. Phi-3 Mini ist beeindruckend – die Antworten klingen erwachsen, das Modell folgt deutschen Anweisungen, kann zusammenfassen, kurze E-Mails schreiben, einfache Erklärungen liefern. Es ist meistens das erste Modell, das wir Menschen empfehlen, die einen alten Rechner haben.

Stärken: sehr klein, läuft sogar auf Raspberry Pi 5, gute deutsche Antworten, höflicher Tonfall, Microsoft-typisch zurückhaltend.

Schwächen: komplexe Logik überfordert es, längere Texte werden flach, Quellenangaben erfindet es ohne Hemmung.

Qwen 2.5 1.5B (Q4)

Hersteller: Alibaba (China) · Größe: 950 MB · RAM-Bedarf: 3 GB

Qwen ist die Sprachmodell-Reihe von Alibaba und in den letzten zwei Jahren stark geworden. Die 1,5-Milliarden-Variante ist winzig, läuft selbst auf einem Raspberry Pi 4 mit 4 GB Arbeitsspeicher und liefert für die Größe erstaunlich saubere Antworten. Auf Deutsch ist sie etwas blasser als Phi-3, dafür ist sie schneller und kann mit längeren Kontextfenstern (bis 32.000 Token) umgehen.

Stärken: sehr schnell, sparsam, akzeptables Englisch und Chinesisch, fasst auch lange Texte sauber zusammen.

Schwächen: Deutsch ist okay, aber nicht poliert. Manche Antworten brechen unmotiviert ins Englische um.

Llama 3.2 1B (Q4)

Hersteller: Meta (USA) · Größe: 770 MB · RAM-Bedarf: 2 GB

Metas kleinstes Llama-Modell ist gezielt für mobile Geräte und Edge-Computing trainiert. Es ist schwächer als Phi-3 Mini in der Qualität, dafür ist es buchstäblich auf jedem Smartphone der letzten drei Jahre lauffähig. Praktisch, wenn Sie wirklich nichts anderes haben oder ein Modell auf einem Embedded-Linux-System brauchen.

Stärken: kleinstes ernsthaftes Modell, läuft sogar auf Android-Smartphones via Termux, Meta-Lizenz erlaubt kommerzielle Nutzung.

Schwächen: für ernsthafte Aufgaben zu klein, Halluzinationen häufig, deutsche Antworten holprig.

Werkzeug-Empfehlung: Ollama ist der einfachste Einstieg. Ein einzelner Befehl im Terminal (ollama run phi3:mini), das Modell wird heruntergeladen, und sofort steht die Eingabe bereit. Auf einem ThinkPad mit Ubuntu installieren Sie Ollama in zwei Minuten und können loslegen. Wer eine Browser-Oberfläche möchte, ergänzt Open WebUI per Docker.

2

Bürorechner oder Mid-Range-Laptop ohne dedizierte Grafik

4 Kerne · 8 GB RAM · integrierte Grafik

In diese Klasse fällt das größte Lager privater und kleingewerblicher Rechner: Bürorechner aus den letzten 5–7 Jahren, Standard-Laptops mit Intel HD-Grafik oder AMD Vega-iGPU, die meisten Schul-Notebooks, ältere Macs mit M1-Chip aber 8 GB Arbeitsspeicher. Hier wird es interessant – ein 7-Milliarden-Modell läuft hier mit etwas Gewöhnung an die Wartezeit ordentlich.

Geschwindigkeit: 4–10 Token pro Sekunde bei 7B-Modellen, 12–25 Token pro Sekunde bei 3B-Modellen. Das Kontextfenster lässt sich bis 8.192 Token ausreizen, bei 16.000+ Token wird der Arbeitsspeicher zur Bremse.

Llama 3.2 3B (Q4)

Hersteller: Meta · Größe: 2,0 GB · RAM-Bedarf: 5 GB

Das 3-Milliarden-Llama ist der ehrliche Sweet-Spot für Bürorechner. Es ist schnell genug, um sich nicht zäh anzufühlen, aber qualitativ schon weit über Phi-3 Mini. Deutsche E-Mails, kurze Berichte, Brainstorming, einfache Code-Schnipsel in Python oder JavaScript – das geht alles ordentlich.

Stärken: sehr ausgewogen, schnelle Antworten, gute deutsche Grammatik, lange Kontextfenster (bis 128.000 Token möglich, wenn der Speicher reicht).

Schwächen: bei wirklich komplexen Aufgaben (mehrere Bedingungen verschachtelt) merkt man die Größe. Mathe ist unsicher.

Mistral 7B Instruct v0.3 (Q4)

Hersteller: Mistral AI (Frankreich) · Größe: 4,1 GB · RAM-Bedarf: 6 GB

Mistral 7B war eines der ersten frei verfügbaren Modelle, das ernsthaft mit GPT-3.5 mithalten konnte. Auch zwei Jahre nach Erscheinen ist es immer noch ein hervorragender Allrounder, besonders für europäische Sprachen. Mistral als französisches Unternehmen hat von Anfang an Wert auf Mehrsprachigkeit gelegt – Deutsch, Französisch, Spanisch, Italienisch funktionieren auf hohem Niveau.

Stärken: herausragendes Deutsch, kommerziell nutzbar (Apache 2.0), eine der saubersten Lizenzen am Markt, gute Antworten zu Logik und Allgemeinwissen.

Schwächen: Trainingsstand 2023, kennt keine neueren Ereignisse. Code ist okay, aber nicht Spitze.

Gemma 2 2B (Q5)

Hersteller: Google · Größe: 1,6 GB · RAM-Bedarf: 4 GB

Googles Gemma-Reihe ist die offene Schwester der Gemini-Modelle. Die 2-Milliarden-Variante ist sehr klein, dafür mit Q5-Quantisierung qualitativ überraschend stark. Wenn Sie nur 4 GB Arbeitsspeicher frei haben und trotzdem ein Modell brauchen, das deutsche Texte sauber formuliert, ist Gemma 2 eine gute Wahl. Lizenz ist die Gemma Terms of Use – kommerzielle Nutzung erlaubt, mit ein paar Einschränkungen.

Stärken: klein, schnell, sauberes Deutsch, von Google-Forschern hochwertig trainiert.

Schwächen: Lizenz ist nicht ganz so frei wie Apache. Kontextfenster nur 8.192 Token (kürzer als Konkurrenz).

Werkzeug-Empfehlung: LM Studio ist hier ideal. Eine grafische Oberfläche für Windows, Mac und Linux, mit der Sie Modelle aus einem integrierten Katalog herunterladen, ausprobieren und vergleichen können – ohne Kommando-Zeile. Der eingebaute Server lässt sich per OpenAI-kompatibler API ansprechen, sodass Sie das Modell auch in andere Programme einbinden können (zum Beispiel in Open WebUI, AnythingLLM oder eigene Skripte). Für CPU-only-Nutzung mit AVX2-Befehlssatz, was die meisten Bürorechner haben.

3

Workstation oder Gaming-PC mit dedizierter Grafikkarte (8–12 GB VRAM)

6 Kerne · 16 GB RAM · NVIDIA RTX 3060 / RX 6700

Hier wird es spannend. Eine dedizierte Grafikkarte mit 8 oder 12 GB Videospeicher (VRAM) ändert die Lage komplett. Statt 6 Token pro Sekunde sind plötzlich 40, 60 oder mehr drin. Das fühlt sich an wie ein gut bezahlter Cloud-Dienst, nur eben lokal. Klassische Hardware in dieser Klasse: NVIDIA RTX 3060 (12 GB VRAM, etwa 280 € gebraucht), RTX 4060 Ti 16 GB, AMD RX 6700 XT, oder Apple M1 Pro mit 16 GB Unified Memory.

Faustregel: VRAM ist wertvoller als normaler Arbeitsspeicher. Ein Modell, das komplett in den VRAM passt, läuft 5–15-mal schneller als auf der CPU. Wenn das Modell nur teilweise hineinpasst (Hybrid-Modus), ist es immer noch deutlich schneller als reine CPU-Nutzung.

Llama 3.1 8B Instruct (Q4)

Hersteller: Meta · Größe: 4,7 GB · VRAM-Bedarf: 6 GB

Das mittlere Llama ist für diese Klasse die naheliegende Wahl. Es passt locker in 8 GB VRAM, läuft auf einer RTX 3060 mit 50–80 Token pro Sekunde, und qualitativ liegt es in der Liga von GPT-3.5 Turbo. Deutsche Geschäftskorrespondenz, längere Berichte, Programmieraufgaben in den gängigen Sprachen, Recherche-Zusammenfassungen – alles solide.

Stärken: sehr ausgewogen, kommerziell nutzbar, riesiges Kontextfenster (128.000 Token), starke deutsche Performance.

Schwächen: bei mathematischer Logik immer noch unsicher, Code in C++/Rust schwächer als in Python.

Gemma 2 9B (Q4)

Hersteller: Google · Größe: 5,4 GB · VRAM-Bedarf: 8 GB

Die 9-Milliarden-Variante von Gemma 2 ist die qualitativ stärkste Open-Weights-Wahl in der 8-GB-Klasse. Google hat hier sehr sauber trainiert. Antworten klingen oft fast besser als Llama 3.1 8B, besonders bei kreativen Aufgaben (Texte schreiben, Marketing-Entwürfe). Bei reiner Logik liegen beide gleichauf.

Stärken: hervorragend für kreatives Schreiben, sehr sauberer Tonfall, gut bei Übersetzungen.

Schwächen: Kontextfenster nur 8.192 Token, Gemma-Lizenz mit Einschränkungen für bestimmte Anwendungen.

Qwen 2.5 Coder 7B (Q4)

Hersteller: Alibaba · Größe: 4,4 GB · VRAM-Bedarf: 6 GB

Wenn Ihr Hauptanwendungsfall Programmieren ist, lohnt sich ein spezialisiertes Code-Modell. Qwen 2.5 Coder 7B ist auf Code trainiert, kann praktisch alle gängigen Programmiersprachen, Code-Vervollständigung in Echtzeit, Bug-Suche, Refactoring. In Tests liegt es nah an Cloud-Modellen wie GPT-4 für Standard-Aufgaben in Python und JavaScript.

Stärken: sehr starkes Code-Modell, lokale Tab-Vervollständigung in Editoren wie VS Code via Continue-Plugin möglich, unbegrenzte Nutzung ohne monatliche Copilot-Gebühr.

Schwächen: für Fließtext und Konversation wirkt es trocken, deutsche Antworten auf Nicht-Code-Themen sind schwächer.

DeepSeek R1 Distill Qwen 7B (Q4)

Hersteller: DeepSeek (China) · Größe: 4,7 GB · VRAM-Bedarf: 7 GB

DeepSeek hat mit R1 Anfang 2025 ein Modell veröffentlicht, das schrittweises Nachdenken vor der Antwort eingebaut hat – ähnlich wie OpenAIs o1. Die destillierte 7B-Variante zeigt das ausführliche Denken und liefert dann erst die eigentliche Antwort. Bei mathematischen oder logischen Aufgaben ist das ein deutlicher Sprung gegenüber Llama 3.1 8B.

Stärken: deutlich besser bei Logik und Mathematik, transparenter Denkprozess (Chain-of-Thought sichtbar).

Schwächen: langsam, weil das Modell vor der Antwort viel Text als Denken produziert. Nicht ideal für schnelle Konversation.

Werkzeug-Empfehlung: Wenn Sie eine NVIDIA-Grafikkarte haben, ist Ollama die einfachste Wahl, weil es CUDA-Beschleunigung automatisch erkennt. Bei AMD-Karten wird es etwas anspruchsvoller – ROCm-Treiber müssen passen, am besten LM Studio mit Vulkan-Backend benutzen. Apple Silicon (M1, M2, M3) wird von beiden Werkzeugen sauber unterstützt – die Unified-Memory-Architektur funktioniert in der Praxis besser als manche dedizierte Grafikkarte.

4

Workstation mit 24 GB VRAM oder Apple Silicon (M2/M3/M4 mit 32 GB)

8+ Kerne · 32 GB RAM · NVIDIA RTX 3090 / 4090 oder M-Chip

In dieser Klasse wird ernst. Eine RTX 3090 (24 GB VRAM, gebraucht etwa 700–900 €), eine RTX 4090 (24 GB, neu etwa 1.700 €), oder ein M3-Pro/Max mit 32 GB Unified Memory eröffnen die 13- bis 24-Milliarden-Klasse. Die Antworten sind oft nicht mehr von Cloud-Modellen unterscheidbar, vor allem bei deutschsprachigen Standardaufgaben. Geschwindigkeit liegt bei 30–80 Token pro Sekunde für 14B-Modelle.

Wichtig: Eine Workstation mit RTX 3090 verbraucht unter Last 350+ Watt – wenn das Modell oft läuft, kann der Stromverbrauch spürbar werden. Apple-Hardware ist in dieser Hinsicht effizienter (M3-Max etwa 40 Watt unter KI-Last).

Mistral Small 3 (24 Milliarden Parameter, Q4)

Hersteller: Mistral AI · Größe: 14 GB · VRAM-Bedarf: 18 GB

Mistral Small 3 (Anfang 2025 veröffentlicht) ist das Spiegelbild dessen, was vor zwei Jahren noch GPT-4 war – jetzt frei verfügbar, lokal, Apache-2.0-Lizenz. Das Modell ist für Agenten-Workflows und Werkzeugaufrufe optimiert, schreibt deutsche Geschäftsbriefe auf hohem Niveau, beherrscht komplexe Mehrschritt-Logik und ist erstaunlich schnell für seine Größe.

Stärken: derzeit das stärkste Allround-Modell in der 24-GB-Klasse, hervorragendes Deutsch, kommerziell nutzbar, gut für Werkzeug-Integration.

Schwächen: Trainingsstand Anfang 2025, kein eingebautes Reasoning wie DeepSeek R1.

Qwen 2.5 32B (Q4)

Hersteller: Alibaba · Größe: 18 GB · VRAM-Bedarf: 22 GB

Qwens 32-Milliarden-Variante ist auf einer RTX 3090 mit 24 GB VRAM gerade noch lauffähig – wenn das Kontextfenster nicht zu groß gewählt wird. In Benchmarks liegt es zwischen Mistral Small 3 und Llama 3.3 70B. Sehr stark bei Logik, Mathematik und längeren Texten.

Stärken: exzellente Logik, mehrsprachig auf hohem Niveau (auch Deutsch), Apache-2.0-Lizenz.

Schwächen: in 24 GB VRAM nur knapp untergebracht, langes Kontextfenster fordert Speicher.

Llama 3.3 70B (Q3)

Hersteller: Meta · Größe: 32 GB (Q3) · VRAM-Bedarf: 40 GB hybrid

Mit 24 GB VRAM allein passt Llama 3.3 70B nicht hinein – aber im Hybrid-Modus mit 32 GB normalem Arbeitsspeicher daneben funktioniert es trotzdem. Geschwindigkeit dann 4–8 Token pro Sekunde, also nicht für Echtzeit-Chat geeignet, aber für Text-Generierung im Hintergrund (zum Beispiel über Nacht ein Buch zusammenfassen) nutzbar. Qualität ist auf Augenhöhe mit GPT-4-Turbo aus 2024.

Stärken: sehr starke Antworten, beste deutsche Qualität in dieser Hardware-Klasse mit Hybrid-Modus.

Schwächen: langsam ohne genug VRAM, hoher Speicherbedarf, Q3-Quantisierung leicht qualitätsmindernd.

Werkzeug-Empfehlung: In dieser Klasse sollten Sie sich vom Komfort-Werkzeug verabschieden und direkt mit llama.cpp oder vLLM arbeiten, wenn Sie das Modell intensiv nutzen wollen. Der direkte Zugriff erlaubt feinere Speicheraufteilung zwischen GPU und RAM. Wer es bequem will, bleibt bei Ollama oder LM Studio – die nutzen llama.cpp im Hintergrund und tun das ordentlich.

5

Workstation mit 48 GB VRAM oder mehr

12+ Kerne · 64 GB RAM · 2× RTX 3090 oder NVIDIA RTX 6000 Ada

Hier wird Heimanwender-Hardware zur Spezialisten-Maschine. Zwei RTX 3090 zusammen (über NVLink oder ohne, je nach Mainboard) ergeben 48 GB VRAM für etwa 1.500–1.800 € gebraucht. Eine RTX 6000 Ada Generation hat 48 GB ab Werk und kostet neu rund 7.000 €. Eine NVIDIA L40 (48 GB) im gebrauchten Servermarkt liegt bei 4.500 €. In dieser Klasse läuft praktisch alles Open-Weights-Mäßige flüssig.

Stromverbrauch wird relevant: 2× RTX 3090 ziehen unter Volllast 650+ Watt. Ein 1000-Watt-Netzteil mit Goldzertifizierung ist Pflicht. Die Maschine sollte irgendwo stehen, wo Geräusche und Wärme nicht stören.

Llama 3.3 70B (Q4)

Hersteller: Meta · Größe: 40 GB · VRAM-Bedarf: 44 GB

Mit 48 GB VRAM passt das große Llama mit Q4-Quantisierung sauber hinein. Geschwindigkeit auf 2× RTX 3090: 25–40 Token pro Sekunde. Die Antworten sind in deutscher Geschäftskorrespondenz, Recherche-Zusammenfassungen und Code-Generierung praktisch nicht von GPT-4 zu unterscheiden. Für viele Anwender ist das das Modell, das sie wirklich wollten – und mit dieser Hardware können sie es zuhause haben.

Stärken: Cloud-Niveau bei deutscher Geschäftssprache, kommerziell nutzbar, Meta-Lizenz fair für die meisten Anwendungen.

Schwächen: Trainingsstand etwa Mitte 2024, kennt aktuelle Ereignisse nicht.

Qwen 2.5 72B Instruct (Q4)

Hersteller: Alibaba · Größe: 41 GB · VRAM-Bedarf: 46 GB

Qwens 72-Milliarden-Modell konkurriert direkt mit Llama 3.3 70B und liegt in Benchmarks oft vorne, besonders bei Logik und Mathematik. Mehrsprachigkeit ist herausragend, Deutsch absolut sauber. Das Modell wurde über umfangreiche chinesische und westliche Datenquellen trainiert, was bei manchen Themen ungewöhnliche Perspektiven liefert.

Stärken: mehrsprachig top, sehr starke Logik, gute Werkzeug-Integration, 128.000 Token Kontextfenster.

Schwächen: bei sehr deutschland-spezifischen kulturellen Themen merkt man manchmal die chinesische Perspektive (zum Beispiel andere historische Schwerpunkte).

DeepSeek R1 Distill Llama 70B (Q4)

Hersteller: DeepSeek · Größe: 40 GB · VRAM-Bedarf: 44 GB

Die destillierte Variante des großen DeepSeek-R1-Modells auf Llama-70B-Basis. Bringt das Reasoning-Verhalten mit (sichtbarer Denkprozess vor der Antwort), liegt aber bei reiner Antwortqualität auf Llama-3.3-70B-Niveau. Für mathematische Aufgaben, Code-Reviews mit komplexer Logik, oder analytische Texte ist das eine starke Wahl.

Stärken: deutlich besser bei mehrstufiger Logik als das normale Llama 3.3, transparente Denkschritte sichtbar.

Schwächen: doppelt so viel Output-Text (Denken + Antwort), entsprechend langsamer im Gefühl.

Werkzeug-Empfehlung: In dieser Klasse wird vLLM interessant – es ist deutlich schneller als llama.cpp, weil es speziell für GPU-Inferenz mit Batching optimiert ist. Mehrere Anfragen gleichzeitig werden parallel beantwortet. Wer einen lokalen API-Server für mehrere Nutzer betreiben will (zum Beispiel die Familie oder ein kleines Team), nimmt vLLM oder Text Generation Inference (TGI). Für Single-User reicht Ollama mit der entsprechenden Konfiguration.

6

Mac Studio M2/M3 Ultra mit 128 GB Unified Memory

M-Ultra-Chip · 128 GB Unified Memory · 800 GB/s Bandbreite

Apple hat mit dem Mac Studio mit Ultra-Chip eine Art Geheimwaffe für lokale KI-Inferenz geschaffen. Der Trick liegt in der Architektur: Bei normalen PCs sind GPU-VRAM und Arbeitsspeicher getrennt. Bei Apple Silicon ist beides ein einziger Speicher, mit sehr hoher Bandbreite (800 GB/s beim Ultra). Das bedeutet: Wenn Sie 128 GB Unified Memory haben, können Sie ein 100 GB großes Modell direkt auf der GPU laufen lassen – etwas, das sonst nur mit mehreren professionellen Grafikkarten geht.

Preis: Mac Studio M2 Ultra mit 128 GB liegt gebraucht bei 4.500–5.500 €, neu bei knapp 6.000 €. Stromverbrauch: 60–90 Watt unter Volllast. Geräuschpegel: praktisch lautlos.

Llama 3.1 405B (Q3)

Hersteller: Meta · Größe: 165 GB (Q3) · RAM-Bedarf: 200+ GB

Hier kommt der Mac Studio Ultra an seine Grenze – Llama 3.1 405B passt selbst in 128 GB nicht mehr hinein. Es ist möglich, eine sehr aggressive Q2-Quantisierung zu verwenden, aber dann leidet die Qualität spürbar. Wer das wirklich will, braucht einen Mac Studio M2 Ultra mit 192 GB (rund 7.500 €) oder zwei Mac Studios per Netzwerk-Verteilung.

Stärken: bei 192-GB-Variante das größte sinnvoll lokal lauffähige Open-Weights-Modell.

Schwächen: 128 GB reichen nicht aus, langsam (3–6 Token pro Sekunde), praktisch nur für Hintergrund-Aufgaben.

Qwen 3 235B-A22B (Q4, Mixture-of-Experts)

Hersteller: Alibaba · Größe: 130 GB · RAM-Bedarf: 140 GB

Qwen 3 ist ein Mixture-of-Experts-Modell: Auf dem Papier hat es 235 Milliarden Parameter, aber bei jeder einzelnen Token-Berechnung sind nur 22 Milliarden aktiv. Das bedeutet die Qualität eines sehr großen Modells, aber die Geschwindigkeit eines mittleren. Auf einem Mac Studio Ultra mit 128 GB läuft es gerade so – mit Q4-Quantisierung – mit etwa 15–25 Token pro Sekunde. Die Antwortqualität ist Cloud-Niveau, vergleichbar mit GPT-4 oder Claude 3.5 Sonnet.

Stärken: beste Antwortqualität in dieser Hardware-Klasse, MoE-Architektur ist ideal für Apple Silicon, exzellente deutsche Performance.

Schwächen: Speicher knapp, größeres Kontextfenster ist nicht drin, leichte Verlangsamung bei Q4 vs. Q5.

DeepSeek V3 (Q4, Mixture-of-Experts)

Hersteller: DeepSeek · Größe: 380 GB roh, mit Q4 ca. 130 GB · RAM-Bedarf: sehr groß

DeepSeek V3 hat 671 Milliarden Parameter mit etwa 37 Milliarden aktiven pro Token. Auf einem 128-GB-Mac Studio passt es nur sehr knapp und auch nur mit aggressiver Quantisierung. Wer 192 GB hat, kommt sauberer durch. Antwortqualität: praktisch identisch zu Cloud-GPT-4 für die meisten Aufgaben. Es ist das größte Open-Weights-Modell, das man Anfang 2026 sinnvoll lokal betreiben kann.

Stärken: Cloud-Spitzenklasse-Qualität lokal, sehr gut bei Logik und Mathematik, Open Source.

Schwächen: braucht viel Speicher, langsamer als kleinere MoE-Modelle, große Download-Datei.

Werkzeug-Empfehlung: Auf Apple Silicon ist MLX (Apples eigenes Framework für lokale KI) oft schneller als llama.cpp, weil es die Metal-Schnittstelle direkter nutzt. LM Studio hat MLX-Unterstützung eingebaut. Auch Ollama nutzt auf Apple Silicon bereits Metal, ist aber etwas langsamer als die nativen MLX-Versionen.

7

Multi-GPU-Workstation oder Server (96+ GB VRAM)

Server-Hardware · 4× RTX 3090 oder Profi-GPUs (A100, H100)

Diese Klasse ist nicht mehr für Heimanwender, sondern für kleine Forschungslabore, mittelständische IT-Abteilungen oder Selbstständige, die KI als zentralen Geschäftsbestandteil nutzen. Vier RTX 3090 ergeben 96 GB VRAM für rund 3.000 € gebraucht. Eine NVIDIA H100 mit 80 GB liegt bei 25.000–35.000 €. NVIDIA H200 mit 141 GB ab 40.000 €.

In dieser Klasse läuft praktisch jedes Open-Weights-Modell ohne Kompromisse. Llama 3.1 405B in voller Präzision (Q8) oder mit großem Kontextfenster, mehrere Modelle gleichzeitig, viele parallele Anfragen für ein internes Team. Stromverbrauch: 1.500–2.000 Watt. Eigene 16-Ampere-Steckdose empfehlenswert.

Llama 3.1 405B Instruct (Q4)

Hersteller: Meta · Größe: 220 GB (Q4) · VRAM-Bedarf: 240 GB

Das größte Llama-Modell ist das Open-Weights-Pendant zu GPT-4. In voller Präzision braucht es 800 GB, mit Q4 immer noch 220 GB. Bei 4× H100 läuft es mit 30+ Token pro Sekunde. Die Antwortqualität ist auf demselben Niveau wie die kostenpflichtigen Cloud-Spitzenmodelle. Selbstständige, die viele Stunden täglich mit einem KI-Modell arbeiten und absolute Datenkontrolle brauchen, finden hier ihr Werkzeug.

Stärken: Cloud-Spitzenklasse-Qualität, voll lokal, alles bleibt im Haus.

Schwächen: teure Hardware, hoher Strombedarf, Wartungsaufwand für Multi-GPU-Setups.

DeepSeek V3 (Q5 oder Q8)

Hersteller: DeepSeek · Größe: 200–380 GB · VRAM-Bedarf: 250+ GB

Auf Multi-GPU-Hardware lässt sich DeepSeek V3 in höheren Quantisierungsstufen (Q5 oder Q8) betreiben, dann ist die Qualität nicht mehr von der Cloud-Variante zu unterscheiden. Mit 4× H100 läuft es zügig (30–50 Token pro Sekunde dank MoE-Architektur). Für mathematische Aufgaben, komplexe Code-Generierung und mehrsprachige Übersetzung sehr stark.

Stärken: beste Open-Weights-Qualität insgesamt, sehr stark in mehrsprachigen Aufgaben, Apache-2.0-ähnliche Lizenz.

Schwächen: größtes praktisch nutzbares Modell, hoher Hardware-Bedarf, große Download-Datei (180 GB).

Werkzeug-Empfehlung: In dieser Klasse spielen vLLM, TGI (Text Generation Inference von Hugging Face) oder TensorRT-LLM (NVIDIA) ihre Stärken aus. Sie sind für Server-Betrieb und mehrere parallele Nutzer optimiert. Ollama ist hier zu langsam und zu wenig konfigurierbar. Wer eine schöne Oberfläche möchte, ergänzt Open WebUI oder LibreChat als Frontend.

Übersichts-Tabelle: Welches Modell für welche Hardware?

Die folgende Tabelle fasst zusammen, was wir gerade besprochen haben. Sie ist als Schnell-Referenz gedacht – auf der eigenen Hardware orientieren, das passende Modell finden, herunterladen, ausprobieren.

Hardware-KlasseRAM/VRAMEmpfohlenes ModellGrößeGeschwindigkeit
Alter Linux-Laptop4 GB RAMPhi-3 Mini (Q4)2,3 GB2–6 Tok/s
Raspberry Pi 58 GB RAMQwen 2.5 1.5B (Q4)950 MB4–8 Tok/s
Bürorechner (CPU)16 GB RAMLlama 3.2 3B (Q4)2,0 GB10–25 Tok/s
Bürorechner (CPU)16 GB RAMMistral 7B v0.3 (Q4)4,1 GB4–10 Tok/s
Mid-Range Gaming-PCRTX 3060 12 GBLlama 3.1 8B (Q4)4,7 GB40–80 Tok/s
Mid-Range Gaming-PCRTX 3060 12 GBQwen 2.5 Coder 7B4,4 GB50–90 Tok/s
Mid-Range Gaming-PCRTX 3060 12 GBDeepSeek R1 Distill 7B4,7 GB30–60 Tok/s
WorkstationRTX 3090 24 GBMistral Small 3 (24B Q4)14 GB30–50 Tok/s
WorkstationRTX 3090 24 GBQwen 2.5 32B (Q4)18 GB20–35 Tok/s
Apple M3 Max32 GB UnifiedMistral Small 3 (24B Q4)14 GB25–40 Tok/s
Dual-GPU Workstation2× RTX 3090 (48 GB)Llama 3.3 70B (Q4)40 GB25–40 Tok/s
Dual-GPU Workstation2× RTX 3090 (48 GB)Qwen 2.5 72B (Q4)41 GB20–35 Tok/s
Mac Studio M2 Ultra128 GB UnifiedQwen 3 235B-A22B (Q4)130 GB15–25 Tok/s
Mac Studio M2 Ultra192 GB UnifiedDeepSeek V3 (Q4)180 GB10–20 Tok/s
Server (4× H100)320 GB VRAMLlama 3.1 405B (Q4)220 GB30–50 Tok/s
Server (4× H100)320 GB VRAMDeepSeek V3 (Q8)380 GB30–50 Tok/s

Welches Werkzeug zum Betreiben? Vier konkrete Empfehlungen

Das Modell ist nur die halbe Miete. Sie brauchen ein Programm, das es lädt und Ihnen eine Eingabe-Oberfläche gibt. Hier sind die vier Werkzeuge, die wir Kunden empfehlen:

Ollama – der einfachste Einstieg

Ollama ist ein Befehls-Werkzeug für Linux, macOS und Windows. Installation ist ein einziger Befehl. Modelle werden mit ollama pull modellname heruntergeladen, mit ollama run modellname gestartet. Ollama betreibt im Hintergrund einen lokalen API-Server, der OpenAI-kompatibel ist – das heißt, alle Programme, die ChatGPT-API verstehen, können stattdessen Ollama benutzen. Für Anfänger und für die meisten Selbstanwender ist Ollama die richtige Wahl. Nachteil: keine grafische Oberfläche von Haus aus, dafür braucht man eine Ergänzung wie Open WebUI.

LM Studio – grafische Oberfläche für Bequemlichkeit

LM Studio ist ein grafisches Programm, das aussieht wie ChatGPT, aber komplett lokal läuft. Sie wählen aus einem integrierten Modellkatalog, klicken auf "Herunterladen", warten ein paar Minuten, und dann tippen Sie. Für Personen, die mit einem Terminal nicht warm werden, ist das die richtige Wahl. LM Studio kann auch einen API-Server starten, sodass andere Programme das Modell nutzen können. Lizenz: kommerziell nutzbar bis zu einer gewissen Größe, danach kostenpflichtig (Pricing auf der Website).

llama.cpp – die Engine darunter

llama.cpp ist das Open-Source-Projekt, auf dem fast alle anderen Werkzeuge im Hintergrund aufbauen. Wer maximale Kontrolle, beste Geschwindigkeit auf der eigenen Hardware oder ungewöhnliche Konfigurationen braucht, arbeitet direkt damit. Kommandozeile, etwas Linux-Vertrautheit nötig, dafür unschlagbar effizient.

Open WebUI – Browser-Oberfläche für Familie oder Team

Open WebUI ist eine Browser-Oberfläche, die wie ChatGPT aussieht und sich an Ollama oder LM Studio andockt. Wenn Sie das Modell für mehrere Personen im Haushalt oder kleinen Team bereitstellen wollen, ist das die richtige Wahl. Mehrere Nutzer-Konten, Chat-Verlauf, eigene Systemprompts pro Nutzer, optional Authentifizierung. Wird per Docker-Container gestartet, läuft dann im Hintergrund auf jedem Rechner im Heimnetz.

Was lokale Modelle gut können, was sie nicht können

Diese Liste ist die ehrliche Einschätzung aus der Praxis. Sie hilft Ihnen, Erwartungen richtig zu setzen.

Was lokale Modelle (ab 7B aufwärts) gut können

  • Deutsche E-Mails entwerfen. Geschäftliche und private Korrespondenz, Antwortvorschläge, Höflichkeitsformeln, kürzen oder ausformulieren. Das ist die Paradedisziplin und funktioniert ab Mistral 7B aufwärts wirklich gut.
  • Texte zusammenfassen. PDFs, lange Mails, Berichte, Artikel – das ist eine der zuverlässigsten Anwendungen. Ein 8B-Modell mit großem Kontextfenster verarbeitet auch dicke Dokumente.
  • Übersetzen zwischen großen Sprachen. Deutsch–Englisch, Deutsch–Französisch, Deutsch–Spanisch funktioniert ab Mistral 7B sehr ordentlich. Bei selteneren Sprachen wird es schwächer.
  • Brainstorming und kreative Ideen. Marketing-Slogans, Buchtitel, Geburtstagsreden, Geschichten. Lokale Modelle sind hier auf Augenhöhe mit Cloud-Diensten ab 13B aufwärts.
  • Programmieraufgaben in gängigen Sprachen. Python, JavaScript, PHP, SQL – ein spezialisiertes Code-Modell wie Qwen Coder 7B kann fast alles, was ein normaler Entwicklungs-Assistent leisten muss. Code-Vervollständigung in Echtzeit per IDE-Plugin (Continue.dev) macht das praktisch.
  • Texte umformulieren. Tonfall ändern, höflicher machen, formaler machen, kürzen, in einfache Sprache übertragen. Sehr zuverlässig.
  • Fragen zu eigenen Dokumenten beantworten. Mit RAG (Retrieval Augmented Generation) und Werkzeugen wie AnythingLLM oder Open WebUI können Sie eigene PDFs, Word-Dateien oder Notizen indizieren und dann Fragen dazu stellen. Das funktioniert auf lokaler Hardware ab 7B-Modellen praktikabel.

Was lokale Modelle nicht oder nicht gut können

  • Im Web suchen. Ein Sprachmodell allein hat keinen Internetzugriff. Sie können das mit Werkzeugen wie SearXNG plus Webagent nachrüsten, aber das ist zusätzlicher Aufbau.
  • Aktuelle Ereignisse kennen. Jedes Modell hat einen Trainingsstichtag (oft 6–18 Monate vor Veröffentlichung). Was danach passiert ist, kennt es nicht. Lokale Modelle altern.
  • Komplexe Mathematik zuverlässig lösen. Bis zur Mittelstufe geht es. Höhere Mathematik, mehrstufige Algebra, präzise Statistik – da scheitern auch große Modelle oft. Reasoning-Modelle wie DeepSeek R1 sind besser, aber nicht perfekt.
  • Quellenangaben liefern. Lokale Modelle erfinden Quellen, Buchtitel, ISBN-Nummern und URLs sehr selbstbewusst. Verlassen Sie sich nicht darauf. Wenn Sie Quellen brauchen, kombinieren Sie das Modell mit einer separaten Suche.
  • Zuverlässig faktisch korrekt sein. Wie alle Sprachmodelle halluzinieren auch lokale, besonders bei Nischenthemen. Vertrauen Sie nicht blind, was rauskommt – kritisches Lesen bleibt Ihre Aufgabe.
  • Bilder verstehen oder erzeugen. Reine Sprachmodelle können das nicht. Es gibt multimodale Varianten (Llama 3.2 Vision, Qwen 2.5 VL, Gemma 3) – die sind bei Bildverständnis brauchbar, aber für Bildgenerierung brauchen Sie ein anderes Modell wie Stable Diffusion oder Flux.
  • So flüssig formulieren wie GPT-4. Ein 8B-Modell schreibt gut, aber bei langen kreativen Texten merkt man Wiederholungen oder kleine Stilbrüche. Erst ab 24B+ wird das wirklich Cloud-Niveau.

Drei Tipps für den ersten Tag mit Ihrem lokalen Modell

Erstens: Erwartungen kalibrieren. Probieren Sie ein paar typische Aufgaben aus, die Sie sonst Cloud-Modellen geben. Schreiben Sie eine Antwortmail, fassen Sie ein PDF zusammen, lassen Sie sich ein Konzept entwerfen. Vergleichen Sie ehrlich. So wissen Sie, wofür Ihr lokales Modell taugt und wofür Sie weiterhin auf Cloud zurückgreifen.

Zweitens: Ein Systemprompt macht den Unterschied. Die meisten Werkzeuge erlauben einen festen Systemprompt – also einen Text, der dem Modell vor jedem Chat mitgegeben wird. "Du bist ein präziser deutscher Assistent, antwortest knapp und ohne überflüssige Einleitungen" verbessert die Antworten oft mehr als ein größeres Modell. Mit ein paar Stunden Tüfteln finden Sie Prompts, die für Ihre Aufgaben passen.

Drittens: Modell-Wechsel ist günstig. Wenn Sie merken, dass Phi-3 Mini zu klein ist, laden Sie einfach Mistral 7B nach. Wenn Mistral 7B reicht, müssen Sie nicht aufrüsten. Probieren ist günstig, weil die Modelle nichts mehr kosten – nur Bandbreite und Festplattenplatz.

Kurzer Hinweis zu Lizenzen

Nicht alle "frei verfügbaren" Modelle haben dieselbe Lizenz. Mistral, Qwen, DeepSeek nutzen Apache 2.0 oder ähnliche – kommerziell und privat ohne Einschränkung nutzbar. Llama hat die Meta-Llama-Lizenz – kommerzielle Nutzung erlaubt, außer bei Diensten mit über 700 Millionen monatlich aktiven Nutzern. Gemma hat die Gemma Terms of Use – mit ein paar Anwendungs-Einschränkungen (zum Beispiel keine Waffen-, Hass-, Bio-Risiko-Anwendungen). Lesen Sie die Lizenz, bevor Sie ein Modell in einem Produkt einsetzen, das Sie verkaufen.

Drei Praxis-Geschichten aus unseren Kundenprojekten

Damit Sie eine Vorstellung bekommen, wie lokale Modelle in echten Setups aussehen, hier drei kurze Beispiele aus unseren Einrichtungs-Aufträgen der letzten Monate. Namen und Details sind verändert.

Anwaltskanzlei mit drei Mitarbeitern – Mistral Small 3 auf Mac Studio

Eine kleine Kanzlei in Münster wollte KI-Unterstützung beim Verfassen von Schriftsätzen, dem Zusammenfassen von Akten und dem Recherchieren in eigenen Mandantenunterlagen. Der entscheidende Punkt: Mandantendaten dürfen das Haus nicht verlassen, also fiel jede Cloud-Lösung weg. Wir haben einen Mac Studio M2 Ultra mit 64 GB Unified Memory aufgesetzt (gebraucht 3.800 €), darauf läuft Mistral Small 3 (24 Milliarden Parameter, Q5) als Hauptmodell und Llama 3.1 8B für schnelle Routinetätigkeiten. Über Open WebUI mit drei Nutzerkonten greifen die Anwälte aus ihrem Büro im Heimnetz darauf zu. AnythingLLM indiziert die Mandanten-Aktenordner. Geschwindigkeit etwa 35 Token pro Sekunde – flüssig genug für Echtzeit-Korrespondenz. Ergebnis: deutlich weniger Zeit für Routinearbeiten, alle Daten bleiben im Haus, der Mac Studio amortisiert sich gegenüber Cloud-Abos in unter einem Jahr.

Hausarztpraxis – Phi-3 Mini auf einem alten ThinkPad

Ein Hausarzt im Münsterland wollte am Praxis-Rechner Patientennotizen verschriftlichen. Wichtigste Anforderung: Daten dürfen niemals nach außen. Cloud-Lösungen waren tabu. Der vorhandene Praxis-Rechner war ein älteres Lenovo ThinkPad mit Intel-Core-i5 und 8 GB Arbeitsspeicher. Wir haben Linux Mint installiert (das alte Windows 10 wurde zur Last), darauf Ollama mit Phi-3 Mini eingerichtet, plus eine Spracherkennungs-Pipeline aus Whisper.cpp Small. Workflow: Arzt diktiert kurz nach jedem Patienten, Whisper schreibt mit, Phi-3 sortiert in Verlaufseintrag und Diagnosen, alles bleibt lokal. Der ThinkPad ist nicht schnell – jede Verarbeitung dauert 20–40 Sekunden – aber er ist da, kostete nichts extra, und die Lösung erfüllt die DSGVO-Anforderungen einwandfrei.

Selbstständiger Programmierer – RTX 3090 mit Qwen Coder

Ein freiberuflicher Webentwickler wollte weg von GitHub Copilot und Claude Pro – nicht nur wegen der Kosten von rund 50 € pro Monat, sondern weil er Code für mehrere Mandanten parallel schreibt und ihm das Hochladen von Mandatscode in Cloud-APIs unangenehm war. Wir haben in seinen vorhandenen PC eine gebrauchte RTX 3090 eingebaut (820 € auf Kleinanzeigen), Ubuntu drauf, dann Ollama mit Qwen 2.5 Coder 32B als Hauptmodell und Qwen Coder 7B für schnelle Inline-Vervollständigung. Continue.dev als VS-Code-Plugin verbindet beides. Ergebnis: Echtzeit-Code-Vervollständigung, langsamer als Copilot (etwa zehn Token pro Sekunde gefühlt zu Cloud-Kollegen Sekunden-Antwort), aber qualitativ auf Augenhöhe für Standard-Webentwicklung. Strom: rund 10–15 € pro Monat extra, wenn die Karte täglich Stunden läuft. Amortisationszeit der Hardware: knapp zwei Jahre gegenüber den Abos.

Häufig übersehene Details, die später Frust sparen

Bei der Einrichtung lokaler Modelle gibt es ein paar Dinge, die Anfänger oft übersehen und später ärgern.

Festplattenplatz für Modelle einplanen. Die größeren Modelle sind groß. Wenn Sie ein 70B-Modell herunterladen, sind das schnell 40–50 GB pro Datei. Wer mehrere Modelle parallel testen will, kann leicht 200 GB an Modellen sammeln. Eine separate große SSD nur für Modelle ist sinnvoll – nicht zuletzt, weil schnelle Lese-Geschwindigkeit das Laden in den Arbeitsspeicher beschleunigt.

Kühlung beachten. Wenn ein Modell läuft, läuft die GPU oder CPU stundenlang unter Volllast. Kompakte Mini-PCs oder Laptops haben dafür oft keine ausreichende Kühlung – die Geschwindigkeit fällt nach 10–15 Minuten ab, weil die Hardware drosselt. Auf Workstations und Tower-PCs ist das kein Thema, dort lohnt sich aber zusätzliche Gehäuselüftung bei Multi-GPU-Setups.

Anpassungs-Werkzeuge kennen. Wer ein Modell für eigene Aufgaben spezialisieren will, kann mit LoRA-Adaptern arbeiten – das sind kleine Zusatzdateien, die ein Modell auf eigene Daten umtrainieren, ohne das ganze Modell neu zu machen. Werkzeuge wie Axolotl, Unsloth oder Mistral Fine-Tune machen das auf einer einzelnen RTX 4090 in wenigen Stunden möglich. Wer eigene Stilvorlagen, Fachvokabular oder unternehmensspezifische Antworten will, sollte sich das ansehen.

Backup nicht vergessen. Modelle herunterzuladen dauert lange (10–60 Minuten je nach Größe und Anbindung). Wer die Modelle einmal hat, sollte sie auf eine externe Festplatte kopieren – nicht zur Sicherung an sich, sondern um sie auf einem zweiten Rechner schnell zur Verfügung zu haben, ohne 50 GB neu herunterladen zu müssen.

Lärm-Profil checken. Eine RTX 3090 unter Volllast hat einen deutlich hörbaren Lüfter. Wer den Rechner im selben Raum stehen hat, wird das merken. Lösungen: Wasserkühlung (deutlich teurer und aufwändiger), Aufstellung in einem Nebenraum mit Netzwerk-Zugriff, oder Apple-Silicon-Hardware (praktisch lautlos).

Stromverbrauch realistisch einschätzen. Eine RTX 3090 unter Volllast zieht 350 Watt, eine RTX 4090 bis zu 450 Watt. Bei 30 Cent pro kWh kostet eine Stunde Volllast 10–13 Cent. Wer das Modell sechs Stunden täglich nutzt, kommt im Monat auf 18–24 € extra Strom. Apple Silicon ist mit etwa 50 Watt unter Last deutlich sparsamer – der Mac Studio Ultra im Dauerbetrieb kostet weniger Strom als eine RTX 3090 im 4-Stunden-Betrieb.

Wenn Sie nicht wissen, wo Sie anfangen sollen

Die ehrliche Empfehlung für die meisten Menschen lautet: Laden Sie sich heute Ollama herunter und probieren Sie Llama 3.2 3B aus. Das Modell ist klein genug, um auf jedem halbwegs aktuellen Rechner zu laufen, groß genug, um nützlich zu sein, und schnell zu installieren. Wenn es Ihnen zu langsam ist, wechseln Sie zu Phi-3 Mini. Wenn die Antworten zu blass sind, wechseln Sie zu Mistral 7B oder Llama 3.1 8B. Wenn Sie merken, dass die Sache für Sie funktioniert und Sie eine ernstzunehmende Maschine wollen, schauen Sie sich gebrauchte RTX 3090 oder einen Mac Studio an.

Den Schritt zur eigenen lokalen KI-Hardware sollten Sie nicht überstürzen. Erst herausfinden, was Sie wirklich brauchen, dann die Hardware kaufen. Niemand braucht einen Mac Studio Ultra, wenn er das Modell zwei Stunden pro Woche für Briefe nutzt.

Sie wollen ein lokales Modell auf Ihrem Rechner einrichten lassen?

Wir richten Ihnen das passende lokale Sprachmodell auf Ihrer Hardware ein – inklusive Werkzeug-Auswahl, Modell-Empfehlung passend zu Ihrer Hardware-Klasse, Browser-Oberfläche für Sie oder Ihr Team, und Einweisung. Per Fernwartung in einem Termin von 30–90 Minuten.

Lokale KI einrichten lassen – ab 79 €

Verwandte Themen

Wenn Sie tiefer einsteigen wollen, sind diese Beiträge auf netzhandwerker.de/blog nützlich:

Beschreiben Sie Ihr Problem

Wir melden uns bei Ihnen und finden eine Lösung.

Häufig gestellte Fragen

Brauche ich für ein lokales Sprachmodell zwingend eine Grafikkarte?

Nein. Mit einem aktuellen Vier- oder Sechskern-Prozessor und 16 GB Arbeitsspeicher läuft ein 7B-Modell auf reiner CPU mit 4–10 Token pro Sekunde. Das ist langsamer als Cloud-Dienste, aber alltagstauglich. Eine Grafikkarte mit 8 GB VRAM beschleunigt das auf das Fünf- bis Zehnfache. Wer das Modell intensiv nutzen will, profitiert sehr stark von einer dedizierten Grafikkarte – mindestens RTX 3060 mit 12 GB VRAM oder ein Apple-Silicon-Chip mit 16 GB Unified Memory.

Welches lokale Modell ist im Frühjahr 2026 das beste für deutsche Texte?

Für 16 GB Arbeitsspeicher: Mistral 7B Instruct v0.3 oder Llama 3.1 8B. Für 24 GB VRAM: Mistral Small 3 mit 24 Milliarden Parametern – derzeit das stärkste Allround-Modell in der Mittelklasse, sehr gutes Deutsch, kommerziell nutzbar. Für 48+ GB VRAM: Llama 3.3 70B oder Qwen 2.5 72B – beide auf Cloud-Niveau bei deutscher Geschäftskorrespondenz.

Was ist der Unterschied zwischen Q4, Q5 und Q8 bei Modellen?

Das ist die Quantisierungs-Stufe. Q8 bedeutet 8 Bit pro Parameter, Q4 bedeutet 4 Bit. Q8 ist fast unmerklich schlechter als das Original, braucht aber doppelt so viel Speicher wie Q4. Q4 ist der Standard für lokalen Betrieb – gute Qualität bei akzeptablem Speicherbedarf. Q3 oder Q2 sind nur für Notfälle, da werden die Antworten merklich schlechter.

Kann ich ein lokales Modell auf meinem Smartphone laufen lassen?

Ja, bei aktuellen Smartphones mit 6+ GB Arbeitsspeicher. Apps wie PocketPal, ChatterUI oder MLC Chat erlauben das auf Android und iOS. Praktisch nutzbar sind dort Modelle bis 3 Milliarden Parameter (Phi-3 Mini, Gemma 2 2B, Qwen 2.5 1.5B). Geschwindigkeit etwa 5–15 Token pro Sekunde. Akku wird unter Last spürbar warm.

Wie viel Festplattenspeicher brauche ich für lokale Modelle?

Pro Modell mit Q4-Quantisierung: 1–6 GB für kleine Modelle (1B–7B), 14–18 GB für mittlere (24B–32B), 40 GB für große (70B), 130–220 GB für sehr große (235B–405B). Wer mehrere Modelle für unterschiedliche Aufgaben vorhalten will, sollte 100 GB freien Festplattenspeicher einplanen. Eine separate SSD nur für die Modelle ist ideal, weil Modelle beim Start in den Arbeitsspeicher geladen werden und schnelle Festplatten den Start beschleunigen.

Welche Linux-Distribution eignet sich am besten für lokale KI?

Für Einsteiger: Linux Mint oder Ubuntu LTS. Beide haben gute Treiber-Unterstützung für NVIDIA-Karten und einfache Installations-Pakete für Ollama. Für Fortgeschrittene: Arch Linux oder Fedora bieten aktuellere Pakete und bessere CUDA-Unterstützung. Auf älteren Rechnern ohne GPU: Xubuntu oder MX Linux sind sparsam und lassen mehr Arbeitsspeicher für das Modell frei.

Ist ein gebrauchter Mac Studio M2 Ultra mit 128 GB sinnvoller als eine neue RTX 4090?

Kommt auf den Anwendungsfall an. Für reine Inferenz mit großen Modellen (235B+) ist der Mac Studio Ultra mit 128 GB unbestritten besser, weil die GPU auf den gesamten Speicher zugreift. Für mittlere Modelle bis 32B und höhere Geschwindigkeit ist die RTX 4090 schneller. Stromverbrauch spricht klar für Apple, Aufrüstbarkeit für PC. Für die meisten Heimanwender ist eine gebrauchte RTX 3090 mit 24 GB der Preis-Leistungs-Sieger – sie deckt 90 Prozent der sinnvollen Modellgrößen ab.

Was passiert mit meinen Daten, wenn ich ein lokales Modell benutze?

Sie verlassen das Gerät nicht. Eingaben, Antworten, Dokumente – alles bleibt auf Ihrer Festplatte. Modelle wie Llama oder Qwen haben keine eingebauten Telemetrie-Funktionen, sie sind reine Datendateien. Werkzeuge wie Ollama, LM Studio oder llama.cpp sind Open Source und können auf Wunsch ohne jeden Internetzugriff laufen. Das macht lokale Modelle besonders interessant für Anwälte, Ärzte, Steuerberater und alle anderen, die mit vertraulichen Daten arbeiten.

Welches Modell empfehlen Sie für lokales Programmieren statt GitHub Copilot?

Qwen 2.5 Coder 7B oder Qwen 2.5 Coder 32B sind die aktuell stärksten frei verfügbaren Code-Modelle. In Kombination mit dem Continue.dev-Plugin für VS Code oder JetBrains-IDEs bekommen Sie eine Code-Vervollständigung, die für Standard-Aufgaben (Python, JavaScript, TypeScript, Go) auf Copilot-Niveau liegt. Die 7B-Variante läuft auf einer RTX 3060, die 32B-Variante auf einer RTX 3090.

Brauche ich Internetzugang zum Betrieb eines lokalen Modells?

Nur einmal zum Herunterladen des Modells. Danach läuft alles offline. Das ist einer der großen Vorteile: Auf der Bahnfahrt, im Ferienhaus mit schwachem Empfang, im Werkstatt-Keller – das Modell antwortet trotzdem. Updates der Werkzeuge (Ollama, LM Studio) brauchen ab und zu Internetzugriff, sind aber kein zwingender laufender Bedarf.

Direkt per WhatsApp schreiben