Ollama auf 4 GB VRAM: Gemma zeigt, wie knapp lokale KI wirklich ist
Eine 4-GB-Mobile-GPU und ein lokales LLM-Setup klingen nach Bastelprojekt. In der Praxis sind sie eher ein Stresstest für jede schöne Behauptung über „KI auf dem Gerät“. Genau darum ist der aktuelle Fall so interessant: Ein Entwickler hat Ollama auf einer mobilen GPU mit 4 GB VRAM zum Laufen gebracht und dabei mit Gemma 4 gearbeitet. Das Ergebnis lag bei 2,5: nicht als Marketingzahl, sondern als Erinnerung daran, dass lokale KI zuerst Speicherpolitik ist und erst danach Modellromantik.
Der wichtige Punkt steckt im Detail. Wer heute über Same, this und gemma redet, redet oft über Namen, nicht über Grenzen. Das Modell mag klein genug wirken, die tatsächliche Hürde sitzt aber im VRAM, also dort, wo Kontextfenster, Gewichte, Cache und Laufzeit zusammenstoßen. Auf dem Papier sieht das nach einem sauberen Workflow aus. Auf einer 4-GB-Karte wird daraus schnell ein Rechenrätsel mit sehr wenig Luft nach oben. Der Rechner verzeiht nichts, und genau das ist die eigentliche Nachricht dieses Falls.
Das macht den Beleg aus zwei Gründen spannend. Erstens zeigt er, dass lokale LLMs nicht einfach durch „kleineres Modell“ gelöst werden. Wer Gemma 4 in Ollama einsetzen will, muss die Speicherrechnung mitdenken: Quantisierung, Kontextlänge, Batchgröße, Offloading und das restliche Betriebssystem teilen sich denselben knappen Topf. Zweitens entlarvt der Test einen beliebten Reflex: Viele Teams reden über Datenschutz und „on device“, als wäre das automatisch effizient. Ist es nicht. Lokal heißt oft nur: Die Kosten wandern vom Cloud-Account in die Hardware-Grenze.
Hier liegt auch der blinde Fleck vieler Produktentscheidungen. Für Demos reicht ein kurzer Prompt, für echte Nutzung braucht es Reserven. Genau da kippt der Charme. Ein Modell, das auf dem Laptop startet, ist noch kein verlässlicher Workflow. Wenn ein lokales Feature nur unter Laborbedingungen läuft, hat es in der Produktion meist denselben Status wie ein Fitnessgerät im Keller: theoretisch vorhanden, praktisch selten benutzt. Der Verweis aus dem Begleittext auf ein Feature, das in der Produktion nie aktiv war, passt deshalb unangenehm gut zu diesem Test.
Fair bleibt aber auch die Gegenperspektive: Solche Experimente sind wertvoll. Sie zeigen, was mit wenig Hardware möglich ist, und sie zwingen Teams zu saubereren Entscheidungen. Nicht jedes Projekt braucht ein großes Modell. Nicht jede Anfrage braucht ein Cloud-Inferenzbudget. Wer leichte Aufgaben lokal löst, spart Kosten, reduziert Latenz und gewinnt Kontrolle. Das ist kein Hype, sondern solide Praxis. Nur sollte man den Preis dafür ehrlich benennen: weniger Komfort, mehr Tuning, mehr Grenzen, mehr Zeit für die unsichtbaren Details.
Genau deshalb ist der Fall mit Ollama und Gemma 4 mehr als ein Bastelbericht. Er ist ein kleiner Realitätscheck für alle, die lokale KI als einfache Abkürzung verkaufen. Die nützliche Regel lautet nicht: „Lokal ist besser.“ Sie lautet: „Lokal ist nur dann besser, wenn das VRAM-Modell zur Aufgabe passt.“ Das klingt nüchtern, ist aber die Art Nüchternheit, die später Frust, Fehlkäufe und halbfertige Features spart. Und ja: 4 GB können für eine Demo reichen. Für eine belastbare Produktstrategie sind sie oft nur ein sehr teurer Optimismus-Test.
Wer mit Same, this und gemma arbeitet, sollte deshalb nicht zuerst nach dem größten Modell greifen, sondern nach der ehrlichsten Speicherrechnung. Alles andere ist kein Fortschritt, sondern nur ein hübsch verpackter Engpass.