Von Token bis RAG — in 20 Minuten. Ohne Bullshit.
Keine Magie. Kein Verstand. Kein Denken. KI ist eine Wahrscheinlichkeitsmaschine — sie berechnet bei jedem Schritt, welches Wort als nächstes am wahrscheinlichsten passt.
Autocomplete auf Steroiden. Dein Smartphone schlägt beim Tippen das nächste Wort vor. Dasselbe Prinzip — nur mit Milliarden statt Tausenden von Parametern, und trainiert auf einem grossen Teil des Internets.
KI liest keinen Text wie ein Mensch. Sie zerhackt alles in Token. Ein Token ist ungefähr ein Wort — aber nicht immer. Umlaute, seltene Wörter und Satzzeichen werden oft aufgespalten.
Jedes farbige Stück = 1 Token. Umlaute (ü, ä, ö) und seltene Wörter erzeugen oft Extra-Token.
Der Tokenizer kennt ~50'000 häufige Wortteile. "zerhackt" → zer + hack + t, weil diese Silben häufig vorkommen. "ü" wird oft als eigener Token gewertet. Seltene Wörter werden in bekannte Stücke zerlegt, die der Tokenizer kennt.
Wenn du eine Frage stellst, passieren zwei Dinge nacheinander. Du siehst nur Phase 2 — aber beide bestimmen, wie schnell die Antwort kommt.
Stell dir vor, du musst ein Buch vorlesen — aber du darfst immer nur ein Wort auf einmal aussprechen, und für jedes Wort musst du kurz das ganze Buch durchblättern. Wie schnell du blättern kannst = die Schreibgeschwindigkeit.
Pro Token muss die KI das komplette Modell einmal "durchlesen" — wie ein Buch das jedes Mal von vorne bis hinten überflogen wird, bevor das nächste Wort ausgesprochen werden kann.
B = Milliarden Parameter. Parameter sind die gelernten Gewichtungen — sozusagen das "Wissen" des Modells. Mehr Parameter = mehr Qualität = mehr Speicherbedarf = langsamer.
Der Zusammenhang ist exakt linear: Pro Token muss die KI alle Parameter einmal aus dem Speicher lesen. 5× mehr Parameter = 5× mehr Daten = 5× langsamer.
19 GB ÷ 936 GB/s = 20ms ergibt rein rechnerisch ~49 tok/s theoretisch. Real sind es ~20–25 tok/s — weil zusätzlich KV-Cache, Aktivierungen und GPU-Overhead gelesen werden müssen. Die RTX 3090 ist hier nur als Beispiel-GPU. Jede andere GPU skaliert proportional zu ihrer Bandbreite.
Beide funktionieren. Die Wahl hängt von deinen Prioritäten ab — nicht davon, was gerade hip ist.
KI-Inferenz ist kein Rechenproblem — es ist ein Speicherproblem. Pro Token muss das gesamte Modell aus dem Speicher gelesen werden. Wer schneller liest, gewinnt.
CPU = 8-spurige Autobahn. GPU = 500-spurige Autobahn. Beide kommen ans Ziel — aber die GPU schafft 12× mehr Daten pro Sekunde. Bei KI-Inferenz ist genau diese Bandbreite der einzige Flaschenhals.
Ollama ist ein Paketmanager für KI-Modelle — so wie ein App Store, aber für lokale Sprachmodelle. Einmal installiert, kannst du beliebige Modelle mit einem Befehl laden und starten.
Verfügbar für macOS, Windows, Linux. Setup dauert 2 Minuten.
Das 14B Modell (~8 GB) ist der empfohlene Einstieg. Einmaliger Download.
Startet eine Konversation direkt im Terminal. Oder per Open WebUI im Browser.
Ollama allein gibt dir ein Terminal. Open WebUI gibt dir ein vollständiges Chat-Interface im Browser — identisch zu ChatGPT, aber komplett lokal.
docker run -d -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ --name open-webui --restart always \ ghcr.io/open-webui/open-webui:main
RAG steht für Retrieval Augmented Generation. Das Modell wird nicht neu trainiert — stattdessen bekommt es bei jeder Anfrage relevante Stellen aus deinen Dokumenten als Kontext mitgeliefert.
Stell dir eine KI als sehr schnellen Recherche-Assistenten vor. Ohne RAG: Er kennt nur sein Studium. Mit RAG: Du gibst ihm dein persönliches Archiv — er sucht darin und antwortet mit deinen eigenen Informationen.
Konkrete Einsatzbereiche — kein Hype, nur was real funktioniert.
Die Frage ist nicht ob, sondern welche Hardware zu deiner Situation passt.
Ollama ist kostenlos, open-source und in 10 Minuten einsatzbereit. Für macOS, Windows und Linux.
→ ollama.comKI ist kein Hype und keine Bedrohung — es ist ein Werkzeug. Wer es versteht, nutzt es. Wer es nutzt, hat einen echten Vorteil.