Infoboard · KI Mini-Workshop

KI verstehen.
KI nutzen.

Von Token bis RAG — in 20 Minuten. Ohne Bullshit.

Keine Vorkenntnisse nötig Interaktive Demos Neutral & direkt
Scrollen
Kapitel 1 von 2
KI verstehen
Was passiert wirklich, wenn eine KI antwortet?
1.1

Was KI wirklich ist

Keine Magie. Kein Verstand. Kein Denken. KI ist eine Wahrscheinlichkeitsmaschine — sie berechnet bei jedem Schritt, welches Wort als nächstes am wahrscheinlichsten passt.

Analogie

Autocomplete auf Steroiden. Dein Smartphone schlägt beim Tippen das nächste Wort vor. Dasselbe Prinzip — nur mit Milliarden statt Tausenden von Parametern, und trainiert auf einem grossen Teil des Internets.

✓ Was KI kann
Text zusammenfassen und umformulieren
Code schreiben, erklären und debuggen
Ideen strukturieren und durchdenken
Grosse Textmengen schnell durchsuchen
Fragen beantworten (auf Basis von Training)
Stil und Ton anpassen
Dokumente analysieren und extrahieren
✗ Was KI NICHT kann
Die Wahrheit "wissen" — sie halluziniert
Rechnen (ohne Tool) — Muster ≠ Logik
Aktuelles abrufen (ohne Internet-Zugang)
Absichten haben oder Ziele verfolgen
Vergangenes Gespräch erinnern (ohne Kontext)
Bilder "sehen" wie ein Mensch
Entscheidungen ohne menschliche Kontrolle treffen
Kernprinzip: KI gibt immer eine Antwort — auch wenn sie falsch ist. Deshalb ist kritisches Prüfen keine Option, sondern Pflicht.
1.2

Token — die Sprache der KI

KI liest keinen Text wie ein Mensch. Sie zerhackt alles in Token. Ein Token ist ungefähr ein Wort — aber nicht immer. Umlaute, seltene Wörter und Satzzeichen werden oft aufgespalten.

100 Wörter ≈ 130 Token
Faustregel · gilt für Deutsch

Interaktive Demo — tippe deinen Text

Jedes farbige Stück = 1 Token. Umlaute (ü, ä, ö) und seltene Wörter erzeugen oft Extra-Token.

Token: 0  |  Wörter: 0  |  Verhältnis:
Wort-Token (1 Wort = 1 Token)
Teilwort (Wort aufgespalten)
Satzzeichen / Sonderzeichen
Leerzeichen: Werden hier nicht angezeigt — in realen GPT-Tokenizern werden sie mit dem folgenden Wort zusammengefasst (z.B. " die" = 1 Token). Der Zähler hier zeigt nur Wort- und Satzzeichen-Token.
Warum werden Wörter aufgespalten?

Der Tokenizer kennt ~50'000 häufige Wortteile. "zerhackt" → zer + hack + t, weil diese Silben häufig vorkommen. "ü" wird oft als eigener Token gewertet. Seltene Wörter werden in bekannte Stücke zerlegt, die der Tokenizer kennt.

1.3

Zwei Phasen: Lesen und Schreiben

Wenn du eine Frage stellst, passieren zwei Dinge nacheinander. Du siehst nur Phase 2 — aber beide bestimmen, wie schnell die Antwort kommt.

Phase 1 · Prefill
Lesen
Deine Frage wird verarbeitet. Alle Token gleichzeitig. Passiert in Millisekunden — unsichtbar. Die KI "liest" alles auf einmal.
Phase 2 · Decode
Schreiben ← hier tippert es
KI gibt Token für Token aus. Pro Token: alle Parameter einmal durchlesen. Die Schreibgeschwindigkeit hängt direkt von der Speicherbandbreite ab.
Analogie

Stell dir vor, du musst ein Buch vorlesen — aber du darfst immer nur ein Wort auf einmal aussprechen, und für jedes Wort musst du kurz das ganze Buch durchblättern. Wie schnell du blättern kannst = die Schreibgeschwindigkeit.

Demo — so fühlt sich das an

7B Modell · ~50 tok/s · sehr flüssig
Ab ca. 5 tok/s fühlt sich Konversation flüssig an. Ein gutes lokales Modell auf der richtigen Hardware schreibt schneller als du lesen kannst.

Warum tippert es — Visualisierung

Pro Token muss die KI das komplette Modell einmal "durchlesen" — wie ein Buch das jedes Mal von vorne bis hinten überflogen wird, bevor das nächste Wort ausgesprochen werden kann.

Pro Token — komplettes Modell einmal lesen
← Schicht 1
Schicht 96 →
0
Tokens erzeugt
0
GB gelesen
tok/s (Modell)
1.4

Modellgrössen — was das "B" bedeutet

B = Milliarden Parameter. Parameter sind die gelernten Gewichtungen — sozusagen das "Wissen" des Modells. Mehr Parameter = mehr Qualität = mehr Speicherbedarf = langsamer.

Der Zusammenhang ist exakt linear: Pro Token muss die KI alle Parameter einmal aus dem Speicher lesen. 5× mehr Parameter = 5× mehr Daten = 5× langsamer.

35B
Parameter
19 GB
pro Token lesen
÷
936 GB/s
Beispiel-GPU
~20 tok/s
Praxis-Schätzung
Warum nicht exakt? Die Formel ist eine Vereinfachung. 19 GB ÷ 936 GB/s = 20ms ergibt rein rechnerisch ~49 tok/s theoretisch. Real sind es ~20–25 tok/s — weil zusätzlich KV-Cache, Aktivierungen und GPU-Overhead gelesen werden müssen. Die RTX 3090 ist hier nur als Beispiel-GPU. Jede andere GPU skaliert proportional zu ihrer Bandbreite.

Modellgrössen im Vergleich

7B
4 GB
~50 tok/s
14B
8 GB
~35 tok/s
35B ★ Sweet Spot
19 GB
~15 tok/s
70B
40 GB → RAM!
~2 tok/s
Merksatz: 5× mehr Parameter = 5× mehr lesen = 5× langsamer. Exakt linear. Kein anderer Faktor entscheidet so stark wie die Modellgrösse.
1.5

Lokal vs. Cloud

Beide funktionieren. Die Wahl hängt von deinen Prioritäten ab — nicht davon, was gerade hip ist.

☁ Cloud (ChatGPT, Claude...)
+Sofort nutzbar, kein Setup
+Grösste Modelle, beste Qualität
+Funktioniert auf jedem Gerät
+Automatisch aktuell
Daten verlassen dein Gerät
Abhängig von Anbieter & Abo
Kein Betrieb bei Internetausfall
Laufende Kosten
⬡ Lokal (Ollama, LM Studio...)
+Daten bleiben auf deinem Gerät
+Funktioniert offline, ohne Abo
+Datensouveränität — kein Tracking
+Eigenes Archiv via RAG einbindbar
Setup nötig (einmalig, ~10 min)
Kleinere Modelle = weniger Qualität
Hardware begrenzt Modellgrösse
Kein Internetzugriff (standardmässig)
Resilienz-Perspektive: Lokal bedeutet kein Single Point of Failure. Bei Netzausfall, Anbieterproblemen oder Datenschutzbedarf bist du unabhängig. Für sensible Dokumente ist lokal keine Option — es ist das Minimum.
1.6

CPU vs. GPU — warum Hardware plötzlich wichtig ist

KI-Inferenz ist kein Rechenproblem — es ist ein Speicherproblem. Pro Token muss das gesamte Modell aus dem Speicher gelesen werden. Wer schneller liest, gewinnt.

Analogie

CPU = 8-spurige Autobahn. GPU = 500-spurige Autobahn. Beide kommen ans Ziel — aber die GPU schafft 12× mehr Daten pro Sekunde. Bei KI-Inferenz ist genau diese Bandbreite der einzige Flaschenhals.

Speicherbandbreite im Vergleich

CPU RAM
75 GB/s
~5 tok/s
Mac M4
273 GB/s
~30 tok/s
RTX 3090
936 GB/s
~50 tok/s

Was passiert wenn das Modell nicht in den VRAM passt?

Modell
in VRAM
GPU
936 GB/s
~15 tok/s ✓
Modell
zu gross für VRAM
CPU RAM
75 GB/s !
~2 tok/s ✗
Faustregel: Modell muss vollständig in VRAM passen — sonst fällt die Geschwindigkeit um Faktor 10. Ein 35B Modell braucht ~19 GB VRAM. Eine RTX 3090 hat 24 GB. Passt.
Kapitel 2 von 2
KI nutzen
Vom Verstehen zum konkreten Einsatz — lokal, privat, resilient.
2.1

Ollama: Lokale KI in 3 Befehlen

Ollama ist ein Paketmanager für KI-Modelle — so wie ein App Store, aber für lokale Sprachmodelle. Einmal installiert, kannst du beliebige Modelle mit einem Befehl laden und starten.

1
Ollama herunterladen und installieren
ollama.com → Download → Installieren

Verfügbar für macOS, Windows, Linux. Setup dauert 2 Minuten.

2
Modell herunterladen
ollama pull qwen2.5:14b

Das 14B Modell (~8 GB) ist der empfohlene Einstieg. Einmaliger Download.

3
Modell starten
ollama run qwen2.5:14b

Startet eine Konversation direkt im Terminal. Oder per Open WebUI im Browser.

Welches Modell für wen?

3B
Schnell
VRAM: ~2 GB
Geschwindigkeit: ~80 tok/s
Ältere Hardware, schwache Laptops. Einfache Aufgaben, schnelle Antworten. Qualität begrenzt.
14B
★ Empfohlen
VRAM: ~8 GB
Geschwindigkeit: ~35 tok/s
Bestes Verhältnis Qualität/Speed. Läuft auf den meisten modernen GPUs. Ideal für den Einstieg.
35B
Kraftvoll
VRAM: ~19 GB
Geschwindigkeit: ~15 tok/s
Braucht GPU mit 24 GB VRAM (RTX 3090/4090). Sehr gute Qualität, noch flüssig nutzbar.
2.2

Open WebUI — das Cockpit

Ollama allein gibt dir ein Terminal. Open WebUI gibt dir ein vollständiges Chat-Interface im Browser — identisch zu ChatGPT, aber komplett lokal.

Chat-Interface mit Gesprächsverlauf
Modellwechsel per Klick — alle installierten Ollama-Modelle
Dokumente direkt hochladen und befragen
Mehrere parallele Konversationen
Eigene System-Prompts und Personas
Läuft lokal auf Port 3000 — kein Account nötig
Terminal
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main
Nach dem Start: http://localhost:3000 im Browser öffnen. Einmaliges Einrichten eines lokalen Accounts (kein Internet nötig).
2.3

RAG — dein eigenes Wissen

RAG steht für Retrieval Augmented Generation. Das Modell wird nicht neu trainiert — stattdessen bekommt es bei jeder Anfrage relevante Stellen aus deinen Dokumenten als Kontext mitgeliefert.

Analogie

Stell dir eine KI als sehr schnellen Recherche-Assistenten vor. Ohne RAG: Er kennt nur sein Studium. Mit RAG: Du gibst ihm dein persönliches Archiv — er sucht darin und antwortet mit deinen eigenen Informationen.

Wie RAG funktioniert

📄
Deine Dokumente
PDFs, Notizen, Texte → werden einmalig indexiert
🔍
Semantische Suche
Deine Frage → findet die relevantesten Stellen
🧠
Ollama erhält Kontext
Frage + gefundene Stellen → werden ans Modell übergeben
Antwort aus deinem Archiv
Präzise, belegbar, nur deine Informationen
Datenschutz: Deine Dokumente verlassen das Gerät nie. Der gesamte Prozess — Indexierung, Suche, Generierung — läuft lokal. Kein Cloud-API, kein Logging, kein Dritter.
2.4

Was du heute damit machen kannst

Konkrete Einsatzbereiche — kein Hype, nur was real funktioniert.

📑
Produktivität
PDF-Zusammenfassung
Lade beliebige PDFs hoch und lass sie zusammenfassen, analysieren oder nach konkreten Informationen durchsuchen. Sofort und offline.
🤖
Alltag
Persönlicher Assistent
Texte schreiben, E-Mails formulieren, Ideen strukturieren. Dein Assistent kennt deinen Stil und läuft ohne Abo.
🔎
Wissen
Recherche-Assistent
Komplexe Themen durcharbeiten, erklären lassen, Zusammenhänge herstellen. Wie ein geduldiger Experte ohne Zeitdruck.
⚙️
Workflow
Dokument-Workflow
Verträge, Berichte, Protokolle — KI extrahiert Schlüsselinformationen, erstellt Zusammenfassungen, vergleicht Versionen.
🗂️
Wissensmanagement
Obsidian-Bot
Dein persönliches Wissensarchiv per RAG anbinden. Stell Fragen über deine eigenen Notizen — die KI antwortet aus deinem Vault.
📡
Resilienz
Offline-Assistent
Funktioniert ohne Internet, ohne Strom vom Netz (mit USV/Akku), ohne externe Abhängigkeit. Dein KI-System bleibt einsatzbereit.
2.5

Was du heute brauchst — Hardware-Guide

Die Frage ist nicht ob, sondern welche Hardware zu deiner Situation passt.

💻
Laptop 16 GB RAM
Keine dedizierte GPU · CPU-Inferenz
~5 tok/s · 7B–14B Modelle
Einsteiger · ausreichend
🖥
GPU 12 GB VRAM
RTX 3060/4060 oder ähnlich
~30 tok/s · bis 14B Modelle
Gut · empfehlenswert
🍎
Mac M4 (16 GB+)
Unified Memory · 273 GB/s
~30 tok/s · bis 35B möglich
Sehr gut · effizienter Betrieb
RTX 3090 (24 GB)
936 GB/s Bandbreite · voller VRAM
~15 tok/s bei 35B · Sweet Spot
★ Bestes Verhältnis Preis/Leistung
Quick Start
10 Minuten Setup — kein Account, keine Cloud
Ollama installieren → Modell laden → chatten. Fertig. Deine Daten bleiben lokal. Keine Registrierung, kein Abo, keine Abhängigkeit.

Jetzt starten

Ollama ist kostenlos, open-source und in 10 Minuten einsatzbereit. Für macOS, Windows und Linux.

→ ollama.com
Verstehen · Vereinfachen · Handeln

KI ist kein Hype und keine Bedrohung — es ist ein Werkzeug. Wer es versteht, nutzt es. Wer es nutzt, hat einen echten Vorteil.

Lokal installiert = datensouverän 35B Modell = Sweet Spot RAG = dein Wissen, deine KI
← Zurück zur Hauptseite