KI verstehen. KI nutzen. — Meine Resilienz

Kapitel 1 von 2

KI verstehen

Was passiert wirklich, wenn eine KI antwortet?

1.1

Was KI wirklich ist

Keine Magie. Kein Verstand. Kein Denken. KI ist eine Wahrscheinlichkeitsmaschine — sie berechnet bei jedem Schritt, welches Wort als nächstes am wahrscheinlichsten passt.

Analogie

Autocomplete auf Steroiden. Dein Smartphone schlägt beim Tippen das nächste Wort vor. Dasselbe Prinzip — nur mit Milliarden statt Tausenden von Parametern, und trainiert auf einem grossen Teil des Internets.

✓ Was KI kann

Text zusammenfassen und umformulieren

Code schreiben, erklären und debuggen

Ideen strukturieren und durchdenken

Grosse Textmengen schnell durchsuchen

Fragen beantworten (auf Basis von Training)

Stil und Ton anpassen

Dokumente analysieren und extrahieren

✗ Was KI NICHT kann

Die Wahrheit "wissen" — sie halluziniert

Rechnen (ohne Tool) — Muster ≠ Logik

Aktuelles abrufen (ohne Internet-Zugang)

Absichten haben oder Ziele verfolgen

Vergangenes Gespräch erinnern (ohne Kontext)

Bilder "sehen" wie ein Mensch

Entscheidungen ohne menschliche Kontrolle treffen

Kernprinzip: KI gibt immer eine Antwort — auch wenn sie falsch ist. Deshalb ist kritisches Prüfen keine Option, sondern Pflicht.

1.2

Token — die Sprache der KI

KI liest keinen Text wie ein Mensch. Sie zerhackt alles in Token. Ein Token ist ungefähr ein Wort — aber nicht immer. Umlaute, seltene Wörter und Satzzeichen werden oft aufgespalten.

100 Wörter ≈ 130 Token

Faustregel · gilt für Deutsch

Interaktive Demo — tippe deinen Text

Jedes farbige Stück = 1 Token. Umlaute (ü, ä, ö) und seltene Wörter erzeugen oft Extra-Token.

Token: 0 | Wörter: 0 | Verhältnis: —

Wort-Token (1 Wort = 1 Token)

Teilwort (Wort aufgespalten)

Satzzeichen / Sonderzeichen

Leerzeichen: Werden hier nicht angezeigt — in realen GPT-Tokenizern werden sie mit dem folgenden Wort zusammengefasst (z.B. " die" = 1 Token). Der Zähler hier zeigt nur Wort- und Satzzeichen-Token.

Warum werden Wörter aufgespalten?

Der Tokenizer kennt ~50'000 häufige Wortteile. "zerhackt" → zer + hack + t, weil diese Silben häufig vorkommen. "ü" wird oft als eigener Token gewertet. Seltene Wörter werden in bekannte Stücke zerlegt, die der Tokenizer kennt.

1.3

Zwei Phasen: Lesen und Schreiben

Wenn du eine Frage stellst, passieren zwei Dinge nacheinander. Du siehst nur Phase 2 — aber beide bestimmen, wie schnell die Antwort kommt.

Phase 1 · Prefill

Lesen

Deine Frage wird verarbeitet. Alle Token gleichzeitig. Passiert in Millisekunden — unsichtbar. Die KI "liest" alles auf einmal.

Phase 2 · Decode

Schreiben ← hier tippert es

KI gibt Token für Token aus. Pro Token: alle Parameter einmal durchlesen. Die Schreibgeschwindigkeit hängt direkt von der Speicherbandbreite ab.

Analogie

Stell dir vor, du musst ein Buch vorlesen — aber du darfst immer nur ein Wort auf einmal aussprechen, und für jedes Wort musst du kurz das ganze Buch durchblättern. Wie schnell du blättern kannst = die Schreibgeschwindigkeit.

Demo — so fühlt sich das an

7B Modell · ~50 tok/s · sehr flüssig

Ab ca. 5 tok/s fühlt sich Konversation flüssig an. Ein gutes lokales Modell auf der richtigen Hardware schreibt schneller als du lesen kannst.

Warum tippert es — Visualisierung

Pro Token muss die KI das komplette Modell einmal "durchlesen" — wie ein Buch das jedes Mal von vorne bis hinten überflogen wird, bevor das nächste Wort ausgesprochen werden kann.

Pro Token — komplettes Modell einmal lesen

← Schicht 1

—

Schicht 96 →

0

Tokens erzeugt

0

GB gelesen

—

tok/s (Modell)

1.4

Modellgrössen — was das "B" bedeutet

B = Milliarden Parameter. Parameter sind die gelernten Gewichtungen — sozusagen das "Wissen" des Modells. Mehr Parameter = mehr Qualität = mehr Speicherbedarf = langsamer.

Der Zusammenhang ist exakt linear: Pro Token muss die KI alle Parameter einmal aus dem Speicher lesen. 5× mehr Parameter = 5× mehr Daten = 5× langsamer.

35B

Parameter

→

19 GB

pro Token lesen

÷

936 GB/s

Beispiel-GPU

≈

~20 tok/s

Praxis-Schätzung

Warum nicht exakt? Die Formel ist eine Vereinfachung. 19 GB ÷ 936 GB/s = 20ms ergibt rein rechnerisch ~49 tok/s theoretisch. Real sind es ~20–25 tok/s — weil zusätzlich KV-Cache, Aktivierungen und GPU-Overhead gelesen werden müssen. Die RTX 3090 ist hier nur als Beispiel-GPU. Jede andere GPU skaliert proportional zu ihrer Bandbreite.

Modellgrössen im Vergleich

7B

4 GB

~50 tok/s

14B

8 GB

~35 tok/s

35B ★ Sweet Spot

19 GB

~15 tok/s

70B

40 GB → RAM!

~2 tok/s

Merksatz: 5× mehr Parameter = 5× mehr lesen = 5× langsamer. Exakt linear. Kein anderer Faktor entscheidet so stark wie die Modellgrösse.

1.5

Lokal vs. Cloud

Beide funktionieren. Die Wahl hängt von deinen Prioritäten ab — nicht davon, was gerade hip ist.

☁ Cloud (ChatGPT, Claude...)

+Sofort nutzbar, kein Setup

+Grösste Modelle, beste Qualität

+Funktioniert auf jedem Gerät

+Automatisch aktuell

–Daten verlassen dein Gerät

–Abhängig von Anbieter & Abo

–Kein Betrieb bei Internetausfall

–Laufende Kosten

⬡ Lokal (Ollama, LM Studio...)

+Daten bleiben auf deinem Gerät

+Funktioniert offline, ohne Abo

+Datensouveränität — kein Tracking

+Eigenes Archiv via RAG einbindbar

–Setup nötig (einmalig, ~10 min)

–Kleinere Modelle = weniger Qualität

–Hardware begrenzt Modellgrösse

–Kein Internetzugriff (standardmässig)

Resilienz-Perspektive: Lokal bedeutet kein Single Point of Failure. Bei Netzausfall, Anbieterproblemen oder Datenschutzbedarf bist du unabhängig. Für sensible Dokumente ist lokal keine Option — es ist das Minimum.

1.6

CPU vs. GPU — warum Hardware plötzlich wichtig ist

KI-Inferenz ist kein Rechenproblem — es ist ein Speicherproblem. Pro Token muss das gesamte Modell aus dem Speicher gelesen werden. Wer schneller liest, gewinnt.

Analogie

CPU = 8-spurige Autobahn. GPU = 500-spurige Autobahn. Beide kommen ans Ziel — aber die GPU schafft 12× mehr Daten pro Sekunde. Bei KI-Inferenz ist genau diese Bandbreite der einzige Flaschenhals.

Speicherbandbreite im Vergleich

CPU RAM

75 GB/s

~5 tok/s

Mac M4

273 GB/s

~30 tok/s

RTX 3090

936 GB/s

~50 tok/s

Was passiert wenn das Modell nicht in den VRAM passt?

Modell
in VRAM

→

GPU
936 GB/s

→

~15 tok/s ✓

Modell
zu gross für VRAM

→

CPU RAM
75 GB/s !

→

~2 tok/s ✗

Faustregel: Modell muss vollständig in VRAM passen — sonst fällt die Geschwindigkeit um Faktor 10. Ein 35B Modell braucht ~19 GB VRAM. Eine RTX 3090 hat 24 GB. Passt.

Kapitel 2 von 2

KI nutzen

Vom Verstehen zum konkreten Einsatz — lokal, privat, resilient.

2.1

Ollama: Lokale KI in 3 Befehlen

Ollama ist ein Paketmanager für KI-Modelle — so wie ein App Store, aber für lokale Sprachmodelle. Einmal installiert, kannst du beliebige Modelle mit einem Befehl laden und starten.

1

Ollama herunterladen und installieren

ollama.com → Download → Installieren

Verfügbar für macOS, Windows, Linux. Setup dauert 2 Minuten.

2

Modell herunterladen

ollama pull qwen2.5:14b

Das 14B Modell (~8 GB) ist der empfohlene Einstieg. Einmaliger Download.

3

Modell starten

ollama run qwen2.5:14b

Startet eine Konversation direkt im Terminal. Oder per Open WebUI im Browser.

Welches Modell für wen?

3B

Schnell

VRAM: ~2 GB

Geschwindigkeit: ~80 tok/s

Ältere Hardware, schwache Laptops. Einfache Aufgaben, schnelle Antworten. Qualität begrenzt.

14B

★ Empfohlen

VRAM: ~8 GB

Geschwindigkeit: ~35 tok/s

Bestes Verhältnis Qualität/Speed. Läuft auf den meisten modernen GPUs. Ideal für den Einstieg.

35B

Kraftvoll

VRAM: ~19 GB

Geschwindigkeit: ~15 tok/s

Braucht GPU mit 24 GB VRAM (RTX 3090/4090). Sehr gute Qualität, noch flüssig nutzbar.

2.2

Open WebUI — das Cockpit

Ollama allein gibt dir ein Terminal. Open WebUI gibt dir ein vollständiges Chat-Interface im Browser — identisch zu ChatGPT, aber komplett lokal.

Chat-Interface mit Gesprächsverlauf

Modellwechsel per Klick — alle installierten Ollama-Modelle

Dokumente direkt hochladen und befragen

Mehrere parallele Konversationen

Eigene System-Prompts und Personas

Läuft lokal auf Port 3000 — kein Account nötig

Terminal

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

Nach dem Start: http://localhost:3000 im Browser öffnen. Einmaliges Einrichten eines lokalen Accounts (kein Internet nötig).

2.3

RAG — dein eigenes Wissen

RAG steht für Retrieval Augmented Generation. Das Modell wird nicht neu trainiert — stattdessen bekommt es bei jeder Anfrage relevante Stellen aus deinen Dokumenten als Kontext mitgeliefert.

Analogie

Stell dir eine KI als sehr schnellen Recherche-Assistenten vor. Ohne RAG: Er kennt nur sein Studium. Mit RAG: Du gibst ihm dein persönliches Archiv — er sucht darin und antwortet mit deinen eigenen Informationen.

Wie RAG funktioniert

📄

Deine Dokumente

PDFs, Notizen, Texte → werden einmalig indexiert

↓

🔍

Semantische Suche

Deine Frage → findet die relevantesten Stellen

↓

🧠

Ollama erhält Kontext

Frage + gefundene Stellen → werden ans Modell übergeben

↓

✓

Antwort aus deinem Archiv

Präzise, belegbar, nur deine Informationen

Datenschutz: Deine Dokumente verlassen das Gerät nie. Der gesamte Prozess — Indexierung, Suche, Generierung — läuft lokal. Kein Cloud-API, kein Logging, kein Dritter.

2.4

Was du heute damit machen kannst

Konkrete Einsatzbereiche — kein Hype, nur was real funktioniert.

📑

Produktivität

PDF-Zusammenfassung

Lade beliebige PDFs hoch und lass sie zusammenfassen, analysieren oder nach konkreten Informationen durchsuchen. Sofort und offline.

🤖

Alltag

Persönlicher Assistent

Texte schreiben, E-Mails formulieren, Ideen strukturieren. Dein Assistent kennt deinen Stil und läuft ohne Abo.

🔎

Wissen

Recherche-Assistent

Komplexe Themen durcharbeiten, erklären lassen, Zusammenhänge herstellen. Wie ein geduldiger Experte ohne Zeitdruck.

⚙️

Workflow

Dokument-Workflow

Verträge, Berichte, Protokolle — KI extrahiert Schlüsselinformationen, erstellt Zusammenfassungen, vergleicht Versionen.

🗂️

Wissensmanagement

Obsidian-Bot

Dein persönliches Wissensarchiv per RAG anbinden. Stell Fragen über deine eigenen Notizen — die KI antwortet aus deinem Vault.

📡

Resilienz

Offline-Assistent

Funktioniert ohne Internet, ohne Strom vom Netz (mit USV/Akku), ohne externe Abhängigkeit. Dein KI-System bleibt einsatzbereit.

2.5

Was du heute brauchst — Hardware-Guide

Die Frage ist nicht ob, sondern welche Hardware zu deiner Situation passt.

💻

Laptop 16 GB RAM

Keine dedizierte GPU · CPU-Inferenz

~5 tok/s · 7B–14B Modelle

Einsteiger · ausreichend

🖥

GPU 12 GB VRAM

RTX 3060/4060 oder ähnlich

~30 tok/s · bis 14B Modelle

Gut · empfehlenswert

🍎

Mac M4 (16 GB+)

Unified Memory · 273 GB/s

~30 tok/s · bis 35B möglich

Sehr gut · effizienter Betrieb

⚡

RTX 3090 (24 GB)

936 GB/s Bandbreite · voller VRAM

~15 tok/s bei 35B · Sweet Spot

★ Bestes Verhältnis Preis/Leistung

Quick Start

10 Minuten Setup — kein Account, keine Cloud

Ollama installieren → Modell laden → chatten. Fertig. Deine Daten bleiben lokal. Keine Registrierung, kein Abo, keine Abhängigkeit.

Jetzt starten

Ollama ist kostenlos, open-source und in 10 Minuten einsatzbereit. Für macOS, Windows und Linux.

→ ollama.com

KI verstehen.KI nutzen.

Was KI wirklich ist

Token — die Sprache der KI

Interaktive Demo — tippe deinen Text

Zwei Phasen: Lesen und Schreiben

Demo — so fühlt sich das an

Warum tippert es — Visualisierung

Modellgrössen — was das "B" bedeutet

Modellgrössen im Vergleich

Lokal vs. Cloud

CPU vs. GPU — warum Hardware plötzlich wichtig ist

Speicherbandbreite im Vergleich

Was passiert wenn das Modell nicht in den VRAM passt?

Ollama: Lokale KI in 3 Befehlen

Welches Modell für wen?

Open WebUI — das Cockpit

RAG — dein eigenes Wissen

Wie RAG funktioniert

Was du heute damit machen kannst

Was du heute brauchst — Hardware-Guide

Jetzt starten

KI verstehen.
KI nutzen.