Es gibt zwei Arten, KI zu nutzen: man mietet sie, oder man stellt sie sich in den Keller. Ich habe mich für den Keller entschieden. Der Server heißt Zuse — eine alte HP Z840 Workstation, Ubuntu, irgendwo in Ostfriesland an einer Starlink-Leitung mit 250–400 Mbit/s. Kein Cluster, keine Cloud-Rechnung, kein "Ihr Guthaben ist aufgebraucht".
Der Reiz ist nicht Geld sparen. Der Reiz ist: die Rohdaten verlassen das Haus nicht. Für ein paar meiner Projekte — Automotive-Logs zum Beispiel — ist das keine Spielerei, sondern Bedingung.
Was drauf läuft
Der Stack ist über Monate gewachsen. Jede Schicht ist ein eigener Container, jeder Container hat genau eine Aufgabe:
| Schicht | Dienst | GPU | Modell / Notiz |
|---|---|---|---|
| LLM | vLLM | 2× RTX 3090 (TP=2) | Qwen3 27B, int4, 256K Kontext, ~65 tok/s |
| Embeddings/Rerank | Infinity | 1070 Ti | bge-m3 + Reranker |
| Speech-to-Text | Whisper large-v3 | 1070 Ti | mit VAD-Proxy davor |
| Text-to-Speech | Piper | CPU | deutsch |
| Bildgenerierung | ComfyUI | 1070 Ti | SDXL-Lightning, ~40–70 s/Bild |
| Wissensbasis | Open-WebUI + Tika | – | OCR über Dokumente |
| Agent | Hermes | – | OpenAI-kompatibel + Telegram-Bot |
Drei GPUs aus drei Epochen: zwei RTX 3090 für das große Sprachmodell im Tensor-Parallel-Modus, und eine betagte 1070 Ti, die sich klaglos um Embeddings, Whisper und Bildgenerierung kümmert. Alte Hardware ist nicht peinlich. Alte Hardware, die nichts mehr tut, ist peinlich.
Die Lektionen, die wehtun
Ein Heim-AI-Stack sieht im Architekturdiagramm hübsch aus. Der Schmerz steckt in den Details, die kein Tutorial erwähnt.
Modelle gehören auf SSD, niemals auf die HDD. Ich habe die Modell-Caches einmal auf die große, langsame Platte gelegt. Das Wort, das ich damals benutzt habe, war "fatal". Ladezeiten im Minutenbereich, vLLM, das in Timeouts läuft. Seitdem: ML-Modelle leben ausschließlich auf SSD, Punkt.
Container reden über host.docker.internal, nicht über ein gemeinsames Docker-Netz.
Klingt nach Detail, ist aber die Entscheidung, die den ganzen Zoo wartbar hält. Jeder
Dienst ist für sich startbar, testbar, neustartbar. Kein Kartenhaus, bei dem ein
Container den nächsten mitreißt.
Whisper halluziniert auf Stille. Schickt man dem Spracherkenner einen sehr kurzen oder leisen Clip, erfindet er fröhlich Endlosschleifen aus Phantasiewörtern. Die Lösung ist ein kleiner Proxy davor, der Voice-Activity-Detection erzwingt und die Sprache vorbelegt, falls der Client es vergisst. Eine Schicht Misstrauen zwischen Anwendung und Modell — das zieht sich durch den ganzen Stack.
Warum sich das lohnt
Was dabei herauskommt, ist kein ChatGPT-Klon im Wohnzimmer. Es ist eine Plattform, auf der meine anderen Projekte stehen: der Code-Worker, der nachts an Spielen mitprogrammiert. Der Agent, der mir Mails sortiert. Der MIDI-Orchestrator, der echten Synthesizern sagt, was sie spielen sollen.
Zuse ist die Antwort auf eine simple Frage: Wenn ich ohnehin den ganzen Tag mit Engineering verbringe — warum sollte die spannendste Technologie der Dekade als Mietobjekt in einem fremden Rechenzentrum stehen, statt brummend neben dem Heizungskeller?
Geplant ist noch Hardware-Spielerei für die Seele: drei magische Augen — alte Röhren-Anzeigen aus Radios der 50er — als analoge GPU-Auslastungsanzeige. Weil ein Server, der arbeitet, das auch zeigen darf.