Ollama LLM Server auf VPS hosten 2026 – Einleitung
Künstliche Intelligenz ist 2026 nicht mehr aus dem Entwickler-Alltag wegzudenken – doch nicht jeder möchte seine sensiblen Prompts, Kundendaten oder internen Prototypen an externe API-Anbieter wie OpenAI, Anthropic oder Google schicken. Genau hier kommt Ollama ins Spiel: Mit dem Open-Source-Tool betreibst du leistungsstarke Large Language Models wie Llama 3.3, Mistral, Phi-3, Gemma 2 oder Qwen 2.5 komplett lokal auf deinem eigenen Server. In Kombination mit einem passenden VPS oder dedizierten Server baust du dir so eine private, datenschutzfreundliche und vor allem kostengünstige KI-Infrastruktur auf. In diesem umfassenden Guide zeigen wir dir Schritt für Schritt, wie du einen Ollama LLM Server auf einem Linux-VPS installierst, Modelle wechselst, eine OpenAI-kompatible API bereitstellst und mit Open WebUI ein komfortables Chat-Frontend einrichtest.
Was ist Ollama?
Ollama ist ein quelloffenes Framework, das die Bereitstellung, Verwaltung und Inferenz von Large Language Models (LLMs) auf lokalen Maschinen drastisch vereinfacht. Ursprünglich inspiriert von Docker, verpackt Ollama ein vollständiges LLM – inklusive Gewichten, Konfiguration und System-Prompt – in ein einziges, portables Image. Du lädst ein Modell mit einem einzigen Befehl (ollama pull llama3.3) und startest es ohne CUDA-Setup, ohne manuelle Abhängigkeiten und ohne Cloud-Account.
Die wichtigsten Vorteile auf einen Blick:
- Datenschutz: Sämtliche Daten verlassen deinen Server nicht. Ideal für DSGVO-konforme Workflows.
- Kostentransparenz: Einmalige Hardware- bzw. VPS-Kosten statt laufender Token-Gebühren.
- OpenAI-kompatible API: Bestehende Tools, IDEs und Agenten lassen sich mit minimalem Aufwand umstellen.
- Modellvielfalt: Über 100 vortrainierte Modelle aus dem Ollama-Hub, darunter Llama 3.3, Mistral 7B, Mixtral 8x22B, Phi-3 Medium, Gemma 2 27B und Qwen 2.5 Coder.
- Modelfiles (Modelfile): Eigene Fine-Tunes, System-Prompts und Parameter lassen sich reproduzierbar definieren.
Hardware-Anforderungen: GPU, CPU und RAM im Überblick
Bevor du einen VPS mietest, musst du die Ressourcenanforderungen deines Wunschmodells kennen. Ollama kann zwar prinzipiell auf reinen CPU-VPS laufen, GPU-Beschleunigung bringt jedoch Faktor 5–20 an Geschwindigkeit. Die folgende Übersicht hilft dir bei der Wahl:
CPU-Variante (kostengünstig)
Für kleine Modelle wie Phi-3 Mini (3,8B), Llama 3.2 3B oder Qwen 2.5 7B reicht ein moderner Multi-Core-Prozessor. Empfohlen werden mindestens 8 vCPU-Kerne (z. B. AMD EPYC oder Intel Xeon der 4. Generation) sowie 16 GB RAM. Pro 1B Parameter benötigst du ungefähr 1 GB RAM bei Q4-Quantisierung. CPU-Inferenz eignet sich gut für gelegentliche Code-Hilfe, Zusammenfassungen und kleinere Chat-Sessions.
GPU-Variante (High-Performance)
Für 13B–70B Modelle wie Llama 3.3 70B oder Mixtral 8x22B brauchst du dedizierten VRAM. Eine NVIDIA RTX 4090 liefert 24 GB, eine A100 40/80 GB reicht für die ganz großen Modelle. Achte darauf, dass der Anbieter PCIe-Passthrough oder direkt angebundene GPUs anbietet. Hetzner, OVHcloud, Lambda Labs und RunPod sind hier die gängigsten Optionen.
Speicher und SSD
Modelle sind groß: Llama 3.3 70B in Q4_0 belegt etwa 40 GB. Eine schnelle NVMe-SSD mit mindestens 200 GB freiem Speicher ist Pflicht, sonst dauert das Laden der Gewichte quälend lange.
Installation auf einem Linux VPS
Die Installation von Ollama ist auf modernen Distributionen in unter fünf Minuten erledigt. Wir nutzen exemplarisch Ubuntu 24.04 LTS, da es den aktuellen NVIDIA-Treiber 555+ und alle nötigen Bibliotheken mitbringt. Solltest du mehrere Container parallel betreiben wollen, lohnt sich ein Blick auf unseren Docker-Compose-VPS-Guide.
Schritt 1: System aktualisieren
Beginne mit einem vollständigen Update und installiere die Basis-Tools:
sudo apt update && sudo apt upgrade -y
sudo apt install -y curl wget git htop nvme-cli
Schritt 2: NVIDIA-Treiber und CUDA installieren (GPU-VPS)
Auf einem GPU-Server installierst du den proprietären NVIDIA-Treiber sowie das CUDA-Toolkit. Ollama erkennt die GPU automatisch, sobald nvidia-smi funktioniert:
sudo apt install -y nvidia-driver-555
sudo apt install -y nvidia-cuda-toolkit
sudo reboot
Schritt 3: Ollama installieren
Das offizielle Installationsskript richtet den Systemdienst ollama.service ein, der auf Port 11434 lauscht:
curl -fsSL https://ollama.com/install.sh | sh
sudo systemctl enable --now ollama
ollama --version
Schritt 4: Ollama als extern erreichbarer Dienst konfigurieren
Standardmäßig bindet Ollama nur auf 127.0.0.1. Damit du von anderen Geräten oder WebUIs darauf zugreifen kannst, editierst du den Systemdienst:
sudo systemctl edit ollama
# In den Editor einfügen:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
sudo systemctl daemon-reload && sudo systemctl restart ollama
Schritt 5: Firewall und Sicherheit
Wichtig: Öffne den Port 11434 niemals ungeschützt im Internet. Nutze stattdessen einen Reverse Proxy (Nginx, Caddy oder Traefik) mit Let's Encrypt und Authentifizierung, oder greife ausschließlich über ein WireGuard-VPN zu. Eine umfassende Grundkonfiguration findest du in unserem Artikel Linux-Server härten.
Modelle laden und wechseln: Llama 3.3, Mistral, Phi-3, Gemma 2, Qwen
Der Modell-Hub von Ollama (ollama.com/library) listet hunderte vortrainierte Modelle mit unterschiedlichen Quantisierungsstufen. Mit dem Befehl ollama pull lädst du sie lokal, mit ollama run startest du direkt einen interaktiven Chat:
Beliebte Modelle 2026 im Schnellüberblick
- Llama 3.3 70B (Q4_K_M): ~40 GB, vergleichbar mit GPT-4o bei logischem Denken, ideal für Code-Review und lange Kontexte.
- Mistral 7B / Mixtral 8x22B: Effizienter Mix-of-Experts, perfekt für deutschsprachige Chatbots.
- Phi-3 Medium (14B): Microsofts kompaktes Powerhouse, extrem stark in Mathematik und Logik.
- Gemma 2 27B: Googles offene Modellreihe, sehr gute Allrounder-Qualität.
- Qwen 2.5 Coder 32B: Speziell auf Programmierung trainiert, schlägt in Benchmarks teilweise Llama 3.1 70B.
- DeepSeek R1 Distill: Reasoning-Modell mit Chain-of-Thought, perfekt für komplexe Analyseaufgaben.
Modell-Tag angeben
Mit Tags steuerst du die Quantisierung direkt beim Pull:
ollama pull llama3.3:70b-instruct-q4_K_M
ollama pull mistral:7b-instruct-q5_K_M
ollama pull phi3:14b-medium-4k-instruct-q4_0
ollama pull gemma2:27b-instruct-q5_0
ollama pull qwen2.5-coder:32b-instruct-q4_K_M
Zwischen Modellen wechseln
Beim Aufruf von ollama run wird das jeweilige Modell in den Speicher geladen und automatisch wieder freigegeben, sobald der Chat endet. So kannst du mehrere Modelle parallel installiert haben und je nach Aufgabe das passende wählen.
Eigene Modelle mit Modelfile
Über ein Modelfile definierst du eigene System-Prompts, Temperatur und Parameter:
FROM llama3.3:70b-instruct-q4_K_M
SYSTEM "Du bist ein deutschsprachiger DevOps-Assistent."
PARAMETER temperature 0.4
PARAMETER num_ctx 8192
Anschließend baust du es mit ollama create devops-assistent -f Modelfile und nutzt es mit ollama run devops-assistent.
OpenAI-kompatible API nutzen
Ein Killer-Feature von Ollama ist die native OpenAI-kompatible REST-API. Du kannst jeden Client, der heute gegen api.openai.com spricht, mit minimalen Anpassungen auf deinen lokalen Server umlenken. Der Endpunkt lautet:
POST http://dein-server:11434/v1/chat/completions
{
"model": "llama3.3",
"messages": [{"role": "user", "content": "Erkläre mir Quantisierung in 3 Sätzen."}]
}
Setze in deinem Tool lediglich OPENAI_BASE_URL auf http://dein-server:11434/v1 – schon funktionieren Continue.dev, Open WebUI, LangChain, LlamaIndex, Flowise und viele andere ohne Code-Änderung. Für die Streaming-Ausgabe setzt du "stream": true; Ollama sendet die Tokens dann per Server-Sent-Events.
WebUI: Open WebUI und Ollama Web installieren
Eine Kommandozeile ist nett, für den Alltag brauchst du aber ein komfortables Chat-Frontend. Open WebUI (ehemals Ollama WebUI) ist der populärste Begleiter und bringt Chat-Verlauf, Rollenverwaltung, RAG (Retrieval Augmented Generation) und Bildgenerierung mit.
Installation via Docker
Mit einem einzigen docker run-Befehl startest du Open WebUI auf Port 8080:
docker run -d --network=host \
-v open-webui-data:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Rufe anschließend http://dein-server:8080 auf, lege einen Admin-Account an und verbinde Open WebUI in den Einstellungen mit http://localhost:11434 – schon kannst du chatten, Dateien hochladen und eigene Modelfiles über die UI verwalten. Für mehr Komfort hinter einem Reverse-Proxy empfehlen wir unseren Nginx-Reverse-Proxy-Guide.
Performance und Quantisierung: Q4_K_M, Q5_K_M, Q8
Quantisierung komprimiert die Modellgewichte von 16-Bit-Floating-Point auf niedrigere Bitbreiten und reduziert damit VRAM-Verbrauch und Inferenzzeit – auf Kosten minimaler Genauigkeit. Die K-Suffixe stehen für die vom k-quants-Verfahren verwendete optimierte Block-Quantisierung. In der Praxis haben sich folgende Stufen bewährt:
- Q4_K_M: Bester Kompromiss aus Qualität und Größe. Verliert weniger als 1 % Perplexity gegenüber FP16, halbiert aber den Speicherbedarf. Standardempfehlung für die meisten Use-Cases.
- Q5_K_M: Nur marginal größer, aber subjektiv spürbar bessere Kohärenz bei längeren Texten. Empfehlung, wenn du 10–20 % mehr VRAM übrig hast.
- Q8_0: Fast verlustfrei, aber doppelt so groß wie Q4. Sinnvoll für kleine Modelle bis 13B auf 24-GB-Karten.
- IQ-Serien (Importance Quantization): Neuere 2026er-Stufe, kompakter als Q4 bei vergleichbarer Qualität, z. B.
Q4_K_Svs.IQ4_XS.
Ein einfacher Benchmark mit ollama run llama3.3 --verbose zeigt dir Tokens-pro-Sekunde, Kontextlänge und Speicherverbrauch in Echtzeit. Werte über 20 tokens/s gelten auf GPU als flüssig, auf CPU sind 3–8 tokens/s für ein 7B-Modell normal.
Kostenvergleich: Ollama VPS vs. ChatGPT API vs. Hetzner GPU Cloud
Wann lohnt sich Self-Hosting wirklich? Wir vergleichen drei Szenarien für ca. 10 Millionen verarbeitete Tokens pro Monat:
- OpenAI GPT-4o (API): ~150 $ pro Monat bei gemischter 1:3-Verteilung Input/Output (Stand Q1 2026). Skaliert linear, keine Vorabkosten.
- Hetzner GPU Cloud (z. B. H100): Rund 2,50 € pro Stunde für eine A100. Bei 24/7-Betrieb wären das ~1.800 €/Monat, lässt sich aber auf 8 Stunden/Tag begrenzen (~250 €). Eignet sich für Spitzenlasten, nicht für Dauerbetrieb.
- CPU-VPS (z. B. netcup/Hetzner): Ein AX162-Server mit AMD EPYC, 64 GB RAM und 1 TB NVMe kostet ca. 40–60 €/Monat und hostet dauerhaft ein 13B- oder quantisiertes 30B-Modell.
- Dedizierte GPU-Maschine: Eine eigene RTX 4090 in einem Miet-Server (z. B. Hetzner Auction) liegt bei 120–180 €/Monat und amortisiert sich ab ca. 25 % API-Auslastung.
Fazit: Bei weniger als 5 Millionen Tokens/Monat ist die API günstiger, darüber wird Self-Hosting wirtschaftlich attraktiv – und du gewinnst volle Datenhoheit.
Skalierung mit mehreren GPUs
Wenn ein einzelnes Modell nicht in den VRAM einer Karte passt, splittet Ollama die Layer automatisch über mehrere GPUs. Du kannst dies explizit über die Umgebungsvariable OLLAMA_NUM_GPU oder die num_gpu-Direktive im Modelfile steuern:
PARAMETER num_gpu 2
PARAMETER num_parallel 4
Für produktive Setups empfehlen wir, Ollama hinter einem Load-Balancer (z. B. Traefik) zu betreiben und mehrere Instanzen auf unterschiedlichen Ports lauschen zu lassen. Mit num_parallel bedienst du mehrere gleichzeitige Anfragen pro Modell und nutzt so die Multi-User-Fähigkeit optimal aus. Auf einem 2× A100-Node kannst du so problemlos 20–40 gleichzeitige Chat-Sessions bedienen.
FAQ – Häufige Fragen zum Ollama LLM Server
1. Welcher VPS eignet sich am besten für Ollama?
Für kleine Modelle reicht ein CPU-VPS mit 8+ vCPU und 16 GB RAM (z. B. netcup, Hetzner CX-Lineup). Für 13B–70B-Modelle brauchst du einen dedizierten Server oder GPU-Cloud-Instanz mit NVIDIA-GPU und mindestens 24 GB VRAM.
2. Ist Ollama kostenlos?
Ja, Ollama selbst ist Open Source (MIT-Lizenz). Du zahlst ausschließlich für deine Hardware bzw. deinen VPS. Die Modelle unterliegen den jeweiligen Lizenzen der Anbieter (z. B. Llama-Community-Lizenz, Apache 2.0 für Qwen).
3. Funktioniert Ollama auch auf einem Raspberry Pi oder Mini-PC?
Ja, mit Einschränkungen. Auf einem Raspberry Pi 5 (8 GB) lassen sich Phi-3 Mini oder Llama 3.2 1B in Q4 mit etwa 1–2 tokens/s betreiben. Für ernsthafte Arbeit empfehlen wir mindestens einen Mini-PC mit 32 GB RAM (z. B. Intel NUC, Beelink) und externe GPU via USB4/Thunderbolt.
4. Wie sicher ist die OpenAI-kompatible API?
Die eingebaute API hat standardmäßig keine Authentifizierung. Setze daher zwingend einen Reverse-Proxy mit Basic-Auth oder JWT davor, oder nutze WireGuard/Tailscale als privates Netz. Niemals Port 11434 direkt im Internet freigeben.
5. Welches Modell eignet sich am besten für deutsche Sprache?
Mistral 7B, Llama 3.3 70B, Qwen 2.5 und die deutschen Fine-Tunes von LeoLM (german-llama) liefern die natürlichsten deutschen Texte. Für rein geschäftliche Texte reicht Phi-3 Medium völlig aus.
6. Kann ich Ollama mit Docker betreiben?
Absolut. Das offizielle Image ollama/ollama unterstützt GPU-Passthrough mit --gpus all. Für ein kombiniertes Setup mit Open WebUI empfiehlt sich ein docker-compose-Setup – siehe unser entsprechender Guide.
7. Wie viel Strom verbraucht ein 24/7-Ollama-Server?
Eine RTX 4090 zieht unter Volllast ca. 350 W. Bei 24/7-Betrieb wären das ~290 kWh/Monat, also rund 90 € Stromkosten. Eine effizientere L40S oder A4000 senkt die Kosten auf 50–60 €.
8. Wie update ich Ollama und die Modelle?
Ollama aktualisierst du mit curl -fsSL https://ollama.com/install.sh | sh. Modelle ziehst du mit ollama pull neu – die alten Versionen werden automatisch ersetzt. Ein Cronjob mit ollama prune räumt nicht mehr benötigte Layer auf.
Fazit
Mit Ollama ist der Betrieb eigener KI-Modelle auf einem VPS 2026 so einfach geworden wie nie zuvor. Innerhalb weniger Minuten baust du dir eine private, datenschutzkonforme und jederzeit skalierbare LLM-Infrastruktur auf, die in puncto Antwortqualität mit kommerziellen APIs mithalten kann. Egal ob du mit Llama 3.3 70B Code-Reviews automatisierst, mit Qwen 2.5 Coder eine interne IDE unterstützt oder mit Phi-3 smarte Chatbots baust – die Kombination aus Ollama, Open WebUI und einem soliden Linux-VPS bildet das Fundament für jede moderne KI-Anwendung. Wer Wert auf Datenhoheit legt und die API-Kosten langfristig in den Griff bekommen will, kommt an Self-Hosting mit Ollama nicht vorbei.