Prompt:
erstelle mir eine Schritt-für-Schritt-Anleitung, wie ich eine KI offline betreiben kann. Linux Mint in einer virtuellen Maschine, 32 GB RAM
Hier ist eine praxisnahe Schritt-für-Schritt-Anleitung, wie du eine KI komplett offline auf Linux Mint in einer virtuellen Maschine (32 GB RAM) betreiben kannst.
Ich gehe von folgendem Setup aus:
- Host mit genügend CPU-Kernen
- VM mit Linux Mint (64-bit)
- 32 GB RAM der VM zugewiesen
- Optional: GPU-Passthrough (beschleunigt stark, aber nicht zwingend)
Ich zeige dir den stabilsten und einfachsten Weg mit Ollama + einem lokal gespeicherten Modell wie Llama 3.
🔧 Teil 1 – VM richtig konfigurieren
1️⃣ VM-Einstellungen
In deiner Virtualisierungssoftware (z. B. VirtualBox oder VMware):
- RAM: 32 GB zuweisen
- CPU: mindestens 8 Kerne
- Festplatte: 100 GB+ (Modelle brauchen viel Platz)
- Grafik: Wenn möglich, GPU-Passthrough aktivieren
Ohne GPU läuft alles über CPU – mit 32 GB RAM ist das aber machbar.
🖥 Teil 2 – Linux Mint vorbereiten
Öffne Terminal:
sudo apt update && sudo apt upgrade -y
sudo apt install curl git build-essential -y
Optional (sehr empfohlen):
sudo apt install htop nvtop -y
🤖 Teil 3 – Ollama installieren
Ollama ist aktuell der einfachste Weg, große Sprachmodelle lokal zu betreiben.
Installation:
curl -fsSL https://ollama.com/install.sh | sh
Test:
ollama --version
📦 Teil 4 – Modell herunterladen (einmalig mit Internet)
Beispiel: Llama 3
ollama pull llama3
Oder kleinere Variante (empfohlen für VM):
ollama pull llama3:8b
Nach dem Download kannst du Internet komplett deaktivieren – das Modell ist lokal gespeichert.
Speicherort prüfen:
~/.ollama/models
🔌 Teil 5 – Offline-Modus nutzen
Jetzt kannst du:
- Netzwerkadapter der VM deaktivieren
- Firewall aktivieren
- LAN trennen
Test:
ollama run llama3
Wenn Text generiert wird → läuft 100 % offline.
🧠 Alternative leistungsfähigere Modelle
Mit 32 GB RAM kannst du auch betreiben:
- Mistral 7B
- Mixtral 8x7B (quantisiert)
- DeepSeek (kleinere Versionen)
Für CPU-VM empfehle ich quantisierte Modelle (Q4 oder Q5).
⚡ Performance optimieren
Mehr Threads nutzen:
OLLAMA_NUM_THREADS=8 ollama run llama3
RAM-Limit prüfen:
free -h
Swap erhöhen (optional):
sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
🖥 Optional: Web-Interface installieren
Für ChatGPT-ähnliche Oberfläche:
Open WebUI (läuft lokal)
Projekt: Open WebUI
Installation via Docker:
sudo apt install docker.io -y
sudo docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Dann im Browser:
http://localhost:3000
🔐 Sicherheit: Wirklich offline betreiben
Wenn du maximale Isolation willst:
- VM ohne Netzwerkadapter starten
- Host-Only deaktivieren
- Keine Shared Folders
- Kein Clipboard-Sharing
- Keine USB-Durchleitung
Dann ist es technisch komplett isoliert.
📊 Was läuft realistisch mit 32 GB RAM?
| Modellgröße | Läuft auf CPU | Geschwindigkeit |
|---|---|---|
| 7B Q4 | Sehr gut | Schnell |
| 8B Q4 | Sehr gut | Gut |
| 13B Q4 | Möglich | Mittel |
| 70B | Nicht sinnvoll ohne GPU |
🚀 Wenn du es professioneller willst
Statt Ollama kannst du direkt verwenden:
- llama.cpp (maximale Kontrolle)
- KoboldCpp
- LM Studio
🎯 Zusammenfassung
Mit:
- Linux Mint VM
- 32 GB RAM
- Ollama
- quantisiertem 7B/8B Modell
→ kannst du problemlos eine vollständig offline KI betreiben.
Hier ist eine praxisnahe Schritt-für-Schritt-Anleitung, wie du eine KI komplett offline auf Linux Mint in einer virtuellen Maschine (32 GB RAM) betreiben kannst.
Ich gehe von folgendem Setup aus:
- Host mit genügend CPU-Kernen
- VM mit Linux Mint (64-bit)
- 32 GB RAM der VM zugewiesen
- Optional: GPU-Passthrough (beschleunigt stark, aber nicht zwingend)
Ich zeige dir den stabilsten und einfachsten Weg mit Ollama + einem lokal gespeicherten Modell wie Llama 3.
🔧 Teil 1 – VM richtig konfigurieren
1️⃣ VM-Einstellungen
In deiner Virtualisierungssoftware (z. B. VirtualBox oder VMware):
- RAM: 32 GB zuweisen
- CPU: mindestens 8 Kerne
- Festplatte: 100 GB+ (Modelle brauchen viel Platz)
- Grafik: Wenn möglich, GPU-Passthrough aktivieren
Ohne GPU läuft alles über CPU – mit 32 GB RAM ist das aber machbar.
🖥 Teil 2 – Linux Mint vorbereiten
Öffne Terminal:
sudo apt update && sudo apt upgrade -y
sudo apt install curl git build-essential -y
Optional (sehr empfohlen):
sudo apt install htop nvtop -y
🤖 Teil 3 – Ollama installieren
Ollama ist aktuell der einfachste Weg, große Sprachmodelle lokal zu betreiben.
Installation:
curl -fsSL https://ollama.com/install.sh | sh
Test:
ollama --version
📦 Teil 4 – Modell herunterladen (einmalig mit Internet)
Beispiel: Llama 3
ollama pull llama3
Oder kleinere Variante (empfohlen für VM):
ollama pull llama3:8b
Nach dem Download kannst du Internet komplett deaktivieren – das Modell ist lokal gespeichert.
Speicherort prüfen:
~/.ollama/models
🔌 Teil 5 – Offline-Modus nutzen
Jetzt kannst du:
- Netzwerkadapter der VM deaktivieren
- Firewall aktivieren
- LAN trennen
Test:
ollama run llama3
Wenn Text generiert wird → läuft 100 % offline.
🧠 Alternative leistungsfähigere Modelle
Mit 32 GB RAM kannst du auch betreiben:
- Mistral 7B
- Mixtral 8x7B (quantisiert)
- DeepSeek (kleinere Versionen)
Für CPU-VM empfehle ich quantisierte Modelle (Q4 oder Q5).
⚡ Performance optimieren
Mehr Threads nutzen:
OLLAMA_NUM_THREADS=8 ollama run llama3
RAM-Limit prüfen:
free -h
Swap erhöhen (optional):
sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
🖥 Optional: Web-Interface installieren
Für ChatGPT-ähnliche Oberfläche:
Open WebUI (läuft lokal)
Projekt: Open WebUI
Installation via Docker:
sudo apt install docker.io -y
sudo docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Dann im Browser:
http://localhost:3000
🔐 Sicherheit: Wirklich offline betreiben
Wenn du maximale Isolation willst:
- VM ohne Netzwerkadapter starten
- Host-Only deaktivieren
- Keine Shared Folders
- Kein Clipboard-Sharing
- Keine USB-Durchleitung
Dann ist es technisch komplett isoliert.
📊 Was läuft realistisch mit 32 GB RAM?
| Modellgröße | Läuft auf CPU | Geschwindigkeit |
|---|---|---|
| 7B Q4 | Sehr gut | Schnell |
| 8B Q4 | Sehr gut | Gut |
| 13B Q4 | Möglich | Mittel |
| 70B | Nicht sinnvoll ohne GPU |
🚀 Wenn du es professioneller willst
Statt Ollama kannst du direkt verwenden:
- llama.cpp (maximale Kontrolle)
- KoboldCpp
- LM Studio
🎯 Zusammenfassung
Mit:
- Linux Mint VM
- 32 GB RAM
- Ollama
- quantisiertem 7B/8B Modell
→ kannst du problemlos eine vollständig offline KI betreiben.
Wenn du möchtest, kann ich dir als Nächstes:
- 🔧 ein optimiertes Setup speziell für CPU-Only
- 🎮 ein GPU-Passthrough-Setup
- 🧠 eine KI mit Langzeitspeicher (RAG offline)
- 🛡 eine maximal isolierte Air-Gap-Konfiguration
Was ist dein Ziel? Mehr Leistung, mehr Sicherheit oder mehr Funktionen?
