Offline-KI auf Linux Mint in einer VM erstellen

Prompt:
erstelle mir eine Schritt-für-Schritt-Anleitung, wie ich eine KI offline betreiben kann. Linux Mint in einer virtuellen Maschine, 32 GB RAM

Hier ist eine praxisnahe Schritt-für-Schritt-Anleitung, wie du eine KI komplett offline auf Linux Mint in einer virtuellen Maschine (32 GB RAM) betreiben kannst.

Ich gehe von folgendem Setup aus:

  • Host mit genügend CPU-Kernen
  • VM mit Linux Mint (64-bit)
  • 32 GB RAM der VM zugewiesen
  • Optional: GPU-Passthrough (beschleunigt stark, aber nicht zwingend)

Ich zeige dir den stabilsten und einfachsten Weg mit Ollama + einem lokal gespeicherten Modell wie Llama 3.


🔧 Teil 1 – VM richtig konfigurieren

1️⃣ VM-Einstellungen

In deiner Virtualisierungssoftware (z. B. VirtualBox oder VMware):

  • RAM: 32 GB zuweisen
  • CPU: mindestens 8 Kerne
  • Festplatte: 100 GB+ (Modelle brauchen viel Platz)
  • Grafik: Wenn möglich, GPU-Passthrough aktivieren

Ohne GPU läuft alles über CPU – mit 32 GB RAM ist das aber machbar.


🖥 Teil 2 – Linux Mint vorbereiten

Öffne Terminal:

sudo apt update && sudo apt upgrade -y
sudo apt install curl git build-essential -y

Optional (sehr empfohlen):

sudo apt install htop nvtop -y

🤖 Teil 3 – Ollama installieren

Ollama ist aktuell der einfachste Weg, große Sprachmodelle lokal zu betreiben.

Installation:

curl -fsSL https://ollama.com/install.sh | sh

Test:

ollama --version

📦 Teil 4 – Modell herunterladen (einmalig mit Internet)

Beispiel: Llama 3

ollama pull llama3

Oder kleinere Variante (empfohlen für VM):

ollama pull llama3:8b

Nach dem Download kannst du Internet komplett deaktivieren – das Modell ist lokal gespeichert.

Speicherort prüfen:

~/.ollama/models

🔌 Teil 5 – Offline-Modus nutzen

Jetzt kannst du:

  • Netzwerkadapter der VM deaktivieren
  • Firewall aktivieren
  • LAN trennen

Test:

ollama run llama3

Wenn Text generiert wird → läuft 100 % offline.


🧠 Alternative leistungsfähigere Modelle

Mit 32 GB RAM kannst du auch betreiben:

  • Mistral 7B
  • Mixtral 8x7B (quantisiert)
  • DeepSeek (kleinere Versionen)

Für CPU-VM empfehle ich quantisierte Modelle (Q4 oder Q5).


⚡ Performance optimieren

Mehr Threads nutzen:

OLLAMA_NUM_THREADS=8 ollama run llama3

RAM-Limit prüfen:

free -h

Swap erhöhen (optional):

sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

🖥 Optional: Web-Interface installieren

Für ChatGPT-ähnliche Oberfläche:

Open WebUI (läuft lokal)

Projekt: Open WebUI

Installation via Docker:

sudo apt install docker.io -y
sudo docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Dann im Browser:

http://localhost:3000

🔐 Sicherheit: Wirklich offline betreiben

Wenn du maximale Isolation willst:

  • VM ohne Netzwerkadapter starten
  • Host-Only deaktivieren
  • Keine Shared Folders
  • Kein Clipboard-Sharing
  • Keine USB-Durchleitung

Dann ist es technisch komplett isoliert.


📊 Was läuft realistisch mit 32 GB RAM?

ModellgrößeLäuft auf CPUGeschwindigkeit
7B Q4Sehr gutSchnell
8B Q4Sehr gutGut
13B Q4MöglichMittel
70BNicht sinnvoll ohne GPU

🚀 Wenn du es professioneller willst

Statt Ollama kannst du direkt verwenden:

  • llama.cpp (maximale Kontrolle)
  • KoboldCpp
  • LM Studio

🎯 Zusammenfassung

Mit:

  • Linux Mint VM
  • 32 GB RAM
  • Ollama
  • quantisiertem 7B/8B Modell

→ kannst du problemlos eine vollständig offline KI betreiben.


Hier ist eine praxisnahe Schritt-für-Schritt-Anleitung, wie du eine KI komplett offline auf Linux Mint in einer virtuellen Maschine (32 GB RAM) betreiben kannst.

Ich gehe von folgendem Setup aus:

  • Host mit genügend CPU-Kernen
  • VM mit Linux Mint (64-bit)
  • 32 GB RAM der VM zugewiesen
  • Optional: GPU-Passthrough (beschleunigt stark, aber nicht zwingend)

Ich zeige dir den stabilsten und einfachsten Weg mit Ollama + einem lokal gespeicherten Modell wie Llama 3.


🔧 Teil 1 – VM richtig konfigurieren

1️⃣ VM-Einstellungen

In deiner Virtualisierungssoftware (z. B. VirtualBox oder VMware):

  • RAM: 32 GB zuweisen
  • CPU: mindestens 8 Kerne
  • Festplatte: 100 GB+ (Modelle brauchen viel Platz)
  • Grafik: Wenn möglich, GPU-Passthrough aktivieren

Ohne GPU läuft alles über CPU – mit 32 GB RAM ist das aber machbar.


🖥 Teil 2 – Linux Mint vorbereiten

Öffne Terminal:

sudo apt update && sudo apt upgrade -y
sudo apt install curl git build-essential -y

Optional (sehr empfohlen):

sudo apt install htop nvtop -y

🤖 Teil 3 – Ollama installieren

Ollama ist aktuell der einfachste Weg, große Sprachmodelle lokal zu betreiben.

Installation:

curl -fsSL https://ollama.com/install.sh | sh

Test:

ollama --version

📦 Teil 4 – Modell herunterladen (einmalig mit Internet)

Beispiel: Llama 3

ollama pull llama3

Oder kleinere Variante (empfohlen für VM):

ollama pull llama3:8b

Nach dem Download kannst du Internet komplett deaktivieren – das Modell ist lokal gespeichert.

Speicherort prüfen:

~/.ollama/models

🔌 Teil 5 – Offline-Modus nutzen

Jetzt kannst du:

  • Netzwerkadapter der VM deaktivieren
  • Firewall aktivieren
  • LAN trennen

Test:

ollama run llama3

Wenn Text generiert wird → läuft 100 % offline.


🧠 Alternative leistungsfähigere Modelle

Mit 32 GB RAM kannst du auch betreiben:

  • Mistral 7B
  • Mixtral 8x7B (quantisiert)
  • DeepSeek (kleinere Versionen)

Für CPU-VM empfehle ich quantisierte Modelle (Q4 oder Q5).


⚡ Performance optimieren

Mehr Threads nutzen:

OLLAMA_NUM_THREADS=8 ollama run llama3

RAM-Limit prüfen:

free -h

Swap erhöhen (optional):

sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

🖥 Optional: Web-Interface installieren

Für ChatGPT-ähnliche Oberfläche:

Open WebUI (läuft lokal)

Projekt: Open WebUI

Installation via Docker:

sudo apt install docker.io -y
sudo docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main

Dann im Browser:

http://localhost:3000

🔐 Sicherheit: Wirklich offline betreiben

Wenn du maximale Isolation willst:

  • VM ohne Netzwerkadapter starten
  • Host-Only deaktivieren
  • Keine Shared Folders
  • Kein Clipboard-Sharing
  • Keine USB-Durchleitung

Dann ist es technisch komplett isoliert.


📊 Was läuft realistisch mit 32 GB RAM?

ModellgrößeLäuft auf CPUGeschwindigkeit
7B Q4Sehr gutSchnell
8B Q4Sehr gutGut
13B Q4MöglichMittel
70BNicht sinnvoll ohne GPU

🚀 Wenn du es professioneller willst

Statt Ollama kannst du direkt verwenden:

  • llama.cpp (maximale Kontrolle)
  • KoboldCpp
  • LM Studio

🎯 Zusammenfassung

Mit:

  • Linux Mint VM
  • 32 GB RAM
  • Ollama
  • quantisiertem 7B/8B Modell

→ kannst du problemlos eine vollständig offline KI betreiben.


Wenn du möchtest, kann ich dir als Nächstes:

  • 🔧 ein optimiertes Setup speziell für CPU-Only
  • 🎮 ein GPU-Passthrough-Setup
  • 🧠 eine KI mit Langzeitspeicher (RAG offline)
  • 🛡 eine maximal isolierte Air-Gap-Konfiguration

Was ist dein Ziel? Mehr Leistung, mehr Sicherheit oder mehr Funktionen?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Nach oben scrollen