Ollama : le Guide Complet pour l'Installer sur Windows, Mac et Linux
Vous avez entendu parler des modèles IA open source — Mistral, LLaMA 3, Gemma — et vous voulez les faire tourner sur votre propre machine. Le problème : les installer manuellement est une opération complexe qui nécessite des compétences techniques avancées.
Ollama résout ce problème. C'est un outil open source qui permet d'installer, gérer et exécuter des modèles IA locaux en quelques commandes — sur Windows, Mac ou Linux — sans configuration complexe, sans Docker obligatoire, sans expertise en machine learning.
Dans ce guide complet, vous allez installer Ollama sur votre système, télécharger votre premier modèle IA, et comprendre comment le configurer pour une utilisation en entreprise.
Présentation
Qu'est-ce qu'Ollama ?
Ollama est un gestionnaire de modèles IA locaux. Il fait pour les modèles de langage ce que Docker fait pour les conteneurs applicatifs : il abstrait toute la complexité technique pour vous permettre de lancer une IA en une seule commande.
Ce qu'Ollama fait concrètement
- Télécharge et installe des modèles IA depuis une bibliothèque centralisée
- Optimise automatiquement les modèles pour votre matériel (CPU, GPU NVIDIA, GPU AMD, Apple Silicon)
- Expose une API locale compatible avec le format OpenAI — vos outils existants peuvent s'y connecter
- Gère plusieurs modèles simultanément avec une commutation rapide
- Fonctionne entièrement hors ligne une fois les modèles téléchargés
Pourquoi Ollama plutôt qu'une autre solution ?
Il existe d'autres gestionnaires de modèles locaux (LM Studio, llama.cpp, GPT4All). Ollama se distingue par sa simplicité d'installation, sa gestion native en ligne de commande, et son excellente compatibilité avec les outils tiers comme Open WebUI. C'est aujourd'hui la solution de référence pour déployer une IA locale en entreprise.
PrérequisPrérequis système
| Composant | Minimum | Recommandé |
|---|---|---|
| RAM | 8 Go | 16 Go ou plus |
| Stockage | 10 Go libres | 50 Go libres |
| OS | Windows 10, macOS 11, Ubuntu 20.04 | Versions récentes |
| GPU | Optionnel | NVIDIA (CUDA) ou Apple Silicon |
Installation sur Windows
Étape 1 — Télécharger Ollama
Rendez-vous sur ollama.com et cliquez sur "Download for Windows". Le fichier est un installateur standard .exe d'environ 50 Mo.
Étape 2 — Lancer l'installation
Double-cliquez sur le fichier téléchargé et suivez l'assistant d'installation. Ollama s'installe en quelques secondes et se lance automatiquement en arrière-plan — une icône apparaît dans la barre des tâches.
Étape 3 — Vérifier l'installation
Ouvrez un terminal Windows (PowerShell ou Invite de commandes) et tapez :
ollama --version
Vous devez voir le numéro de version affiché. Si oui, Ollama est installé et opérationnel.
Étape 4 — Télécharger votre premier modèle
ollama pull mistral
Ollama télécharge le modèle Mistral 7B (environ 4 Go) avec une barre de progression. Une fois terminé, testez immédiatement :
ollama run mistral
Une interface de chat apparaît directement dans le terminal. Tapez votre première question et appuyez sur Entrée. Pour quitter : tapez /bye.
Installation sur macOS
Étape 1 — Télécharger Ollama
Rendez-vous sur ollama.com et cliquez sur "Download for Mac". Le fichier est une application .dmg standard.
Étape 2 — Installer l'application
Ouvrez le fichier .dmg téléchargé, glissez l'application Ollama dans votre dossier Applications. Lancez Ollama depuis les Applications — une icône de lama apparaît dans la barre de menu en haut à droite.
Étape 3 — Vérifier et lancer un modèle
ollama --version ollama pull mistral ollama run mistral
Installation sur Linux (Ubuntu / Debian)
Méthode officielle — Script automatique (recommandé)
C'est la méthode la plus simple. Dans votre terminal :
curl -fsSL https://ollama.com/install.sh | sh
Ce script détecte automatiquement votre distribution, installe les dépendances, configure Ollama comme service système (démarrage automatique) et détecte votre GPU si disponible.
Vérifier l'installation
ollama --version systemctl status ollama
Le service doit afficher active (running).
Installation manuelle (Ubuntu)
# Téléchargement du binaire curl -L https://ollama.com/download/ollama-linux-amd64 -o ollama chmod +x ollama sudo mv ollama /usr/local/bin/ # Création du service systemd sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama sudo tee /etc/systemd/system/ollama.service > /dev/null <<EOF [Unit] Description=Ollama Service After=network-online.target [Service] ExecStart=/usr/local/bin/ollama serve User=ollama Group=ollama Restart=always RestartSec=3 [Install] WantedBy=default.target EOF sudo systemctl daemon-reload sudo systemctl enable ollama sudo systemctl start ollama
Support GPU NVIDIA sous Linux
# Vérifier que les drivers NVIDIA sont installés nvidia-smi # Si non installés — Ubuntu sudo apt install nvidia-driver-535 -y sudo reboot
Après redémarrage, relancez l'installation d'Ollama. Il détectera automatiquement le GPU.
Notre équipe installe et configure Ollama + Open WebUI sur votre infrastructure en moins de 48h, avec formation de vos équipes incluse.
Les modèles disponibles : lesquels choisir ?
Une fois Ollama installé, vous avez accès à une bibliothèque de modèles. Voici les plus pertinents pour une PME française :
Pour une utilisation quotidienne — rédaction, analyse, assistance
Mistral 7B — notre recommandation principale
ollama pull mistral
- Taille : ~4 Go · VRAM nécessaire : 8 Go
- Performances excellentes sur les tâches métier courantes
- Très bon niveau en français
- Développé par Mistral AI, entreprise française ✅
LLaMA 3 8B — alternative très performante
ollama pull llama3
- Taille : ~5 Go · VRAM nécessaire : 8-10 Go
- Légèrement supérieur à Mistral sur les tâches de raisonnement
- Bon niveau en français
Pour les machines moins puissantes
Gemma 2 2B — ultra léger
ollama pull gemma2:2b
- Taille : ~1.6 Go · VRAM nécessaire : 4 Go
- Idéal pour tester ou pour machines aux ressources limitées
Phi-3 Mini — compact et efficace
ollama pull phi3:mini
- Taille : ~2.3 Go · VRAM nécessaire : 4 Go
- Très bon pour les tâches d'analyse courtes
Pour les machines puissantes — 32 Go VRAM ou plus
Mixtral 8x7B
ollama pull mixtral
- Taille : ~26 Go · VRAM nécessaire : 32 Go
- Performances proches de GPT-4 sur de nombreuses tâches
LLaMA 3 70B
ollama pull llama3:70b
- Taille : ~40 Go · VRAM nécessaire : 48 Go
- Le plus performant des modèles open source disponibles localement
Commandes Ollama essentielles
# Lister les modèles installés ollama list # Télécharger un modèle ollama pull NOM_DU_MODELE # Lancer un chat dans le terminal ollama run NOM_DU_MODELE # Supprimer un modèle ollama rm NOM_DU_MODELE # Voir les modèles en cours d'exécution ollama ps # Arrêter un modèle en cours ollama stop NOM_DU_MODELE # Vérifier la version ollama --version
Configuration pour une utilisation en réseau
Par défaut, Ollama n'écoute que sur localhost — il n'est accessible que depuis la machine sur laquelle il est installé. Pour le rendre accessible depuis d'autres postes de votre réseau (notamment pour Open WebUI) :
Sur Linux — service systemd
sudo systemctl edit ollama.service
Dans l'éditeur qui s'ouvre, ajoutez :
[Service] Environment="OLLAMA_HOST=0.0.0.0"
sudo systemctl restart ollama
Sur Windows — PowerShell
$env:OLLAMA_HOST = "0.0.0.0" ollama serve
Sur macOS — Terminal
OLLAMA_HOST=0.0.0.0 ollama serve
Une fois configuré, Ollama est accessible depuis n'importe quel appareil de votre réseau à l'adresse :
http://ADRESSE_IP_DU_SERVEUR:11434
C'est cette adresse que vous utiliserez pour connecter Open WebUI à votre instance Ollama.
IntégrationUtiliser l'API Ollama
Ollama expose une API REST locale compatible avec le format OpenAI. Vous pouvez l'intégrer à vos outils existants, vos scripts Python, ou vos applications internes.
Test simple avec curl
curl http://localhost:11434/api/generate -d '{
"model": "mistral",
"prompt": "Résume les avantages de l'\''IA locale pour une PME en 3 points.",
"stream": false
}'
Intégration Python
import requests
response = requests.post('http://localhost:11434/api/generate', json={
'model': 'mistral',
'prompt': 'Rédige un email de relance commercial professionnel.',
'stream': False
})
print(response.json()['response'])
Compatibilité OpenAI — bibliothèque officielle Python
from openai import OpenAI
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama' # valeur quelconque, non vérifiée
)
response = client.chat.completions.create(
model='mistral',
messages=[{'role': 'user', 'content': 'Bonjour, comment puis-je vous aider ?'}]
)
print(response.choices[0].message.content)
Résolution des problèmes courants
Ollama ne démarre pas après installation
Vérifiez que le service est bien lancé. Sous Linux : systemctl status ollama. Sous Windows : cherchez l'icône Ollama dans la barre des tâches — si absente, relancez l'application manuellement.
Le téléchargement d'un modèle échoue
Vérifiez votre connexion internet et l'espace disque disponible. Si le téléchargement s'interrompt, relancez simplement ollama pull NOM_DU_MODELE — Ollama reprend là où il s'est arrêté.
Les réponses sont très lentes
Votre machine utilise probablement uniquement le CPU. Vérifiez qu'Ollama détecte bien votre GPU avec ollama run mistral — la première ligne doit indiquer le GPU utilisé. Si vous voyez CPU only, vérifiez l'installation de vos drivers GPU.
Erreur "model not found"
Le modèle n'est pas installé localement. Lancez ollama pull NOM_DU_MODELE avant d'utiliser ollama run.
Ollama n'est pas accessible depuis le réseau
Vérifiez que vous avez bien configuré OLLAMA_HOST=0.0.0.0 et que le port 11434 n'est pas bloqué par votre pare-feu.
FAQQuestions fréquentes
Oui. Ollama est open source sous licence MIT. Vous pouvez l'utiliser dans un contexte commercial sans frais de licence. Les modèles ont leurs propres licences — généralement permissives pour Mistral et LLaMA 3 pour l'usage commercial. Consultez le dépôt GitHub officiel d'Ollama pour les détails.
Oui, une fois les modèles téléchargés. Le téléchargement initial nécessite internet, mais ensuite tout fonctionne entièrement hors ligne. Idéal pour les environnements sécurisés ou les réseaux sans accès internet externe.
Oui, Ollama gère plusieurs modèles en parallèle. La limite pratique est votre RAM disponible — chaque modèle actif occupe sa portion de RAM. Sur 32 Go, vous pouvez par exemple faire tourner Mistral 7B et Gemma 2 simultanément.
Sur Windows et macOS, téléchargez simplement la nouvelle version depuis ollama.com et relancez l'installation — elle remplace l'ancienne. Sur Linux : curl -fsSL https://ollama.com/install.sh | sh — le script gère la mise à jour automatiquement.
LM Studio propose une interface graphique complète — plus accessible pour les non-techniciens, mais moins flexible pour une intégration serveur. Ollama est orienté ligne de commande et API — idéal pour une intégration avec Open WebUI ou des scripts automatisés. Pour un usage en PME avec serveur partagé, Ollama est notre recommandation.
Vous préférez une installation professionnelle clé en main ?
Notre équipe réalise le déploiement complet — Ollama, modèles, Open WebUI, configuration réseau, formation des équipes.
