Open WebUI RAG : Interrogez vos Documents avec votre IA Locale | SovreAI
🤖 Open WebUI 📄 RAG ✅ Guide 2026

Open WebUI RAG : Interrogez vos Documents avec votre IA Locale

✍️ Équipe SovreAI 📅 Mai 2026 🏷️ Open WebUI · RAG · IA Locale · Ollama ⏱ 10 min de lecture

Vous avez installé Ollama et Open WebUI — votre ChatGPT privé tourne sur votre serveur. Mais pour l'instant, votre IA répond uniquement depuis sa mémoire d'entraînement. Elle ne connaît pas vos contrats, vos procédures internes, vos fiches produits ni votre base de connaissance métier.

C'est là qu'intervient le RAG dans Open WebUI. En activant cette fonctionnalité, vous permettez à votre IA locale d'interroger directement vos documents — et de vous répondre avec des informations sourcées sur vos propres fichiers. Le tout sans envoyer un seul octet à l'extérieur.


Qu'est-ce que le RAG dans Open WebUI ?

Open WebUI dispose d'un moteur RAG natif qui vous permet d'uploader votre base documentaire d'entreprise et de faire en sorte que le modèle lise réellement depuis elle. Contrairement à une simple conversation avec un LLM, le RAG dans Open WebUI transforme votre IA en assistant qui connaît réellement vos documents.

Concrètement : vous uploadez vos PDF, Word, Excel ou pages web dans une base de connaissance Open WebUI. Quand vous posez une question, l'interface recherche automatiquement les passages pertinents dans vos documents, les injecte dans le contexte du modèle, et génère une réponse sourcée sur vos fichiers — avec citation des sources.

L'avantage clé : vous pouvez interroger vos documents techniques, manuels ou données privées sans envoyer un seul octet vers un cloud tiers. Tout reste sur votre serveur — vos contrats, vos données financières, vos procédures internes.

RAG dans Open WebUI vs autres solutions RAG

Open WebUI présente un avantage décisif pour les PME : c'est une solution tout-en-un. Le moteur RAG est intégré nativement — pas besoin de configurer LangChain, Chroma ou un pipeline complexe séparément. Vous gérez votre IA et vos bases documentaires depuis la même interface que vous utilisez déjà au quotidien.

Pour aller plus loin sur le concept, consultez notre guide complet sur le RAG pour entreprise.

Prérequis avant de configurer le RAG

  • Ollama installé avec au moins un modèle téléchargé (Mistral 7B ou LLaMA 3 recommandés) — voir notre guide d'installation Ollama
  • Open WebUI installé et accessible depuis votre navigateur — voir notre guide Open WebUI
  • Un modèle d'embedding — indispensable pour que le RAG fonctionne

Pourquoi le modèle d'embedding est crucial

Le modèle d'embedding est le composant qui transforme vos documents en vecteurs numériques — c'est lui qui permet la recherche sémantique dans votre base documentaire. Sans lui, pas de RAG. Il tourne en local sur votre serveur, comme votre modèle de langage principal.

Pour de meilleurs résultats — particulièrement en français — utilisez nomic-embed-text via Ollama. Il offre un meilleur support multilingue et de meilleures performances sur les grandes fenêtres de contexte que le modèle d'embedding par défaut d'Open WebUI.

Terminal — Télécharger le modèle d'embedding
ollama pull nomic-embed-text

Configuration du RAG dans Open WebUI

1

Accéder aux paramètres RAG

Dans Open WebUI, cliquez sur votre avatar en bas à gauche → Admin PanelSettingsDocuments. C'est ici que se configurent tous les paramètres RAG.

2

Configurer le modèle d'embedding

Dans Admin Panel → Settings → Documents :

⚙️ Paramètres à modifier

Embedding Model Engine→ sélectionnez Ollama
Embedding Model→ entrez nomic-embed-text (orthographe exacte)

Sauvegardez et attendez le chargement du modèle si ce n'est pas déjà fait.

3

Optimiser les paramètres de chunking

Le RAG fonctionne en découpant vos documents en chunks avant de les indexer. Les paramètres recommandés pour une PME française :

⚙️ Paramètres recommandés

Chunk Size1 500 tokens — compromis équilibré pour les documents métier
Chunk Overlap100 tokens — évite les coupures en milieu de phrase
Top K5 — nombre de passages récupérés par requête

Pour des documents longs comme des contrats ou des rapports, augmentez le Chunk Size à 3 000.

4

Activer la recherche hybride

La recherche hybride combine la recherche vectorielle (sens sémantique) avec BM25 (correspondance par mots-clés), avec un re-ranking via CrossEncoder. Elle offre une précision nettement supérieure — particulièrement utile quand vos documents contiennent des références précises (numéros de contrat, codes produits, noms propres).

Dans Settings → Documents, activez Hybrid Search.

5

Créer votre première base de connaissance

Dans la barre latérale gauche → Knowledge+ New Knowledge Base :

  • Donnez un nom à votre base (ex : "Procédures internes", "Catalogue produits")
  • Uploadez vos documents — PDF, Word, Excel, TXT, Markdown
  • Attendez l'indexation — quelques secondes à quelques minutes selon le volume

Votre base de connaissance est prête.

6

Utiliser le RAG dans vos conversations

Pour activer le RAG dans une conversation, tapez # dans le champ de message. Open WebUI affiche vos bases de connaissance disponibles — sélectionnez celle que vous voulez interroger. Le système récupère automatiquement les passages pertinents et les injecte dans le contexte du modèle.

Vous voulez déployer Open WebUI + RAG dans votre entreprise ?

Notre audit gratuit évalue votre infrastructure et vous propose une configuration adaptée en 30 minutes.

Audit gratuit →

Formats de documents supportés

Par défaut, Open WebUI RAG accepte tous les formats de fichiers courants. Les extensions autorisées sont configurables dans Admin Panel → Settings → Documents → General → Allowed File Extensions.

CatégorieFormatsPrécision
📄 Documents textePDF, Word (.docx), TXT, Markdown✅ Excellente
📊 Données structuréesExcel (.xlsx), CSV✅ Très bonne
🌐 WebURLs de pages web et d'intranets✅ Bonne
💻 Code.py, .js, .json et autres formats techniques✅ Excellente
🖼️ PDF scannésImages numérisées (OCR activable)🟡 Dépend résolution (300 DPI min.)
⚠️ PDF scannés : activez l'option Image Extraction from PDF using OCR dans les paramètres Documents. Indispensable si vos archives sont numérisées. La qualité de reconnaissance dépend de la résolution du scan — 300 DPI minimum recommandé.

Comment l'utiliser concrètement dans votre équipe

👥

Base de connaissance RH

Uploadez votre règlement intérieur, procédures d'onboarding, politique de congés. Vos collaborateurs posent leurs questions en langage naturel et obtiennent une réponse sourcée sur vos vrais documents.

💼

Assistant commercial produits

Chargez votre catalogue produits et fiches techniques. Vos commerciaux interrogent l'IA avant chaque rendez-vous et obtiennent les spécifications exactes depuis vos documents officiels.

⚖️

Base documentaire juridique

Indexez vos modèles de contrats, CGV, accords cadres. Vos équipes vérifient rapidement une clause spécifique. Tout reste sur votre serveur — aucune donnée contractuelle ne quitte votre infrastructure.

🔧

Support technique interne

Uploadez votre documentation technique et procédures de SAV. Vos techniciens obtiennent la procédure applicable sourced depuis votre propre documentation, pas depuis les connaissances générales du modèle.

Obtenir de meilleurs résultats

Structurez vos documents avant l'indexation

La qualité du RAG dépend directement de la qualité des documents indexés. Quelques règles simples :

  • Utilisez des titres clairs et hiérarchisés (H1, H2, H3) dans vos Word et PDF
  • Évitez les tableaux complexes avec des cellules fusionnées — ils sont mal interprétés
  • Découpez les très longs documents en fichiers thématiques plutôt qu'un seul fichier massif
  • Nommez vos fichiers de façon descriptive — le nom du fichier est utilisé comme contexte

Toujours utiliser les Knowledge Bases plutôt que les uploads directs

Un document uploadé directement dans un chat est utilisé uniquement pour cette conversation — il n'est pas réindexé si vous changez de modèle d'embedding. Une Knowledge Base est partageable, réindexable globalement, et accessible depuis toutes vos conversations via #. Pour un usage professionnel, utilisez toujours les Knowledge Bases.

Activez le KV Cache pour les documents longs

Pour les cas d'usage avec des documents longs ou des questions de suivi fréquentes, activez le KV Cache Optimization dans les paramètres avancés. Il améliore significativement les temps de réponse en mémorisant les calculs d'attention sur les documents déjà traités.

Les problèmes courants et leurs solutions

⚠️ Le modèle répond depuis sa mémoire générale plutôt que vos documents
Vérifiez que vous avez bien sélectionné la base de connaissance avec # avant d'envoyer votre message. Si le problème persiste, réindexez la base de connaissance depuis l'Admin Panel — le modèle d'embedding doit être cohérent entre l'indexation et la requête.
⚠️ Les réponses sont imprécises ou hors sujet
Diminuez le Chunk Size (essayez 800 tokens) et activez la recherche hybride. Lorsque les choses ne fonctionnent pas comme prévu — hallucinations ou informations pertinentes manquées — c'est souvent un problème de contexte, pas du modèle. Augmentez le Top K à 8 pour injecter plus de contexte.
⚠️ L'indexation des PDF est incomplète ou vide
Activez l'extraction OCR dans les paramètres Documents. Si vos PDF sont des scans, assurez-vous que la résolution est d'au moins 300 DPI. Pour les PDF avec beaucoup de mise en forme (colonnes, tableaux complexes), convertissez-les en texte brut avant indexation pour de meilleurs résultats.
⚠️ Le RAG est lent sur de gros volumes documentaires
Réduisez le Top K à 3, activez le KV Cache, et envisagez un GPU pour accélérer le traitement des embeddings. Sur un Mac Mini M4, le RAG sur une base de 500 documents répond en 3 à 8 secondes — acceptable pour un usage professionnel quotidien.

Questions fréquentes — Open WebUI RAG

Non — c'est précisément l'avantage. Une fois Ollama, Open WebUI et le modèle d'embedding installés, tout fonctionne hors ligne. Vos documents restent sur votre serveur, les requêtes ne transitent jamais par internet. C'est la configuration idéale pour les entreprises qui travaillent avec des données sensibles ou qui ont des contraintes de réseau.

Par défaut, la taille maximale des fichiers et le nombre de fichiers uploadés sont illimités dans Open WebUI — ces limites sont configurables dans Admin Panel → Settings → Documents → General. En pratique, les performances restent bonnes jusqu'à plusieurs centaines de documents sur un Mac Mini M4. Au-delà de 1 000 documents, un GPU améliore significativement les temps de réponse.

Oui. Open WebUI supporte le multi-utilisateur avec un contrôle d'accès basé sur les rôles (RBAC). Une petite équipe peut partager une seule installation avec une séparation correcte des permissions. Vous pouvez créer des bases de connaissance accessibles à toute l'équipe ou réservées à certains utilisateurs — utile pour compartimenter les données sensibles selon les services.

Un document uploadé directement dans un chat est utilisé uniquement pour cette conversation — il n'est pas réindexé si vous changez de modèle d'embedding, et il n'est pas partageable avec l'équipe. Une Knowledge Base est partageable, réindexable globalement, et accessible depuis toutes vos conversations via #. Pour un usage professionnel, utilisez toujours les Knowledge Bases.

Mistral 7B est notre recommandation principale pour le français — développé par une équipe française, il excelle sur la langue française et fonctionne bien sur un Mac Mini M4 ou équivalent. LLaMA 3 8B est une alternative solide pour les tâches plus complexes. Pour l'embedding, nomic-embed-text offre un excellent support multilingue dont le français.

Votre IA locale connaît enfin vos documents

Notre équipe installe et configure Open WebUI + RAG sur votre infrastructure en une journée. Vos documents restent chez vous, vos équipes gagnent du temps dès le lendemain.