RAG : Comment Interroger Vos Documents d'Entreprise avec l'IA
Imaginez pouvoir poser une question à votre IA et obtenir une réponse tirée directement de vos propres documents — vos contrats, vos procédures internes, vos fiches produits, votre base de connaissance RH. Pas une réponse générique issue d'internet. Une réponse précise, sourcée, extraite de ce que vous avez écrit vous-même.
C'est exactement ce que permet le RAG — Retrieval Augmented Generation. Et la bonne nouvelle : ça fonctionne en local, sans envoyer vos documents à ChatGPT, sans abonnement cloud, sans risque RGPD.
Dans ce guide, on vous explique ce qu'est le RAG concrètement, comment il fonctionne techniquement (sans jargon), et comment le mettre en place dans votre PME avec des outils open source gratuits.
Les bases
Qu'est-ce que le RAG, concrètement ?
Le RAG, c'est une technique qui permet de connecter un modèle de langage (comme Mistral ou LLaMA) à une base de documents externe, pour qu'il puisse répondre à des questions en s'appuyant sur ces documents plutôt que sur ses seules connaissances d'entraînement.
Sans RAG, votre IA locale sait plein de choses — mais elle ne connaît pas votre entreprise. Elle ne sait pas ce que dit votre contrat fournisseur signé en janvier, elle ne connaît pas votre procédure de clôture mensuelle, elle ne peut pas répondre à "quelle est notre politique de remboursement pour les clients B2B".
Avec le RAG, elle le peut.
Le principe en trois étapes
Indexation
Vos documents sont découpés en petits morceaux et transformés en vecteurs mathématiques (des "embeddings") stockés dans une base de données vectorielle. Cette étape se fait une seule fois, puis se met à jour automatiquement quand vous ajoutez de nouveaux documents.
Recherche
Quand vous posez une question, le système cherche dans la base vectorielle les morceaux de documents les plus pertinents par rapport à votre question — par similarité sémantique, pas par mot-clé exact.
Génération
Ces morceaux pertinents sont transmis au modèle IA avec votre question, et le modèle formule une réponse en s'appuyant sur ces extraits. Il peut même citer ses sources — vous savez d'où vient la réponse.
Pourquoi le RAG est particulièrement adapté aux PME
Les grands modèles IA sont entraînés sur des milliards de pages web, mais ils ne connaissent pas votre secteur spécifique, vos produits, vos clients, vos process internes. Le fine-tuning (réentraîner le modèle sur vos données) est une option mais elle est coûteuse, technique, et nécessite d'être refaite à chaque mise à jour du modèle.
Le RAG est bien plus pragmatique pour une PME :
- Pas de réentraînement : ajoutez ou modifiez des documents, la base se met à jour sans toucher au modèle IA
- Coût minimal : les outils open source fonctionnent sur le même matériel que votre IA locale
- Résultats sourcés : le modèle indique de quel document provient la réponse — vous pouvez vérifier
- Données 100% locales : vos documents ne quittent jamais votre infrastructure
Cas d'usage concrets en PME
Le RAG transforme concrètement le quotidien dès les premiers jours de déploiement. Voici les usages les plus fréquents chez nos clients :
Base de connaissance RH
"Quelle est notre politique de télétravail ?" → l'IA répond en citant le règlement intérieur exact. Fini les emails à la DRH pour des questions récurrentes.
Assistance commerciale
"Quelles sont nos conditions de paiement export ?" → l'IA retrouve la clause dans vos CGV. Vos commerciaux gagnent du temps à chaque devis.
Support technique interne
"Comment relancer le service de facturation en cas de panne ?" → l'IA extrait la procédure exacte de votre documentation technique.
Analyse de contrats
"Ce contrat fournisseur contient-il une clause de révision de prix ?" → l'IA lit et analyse le document en quelques secondes.
Onboarding nouveaux employés
Un assistant IA qui répond à toutes les questions des nouveaux arrivants en s'appuyant sur vos propres guides internes.
Veille réglementaire
Importez vos textes de référence sectoriels. L'IA répond aux questions de conformité en citant les articles exacts.
On évalue vos documents, vos cas d'usage et on déploie une base de connaissance IA locale sur mesure.
Les outils open source pour faire du RAG local
Plusieurs solutions permettent de mettre en place un RAG 100% local. Voici celles que nous utilisons et recommandons.
Open WebUI — la solution la plus simple pour débuter
Si vous avez déjà installé Open WebUI, vous avez déjà accès à une fonctionnalité RAG basique : le téléchargement de documents dans une conversation. Vous glissez un PDF dans le chat, et le modèle répond à partir de son contenu.
C'est parfait pour tester le concept, mais limité pour un usage en équipe avec une grande base documentaire.
Ollama + Open WebUI + base vectorielle
Pour une vraie base de connaissance d'entreprise, la stack complète est :
- Ollama — fait tourner le modèle de langage en local
- Open WebUI — interface utilisateur et gestion des documents
- ChromaDB ou Qdrant — base de données vectorielle open source
- nomic-embed-text — modèle d'embedding léger qui tourne via Ollama
Cette combinaison permet de créer des "collections" de documents interrogeables par toute votre équipe, directement depuis l'interface Open WebUI.
AnythingLLM — la solution tout-en-un recommandée
AnythingLLM est probablement la solution la plus accessible pour une PME qui veut un RAG fonctionnel sans configuration technique avancée. C'est une application desktop ou serveur qui intègre nativement :
- La gestion de documents (PDF, Word, Excel, texte, sites web)
- La base vectorielle (LanceDB intégré)
- La connexion à Ollama ou tout autre modèle local
- Une interface multi-utilisateurs avec gestion des accès
Mettre en place un RAG avec AnythingLLM — guide pas-à-pas
Prérequis
Avant de commencer, vous devez avoir Ollama installé et un modèle téléchargé (Mistral 7B recommandé). Si ce n'est pas encore fait, suivez notre guide d'installation Ollama.
Étape 1 — Installer AnythingLLM
Téléchargez AnythingLLM Desktop sur anythingllm.com — disponible pour Windows, Mac et Linux. L'installation est standard, aucune dépendance particulière requise.
Étape 2 — Connecter Ollama
Au premier lancement, AnythingLLM vous demande de choisir votre fournisseur de modèle. Sélectionnez Ollama, renseignez l'adresse http://localhost:11434 et choisissez votre modèle (ex: mistral).
Pour les embeddings, sélectionnez également Ollama avec le modèle nomic-embed-text. Si ce modèle n'est pas encore téléchargé, ouvrez un terminal et lancez :
ollama pull nomic-embed-text
Étape 3 — Créer un workspace documentaire
Dans AnythingLLM, un "workspace" est un espace de travail dédié avec sa propre base documentaire. Créez un workspace par thématique : un pour les RH, un pour les procédures techniques, un pour les contrats commerciaux, etc.
Étape 4 — Importer vos documents
Glissez-déposez vos documents dans le workspace. AnythingLLM accepte :
- PDF (contrats, procédures, fiches produits)
- Word (.docx)
- Excel (.xlsx) — les données tabulaires sont indexées
- Fichiers texte (.txt, .md)
- Liens vers des pages web (scraping automatique)
L'indexation est automatique. Selon le volume de documents, comptez quelques secondes à quelques minutes.
Étape 5 — Activer le mode RAG et tester
Activez le mode "Query" (RAG) dans les paramètres du workspace — par opposition au mode "Chat" standard. Posez ensuite une question précise qui nécessite une information contenue dans vos documents. AnythingLLM affiche les sources utilisées pour construire la réponse.
Limites du RAG à connaître
Le RAG est puissant mais pas magique. Voici les limites à anticiper pour ne pas avoir de mauvaises surprises.
- La "hallucination" n'est pas totalement éliminée. Le modèle peut parfois mélanger des informations issues de ses données d'entraînement avec celles de vos documents. Vérifiez toujours les réponses sur des sujets critiques en consultant la source citée.
- La qualité des embeddings dépend du modèle choisi.
nomic-embed-textest un bon compromis, maismxbai-embed-largedonne de meilleurs résultats sur des documents complexes ou très techniques. - Les documents très longs sont moins bien gérés. Pour les très gros documents, privilégiez un découpage manuel en sections logiques avant l'import.
- Le RAG ne remplace pas la recherche full-text. Pour retrouver un document précis dont vous connaissez le nom ou une date exacte, la recherche traditionnelle reste plus fiable. Le RAG excelle pour les questions sémantiques.
RAG local vs RAG cloud : pourquoi l'approche locale gagne
Des solutions cloud comme NotebookLM (Google) ou ChatGPT avec upload de fichiers proposent des fonctionnalités RAG accessibles. Mais pour une PME française, l'approche locale a des avantages décisifs :
| RAG local | RAG cloud | |
|---|---|---|
| Données hébergées | Sur votre serveur | Chez Google/OpenAI |
| Conformité RGPD | ✅ Totale | ⚠️ Risques Cloud Act |
| Coût mensuel | 0€ (matériel amorti) | Abonnement récurrent |
| Accès hors ligne | ✅ Oui | ❌ Non |
| Personnalisation | ✅ Complète | Limitée |
| Documents sensibles | ✅ Sûrs | ⚠️ Exposition aux tiers |
Questions fréquentes
Avec AnythingLLM et LanceDB, il n'y a pas de limite stricte. Des bases de plusieurs milliers de documents fonctionnent très bien. La contrainte est plutôt le stockage disque et la RAM pour les embeddings — mais avec 16 Go de RAM et un SSD de 256 Go, vous pouvez indexer des dizaines de milliers de pages.
Oui, parfaitement — à condition d'utiliser un modèle de langage performant en français (Mistral 7B est excellent, LLaMA 3 aussi) et un modèle d'embedding multilingue. nomic-embed-text supporte le français correctement.
AnythingLLM permet de connecter certaines sources externes (GitHub, sites web, Google Drive en mode Pro). Pour SharePoint ou des dossiers réseau Windows, des connecteurs spécifiques sont nécessaires — c'est le type d'intégration que SovreAI met en place dans le cadre de son offre d'installation sur serveur.
Non. Les embeddings sont indépendants du modèle de langage. Si vous changez de modèle (ex: passer de Mistral 7B à LLaMA 3 8B), vos documents restent indexés. En revanche, si vous changez de modèle d'embedding, il faut réindexer.
Le fine-tuning consiste à réentraîner le modèle lui-même sur vos données — une opération lourde, coûteuse, et à refaire à chaque mise à jour. Le RAG n'entraîne rien : il donne au modèle l'accès à vos documents au moment de la réponse. Pour 99% des PME, le RAG est la bonne approche.
Prêt à interroger vos documents avec l'IA ?
Notre audit gratuit inclut une analyse de vos documents, un choix d'outils adapté à votre infrastructure, et un accompagnement au déploiement.
