Menu

Base de données vectorielle : Qu'est-ce qu'une vector database ?

6 min de lecture Mis à jour le 05 Avr 2026

Définition

Une base de données vectorielle est un système de stockage optimisé pour les embeddings — des représentations numériques du sens des données. Elle permet la recherche sémantique par similarité et constitue le socle technique du RAG (Retrieval-Augmented Generation).

Qu'est-ce qu'une base de données vectorielle ?

Une base de données vectorielle (vector database) est un système de gestion de données spécialement conçu pour stocker, indexer et interroger des vecteurs de haute dimension, appelés embeddings. Un embedding est une représentation numérique d'un contenu (texte, image, audio) sous forme de vecteur de centaines à milliers de dimensions, où la proximité géométrique entre deux vecteurs reflète la similarité sémantique de leurs contenus d'origine.

Contrairement aux bases de données relationnelles classiques qui recherchent par correspondance exacte (SQL WHERE), les bases de données vectorielles recherchent par similarité : elles retrouvent les vecteurs les plus proches d'un vecteur de requête donné, une opération appelée « recherche du plus proche voisin » (nearest neighbor search). Cette capacité permet des recherches sémantiques où la question « comment réduire mes coûts » trouve des documents parlant d'« optimisation budgétaire » même si aucun mot n'est commun.

Les bases de données vectorielles sont devenues un composant critique de l'écosystème IA avec l'émergence du RAG (Retrieval-Augmented Generation). Dans une architecture RAG, les documents d'entreprise sont transformés en embeddings et stockés dans une base vectorielle. Quand un utilisateur pose une question, celle-ci est également transformée en embedding, et la base retrouve les documents les plus pertinents pour enrichir le contexte du LLM. Pour les entreprises belges et européennes, cette technologie permet de créer des assistants IA qui accèdent à la connaissance interne de l'organisation sans jamais envoyer l'intégralité des données à un fournisseur cloud.

Pourquoi les bases de données vectorielles sont importantes

Les bases de données vectorielles résolvent un problème fondamental de l'IA moderne : la recherche par le sens plutôt que par les mots.

  • Fondation du RAG : le RAG est devenu la méthode standard pour donner aux LLM l'accès à des données actualisées et spécifiques à l'entreprise. Sans base vectorielle performante, le RAG ne peut pas fonctionner efficacement.
  • Recherche sémantique : les recherches classiques par mots-clés échouent quand l'utilisateur ne connaît pas la terminologie exacte. La recherche vectorielle comprend l'intention et retrouve les résultats pertinents indépendamment du vocabulaire utilisé.
  • Multimodalité : les embeddings ne sont pas limités au texte. Des images, de l'audio et même du code peuvent être stockés et recherchés dans la même base vectorielle, permettant des recherches cross-modales.
  • Performance à l'échelle : les algorithmes d'indexation spécialisés (HNSW, IVF) permettent des recherches en millisecondes sur des millions voire des milliards de vecteurs, rendant la technologie viable pour des applications de production.
  • Souveraineté des données : les solutions auto-hébergées (pgvector, Chroma, Qdrant) permettent de garder les embeddings et les données associées entièrement on-premise, répondant aux exigences RGPD et de sécurité des entreprises européennes.

Comment ça fonctionne

Le fonctionnement d'une base vectorielle repose sur trois étapes clés : l'ingération, l'indexation et la recherche. Lors de l'ingération, les documents sont découpés en chunks (segments de quelques centaines de tokens), chaque chunk est transformé en embedding par un modèle spécialisé (comme BGE, E5 ou le modèle d'embedding d'OpenAI), puis le vecteur résultant est stocké avec ses métadonnées (source, date, catégorie).

L'indexation utilise des structures de données optimisées pour la recherche approximative du plus proche voisin (ANN). L'algorithme HNSW (Hierarchical Navigable Small World) construit un graphe multicouche permettant une navigation rapide vers les vecteurs les plus proches. L'algorithme IVF (Inverted File Index) partitionne l'espace vectoriel en régions, réduisant l'espace de recherche. La quantification (PQ, SQ) compresse les vecteurs pour réduire l'empreinte mémoire tout en conservant une bonne précision de recherche.

Lors de la recherche, le vecteur de requête est comparé aux vecteurs indexés en utilisant une métrique de distance : la similarité cosinus (angle entre les vecteurs), la distance euclidienne (distance géométrique) ou le produit scalaire. La base retourne les k vecteurs les plus proches avec leurs métadonnées et un score de similarité, permettant au système RAG de sélectionner les passages les plus pertinents pour enrichir le prompt du LLM.

Exemple concret

Chez KERN-IT, KERNLAB utilise les bases de données vectorielles comme composant central de ses solutions RAG. Pour l'assistant A.M.A, l'équipe a déployé pgvector (l'extension PostgreSQL pour les vecteurs) comme base vectorielle, un choix stratégique qui permet d'utiliser une seule base de données pour les données relationnelles et les embeddings, simplifiant l'infrastructure et la maintenance.

Un cas d'usage marquant : pour un client juridique, KERNLAB a indexé plusieurs milliers de documents légaux (contrats, jurisprudences, réglementations) dans une base pgvector. Le système de chunking intelligent découpe les documents en respectant la structure logique (articles, clauses, paragraphes) plutôt qu'en coupant arbitrairement à un nombre fixe de tokens. Les embeddings sont générés par un modèle BGE multilingue, permettant des recherches en français et en néerlandais. L'assistant IA peut ainsi répondre à des questions juridiques précises en citant les sources exactes, avec un temps de recherche inférieur à 200 ms sur l'ensemble du corpus.

Mise en œuvre

  1. Choisir la base vectorielle : pour les équipes utilisant déjà PostgreSQL, pgvector est le choix naturel (pas d'infrastructure supplémentaire). Pour des besoins spécialisés à grande échelle, évaluer Qdrant, Weaviate ou Pinecone.
  2. Sélectionner un modèle d'embedding : choisir un modèle adapté à la langue et au domaine. BGE-M3 et E5-Mistral excellent pour le multilingual, les modèles d'OpenAI et Cohere offrent de bonnes performances généralistes.
  3. Définir la stratégie de chunking : découper les documents en segments de 256 à 1024 tokens avec un chevauchement de 10-20 %. Adapter le découpage à la structure des documents (sections, paragraphes).
  4. Indexer et enrichir les métadonnées : stocker avec chaque embedding les métadonnées pertinentes (source, date, auteur, catégorie) pour permettre le filtrage hybride (vecteur + métadonnées).
  5. Optimiser la recherche : configurer les algorithmes d'indexation (HNSW avec les bons paramètres ef_construction et M), implémenter la recherche hybride (vecteur + BM25) pour combiner recherche sémantique et lexicale.
  6. Monitorer et réindexer : mettre en place un pipeline de mise à jour incrémentale pour les nouveaux documents et réindexer périodiquement pour maintenir la qualité de recherche.

Technologies et outils associés

  • Bases vectorielles dédiées : Pinecone (cloud managé), Qdrant (open source, Rust), Weaviate (open source, Go), Chroma (open source, Python), Milvus (open source, grande échelle)
  • Extensions de bases existantes : pgvector (PostgreSQL), Atlas Vector Search (MongoDB), Elasticsearch kNN — intégration vectorielle dans des bases déjà en place
  • Modèles d'embedding : BGE, E5, OpenAI text-embedding-3, Cohere embed-v3, Voyage AI pour la génération des vecteurs
  • Orchestrateurs RAG : LangChain, LlamaIndex, Haystack pour construire les pipelines RAG autour de la base vectorielle
  • Outils d'évaluation : RAGAS, LangSmith, Phoenix pour mesurer la qualité de la recherche vectorielle et du RAG

Conclusion

Les bases de données vectorielles sont la brique fondamentale qui permet aux LLM d'accéder aux connaissances spécifiques des entreprises via le RAG. KERN-IT, via KERNLAB, privilégie pgvector pour la majorité de ses déploiements, combinant la puissance de la recherche vectorielle avec la robustesse de PostgreSQL dans une infrastructure unifiée. Cette approche pragmatique permet aux entreprises belges et européennes de déployer des solutions RAG performantes tout en conservant la maîtrise de leurs données et en minimisant la complexité opérationnelle.

Conseil Pro

Pour la plupart des projets, pgvector suffit largement et évite la complexité d'une base vectorielle dédiée. Investissez plutôt dans la qualité du chunking et le choix du modèle d'embedding : ce sont ces deux facteurs qui impactent le plus la qualité de votre RAG.

Un projet en tête ?

Discutons de comment nous pouvons vous aider à concrétiser vos idées.