Architecture du système
Vue technique de l’infrastructure qui propulse l’écosystème Casa Islamica, au croisement de la data engineering et des applications utilisateur.
Moteur d’IA conversationnelle (v3.1)
Pipeline RAG (Retrieval-Augmented Generation) multi-étapes avec routing sémantique, fallback de précision sur source primaire et reranking Cohere.
- ◆ Réception de la requête via Webhook et initialisation de la gestion de session.
- ◆ Le Query Rewriter LLM traduit et enrichit sémantiquement les termes de recherche.
- ◆ Détecteur de correspondance exacte par regex déclenche le routing spécialisé.
- ◆ Application de filtres de dimension dynamiques (ex. Cadre juridique, Théologie, Philosophie).
- ◆ Recherche parallèle dans Pinecone et lookup direct sur l’index des manuscrits primaires.
- ◆ Le Reranker Cohere optimise les Top K résultats pour la précision contextuelle.
- ◆ Formatage du contexte récupéré selon la hiérarchie de sources par tier.
- ◆ Injection du buffer mémoire LangChain pour le contexte des conversations multi-tours.
- ◆ GPT-4o génère la réponse en respectant des guardrails stricts par domaine.
- ◆ Retourne le payload à l’interface utilisateur.
- ◆ Enregistre les métriques de récupération (F1, Précision) dans Google Sheets.
- ◆ Pousse les données d’interaction vers Supabase et déclenche les notifications Slack.
Classification automatisée du corpus (v3)
Système de traitement par lots pour ingérer des PDF bruts, extraire le texte et appliquer un étiquetage de métadonnées par LLM en vue de la vectorisation.
Itère sur les PDF bruts dans Google Drive. Télécharge les fichiers et exécute l’OCR/extraction de texte pour préparer les payloads de chaînes brutes.
Gemini 2.5 Flash analyse les textes complets pour déterminer la stratégie de chunking, le tier de source, les tags de catégorie et les patterns regex structurels.
Parse l’output JSON, le formate dans un schéma standardisé, ajoute les métadonnées structurées au répo central et envoie les alertes de finalisation.
Système d’observabilité et d’évaluation
Architecture à 4 couches conçue pour une IA exigeant une haute précision. Sépare l’infrastructure transactionnelle du chat de la télémétrie analytique, et convertit les évaluations d’experts en dataset d’entraînement RLHF.
N8N écrit le contexte complet de récupération (18+ champs incluant les scores de reranking et les snippets) dans une table OLAP, permettant le diagnostic de cause racine entre échecs de génération et de récupération.
Le frontend React capture un feedback structuré. La distinction stricte entre ‘pas utile’ (échec UX) et ‘erreur’ (désinformation théologique) achemine les cas à haute sévérité vers une file prioritaire.
Panneau d’administration avec scoring isolé par administrateur. Utilise un rubric à 4 catégories où un score ternaire de ‘Correction’ conditionne automatiquement le verdict final, évitant les labels d’entraînement contradictoires.
Agrège les logs revués dans un dataset de 30 champs. Préserve les métadonnées de récupération, l’identité de l’annotateur et les détails complets du rubric pour entraîner de futurs reward models.
Logique d’orchestration
Exécution nœud par nœud, mappée directement depuis les couches d’orchestration n8n. Organisée par étape architecturale pour mettre en évidence les gates de décision, la gestion des contraintes et les mutations de données.