EdTech IA · B2C · Création de A à Z

Casa Islamica : Plateforme d’apprentissage propulsée par l’IA

Conception d’un pipeline automatisé de création de cours et d’un chatbot RAG à sources vérifiées, appuyé par un dispositif d’observabilité sur mesure, afin de déployer à grande échelle une offre éducative structurée pour les convertis latino-américains.

Check it out

Contexte et rôle

The Problem Space

The Users

Business Context

Une initiative de dawah (à but non lucratif) avec un budget opérationnel de 0 $.

My Role

Réalisateur unique du projet. Première expérience de conception d’un produit IA de bout en bout. J’ai assuré la stratégie produit, le développement frontend complet, et conçu l’ensemble de l’orchestration IA sous n8n ainsi que les bases de données de télémétrie. J’ai mené les études de marché et les recherches utilisateurs à l’aide d’enquêtes et de prompts IA structurés. J’ai produit les livrables produit essentiels : vision produit, PRD, stratégie IA, métriques de succès, indicateur phare (North Star), etc.

Problème et hypothèse

User Pain

Les convertis sont confrontés à une paralysie « par où commencer » et à une forte anxiété liée à la désinformation. Les IA généralistes inventent des avis religieux, et YouTube manque de structure, ce qui expose les utilisateurs à un important déficit de confiance.

Product Pain

La création manuelle de cours est trop longue, coûteuse (budget de 0 $) et lente, tandis que l’IA conversationnelle est notoirement difficile à évaluer en termes de fiabilité dans des domaines sensibles.

Hypothesis

Notre hypothèse était que la combinaison d’un frontend de micro-apprentissage structuré, d’un pipeline de génération de cours entièrement automatisé et d’un chatbot RAG à sources vérifiées (supervisé par une télémétrie approfondie), complétée par des guides pratiques et des ressources d’orientation, réduirait la surcharge cognitive, renforcerait la confiance et améliorerait significativement la rétention à 30 jours.

Approche et processus

Recherche utilisateur et définition du problème

◆ La recherche a révélé que l’attrition n’était pas liée à un manque d’intérêt, mais à une anxiété intense face à la désinformation et aux frictions culturelles.
◆ Nous avons cadré le MVP autour de ces leviers de rétention, en nous concentrant exclusivement sur la résolution du déficit de confiance et de la paralysie « par où commencer » des nouveaux utilisateurs.

Cadres de décision IA et arbitrages

◆ J’ai privilégié une architecture RAG à sources vérifiées plutôt que le fine-tuning, afin de garantir la traçabilité des sources. L’IA a été configurée pour refuser les questions hors périmètre, en préférant un « je ne sais pas » fiable à une réponse approximative.
◆ Avec un budget de 0 $, chaque dépense IA devait être traitée comme un coût d’infrastructure. J’ai conçu des pipelines multi-modèles qui affectent le modèle le plus économique et performant à chaque tâche cognitive, réduisant les coûts de classification jusqu’à 95 % sans perte de fidélité.

Définition des objectifs et validation des fonctionnalités

◆ J’ai piloté la croissance via notre indicateur phare (Total des interactions d’apprentissage), systématiquement couplé à des contre-métriques telles que la précision académique et le taux de complétion des leçons.
◆ J’ai défini des seuils d’arrêt stricts pour toutes les fonctionnalités secondaires. Si une fonctionnalité communautaire ou de support n’atteint pas un taux de clics prédéfini vers le contenu éducatif, elle est déprioritisée.

Collaboration évolutive et gestion des parties prenantes

◆ J’ai mobilisé des théologiens et conçu un modèle de collaboration dans lequel les pipelines IA assurent 100 % de la génération et de l’extraction de contenu, tandis que les théologiens interviennent uniquement comme couche d’assurance qualité.
◆ Plutôt que de réviser chaque interaction, les experts évaluent un échantillon mensuel structuré de réponses IA selon une grille stricte à 4 dimensions (exactitude, exhaustivité, clarté, efficacité).

Solution et conception IA

Le Frontend (la diffusion)

Une PWA mobile-first en React/Vite, optimisée pour les contraintes d’appareils en Amérique latine. Elle favorise l’ancrage d’habitudes via la gamification (XP, niveaux, podium, succes, etc.) et propose des micro-leçons culturellement adaptées au stade du parcours de l’utilisateur.

Le pipeline de création de cours (le moteur)

Un workflow n8n entièrement automatisé qui ingère des PDF et produit des CSV LMS bilingues. J’ai affecté des modèles spécifiques à chaque tâche pour optimiser le rapport coût/performance : Google Gemini 2.5 Flash pour la classification de livres entiers (grâce à sa fenêtre de contexte d’1 M de tokens), Claude Haiku 4.5 pour la génération structurée à grand volume, et Claude Sonnet 4.5 & 4 exclusivement pour la validation de fidélité indépendante.

Le chatbot et la plateforme d’observabilité (le filet de sécurité)

Une architecture RAG strictement ancrée dans des textes islamiques sélectionnés, avec embedding sémantique et reranker. J’ai imposé une séparation OLTP/OLAP : le chat utilisateur réside dans une table dédiée, tandis que la télémétrie RAG approfondie (fragments récupérés, dimensions d’embedding, temps de recherche) est transmise de manière asynchrone vers un entrepôt analytique pour permettre le suivi RLHF et les évaluations par les administrateurs. L’ensemble est également connecté à Amplitude, Fivetran et Databricks.

Mise en production et expérimentations

Boucle de génération auto-réparatrice

L’IA fabrique régulièrement des citations. J’ai mis en place un contrôle de fidélité en deux passes : Claude Sonnet vérifie la leçon générée par rapport au texte source. En cas de citation inventée, Claude Haiku exécute une réparation ciblée (environ 0,001 $ par correction) au lieu de retraiter l’intégralité du livre.

Résolution de la troncature de contexte

Au départ, GPT-4o classifiait mal certains livres car sa fenêtre de contexte de 128K imposait un échantillonnage limité à 75 % du texte. La migration vers Gemini 2.5 Flash a permis de traiter 100 % du contenu, éliminant ce mode de défaillance et réduisant les coûts de classification d’un facteur 22 (de 0,22 $ à 0,01 $ par livre).

Interface d’évaluation et RLHF

J’ai développé une interface d’administration où les experts évaluent les réponses du chatbot selon 4 dimensions (exactitude, exhaustivité, clarté, efficacité). Pour constituer un jeu de données RLHF de qualité, j’ai suivi le nombre de révisions (revision_count) sur les retours utilisateurs afin d’isoler les étiquettes à haute fiabilité pour l’entraînement du modèle de récompense.

Observabilité des coûts

La consommation variable de tokens est un poste de dépense difficile à maîtriser. J’ai mis en place un log systématique (_tkn) sur l’ensemble des nœuds n8n, qui remonte les comptages de tokens et les tarifs par modèle directement dans Google Sheets à chaque exécution, garantissant une discipline budgétaire stricte.

Résultats

20+ livres

traités de bout en bout, générant des milliers de leçons sans intervention manuelle

Moins de 7 $

coût total par livre pour l’ensemble du pipeline automatisé

99 %+

taux de fiabilité académique maintenu par le système RAG à sources vérifiées

22x

réduction des coûts de classification grâce à la migration vers Gemini 2.5 Flash

95 %

réduction des coûts de génération grâce à l’optimisation du pipeline multi-modèle

Enseignements clés

Les schémas analytiques évoluent plus vite que les schémas produit. Séparer les tables OLTP (chat) des tables OLAP (télémétrie RAG) a été la meilleure décision d’architecture. Cela a permis d’expérimenter rapidement sur les tailles de fragments et les paramètres de recherche sans compromettre la stabilité de l’historique de conversation.

Le retour utilisateur est un actif d’entraînement, pas un ticket de support. La mise en place du suivi de revision_count m’a montré à quel point le feedback humain est bruité. Isoler les labels à haute fiabilité, non révisées, transforme la qualité du dataset de RLHF.

L’IA est un produit, pas un tour de magie. L’évaluation et l’observabilité sont clés, Il faut intégrer une validation en boucle, des réparations structurelles automatisées et une séparation explicite OLTP/OLAP pour gérer le feedback utilisateur (RLHF) si l’on veut que le produit progresse réellement dans le temps.

La maîtrise fine du workflow permet de détecter les défaillances silencieuses. Sans une compréhension approfondie de chaque étape et un suivi attentif de chaque sortie, l’IA laissera passer du contenu halluciné sans alerte.

Retour en haut