Architecture du système

Vue technique de la factory automatisée de contenu EdTech. Ces pipelines ingèrent des PDF bruts et produisent des micro-cours bilingues, structurés et validés.

Content Factory 0-à-1

Génération et traduction automatisées

Une architecture LLM multi-agents et adversariale conçue pour transformer des textes académiques denses en micro-cours structurés — et résoudre la paralysie du « par où commencer ? ».

< $7

Coût par livre

30–90m

De bout en bout

1. Classification de livres

Gemini 2.5 Flash ingère l’intégralité du PDF (fenêtre de contexte 1M tokens) pour catégoriser les sources, définir les tags et établir la stratégie de chunking.

2. Génération adversariale

Claude Sonnet 4.5 génère les sections de cours, immédiatement critiquées par un prompt adversarial Sonnet 4. Les sections sous 4/5 déclenchent des corrections ciblées.

3. Structuration des données

Des regex déterministes élaguent les titres culturels inconsistants (en économisant des tokens), pendant que Claude restructure le contenu dans un schéma relationnel strict en 4 tables.

4. Traduction multi-agents

Arbitrage de coût par modèle : Haiku assure la traduction en masse, Sonnet 4 valide 4 dimensions de qualité, et Sonnet 4.5 corrige uniquement les lignes qui échouent au contrôle terminologique.

Sous le capot

Logique d’orchestration

Exécution nœud par nœud, mappée directement depuis les couches d’orchestration n8n. Mise en valeur des gates de qualité adversariaux, des fallbacks déterministes et du routing de modèles optimisé en coût.

Pipeline 1 : Génération de micro-apprentissage (v6.2)

111 nœuds · 4 pipelines séquentiels chaînés

Étape 1 : Génération de contenu

Itération des sections

Itère sur les sections découpées du PDF. Injecte le texte brut dans le prompt de génération.

Claude Sonnet 4.5

Génère les sections structurées de la leçon et des questions à choix multiple basées sur le texte source.

Étape 2 : Validation adversariale

Validateur de fidélité (Sonnet 4)

Un modèle indépendant critique le contenu généré en le confrontant au PDF source. La séparation des modèles évite les angles morts partagés.

Logique de routing de correction

IF score = 4 or 5 → PASSE À L’ÉTAPE SUIVANTE
IF score < 4 → DÉCLENCHE LA RÉPARATION

Un contenu éducatif ne peut pas juste « sembler correct ». ~20 % des sections nécessitent une correction automatisée.

Étape 3 : Nettoyage déterministe

Auto-correction structurelle

Des nœuds regex suppriment les titres honorifiques culturels pour standardiser le registre académique. Décision : traité par code plutôt que par LLM pour économiser des tokens et éliminer la latence.

Étape 4 : Sortie relationnelle

Génération du schéma

Produit 4 fichiers CSV distincts reflétant directement le schéma relationnel Supabase (Unités → Leçons → Parties → Questions).

Buffer HITL

Écriture dans Google Drive/Sheets. Gate de revue humaine obligatoire de 20-40 min avant import en base de production.

Pipeline 2 : Traduction multi-agents (v1.4)

Optimisation des coûts · EN vers ES (LATAM)

Architecture d’arbitrage de coût

Produire un espagnol LATAM culturellement juste et terminologiquement précis exige une grande rigueur — mais passer 400 lignes à Sonnet 4.5 coûte ~0,50 $/livre.

Solution : les modèles bon marché traitent le volume, les modèles performants réparent uniquement ce qui échoue. Coût réduit à $0.14/book.

Étape 1 : Traduction en masse

Claude 3 Haiku

Traduction de base rapide et bon marché des lignes CSV anglaises. Couvre parfaitement 80-90 % du contenu instructif standard.

Étape 2 : Gate à 4 dimensions

Gate de qualité Sonnet 4

Évalue la traduction de 1 à 5 sur quatre dimensions indépendantes : Ton, Précision, Résonance culturelle et Terminologie théologique.

Trigger de correction strict

IF ANY_DIMENSION < 3 → REPAIR

Décision produit : on ne fait pas la moyenne. Un 5/5 en grammaire avec 1/5 en théologie masque un échec terminologique critique.

Étape 3 : Correction ciblée

Claude Sonnet 4.5

N’intervient que sur les 10-20 % de lignes qui échouent au gate. Reçoit des instructions précises sur la dimension défaillante pour effectuer une correction structurelle ciblée sans réécrire toute la ligne.