Casa Islamica: Plataforma de aprendizaje potenciada por IA
Diseñé un pipeline automatizado de creación de cursos y un chatbot RAG con verificación de fuentes, respaldado por un sistema de observabilidad a la medida, para escalar la educación estructurada dirigida a conversos latinoamericanos.
Check it outContexto y rol
The Problem Space
La comunidad de conversos musulmanes en Latinoamérica enfrenta una tasa de abandono del 60 % en los primeros 90 días, impulsada por la sobrecarga de información y las barreras culturales.
The Users
Conversos hispanohablantes y lusohablantes que necesitan formación teológica profunda, culturalmente contextualizada y accesible desde dispositivos móviles.
Business Context
Una iniciativa de dawah (sin ánimo de lucro) con un presupuesto operativo de $0.
My Role
Creador único del proyecto. Primera experiencia construyendo un producto de IA de punta a punta. Asumí la estrategia de producto, el desarrollo frontend completo y el diseño de toda la orquestación de IA en n8n, incluidas las bases de datos de telemetría. Lideré la investigación de mercado y los estudios de usuario mediante encuestas y prompts de IA estructurados. Produje los entregables de producto esenciales: visión de producto, PRD, estrategia de IA, métricas de éxito, indicador norte (North Star), etc.
Problema e hipótesis
User Pain
Los conversos enfrentan una parálisis de «por dónde empezar» y una fuerte ansiedad por desinformación. Las IA de propósito general inventan dictamenes religiosos, y YouTube carece de estructura, dejando a los usuarios expuestos a una enorme brecha de confianza.
Product Pain
La creación manual de cursos es demasiado lenta, costosa (presupuesto de $0) e ineficiente, y la IA conversacional es notoriamente difícil de evaluar en términos de precisión en dominios sensibles.
Hypothesis
Nuestra hipótesis era que al combinar un frontend de micro-aprendizaje estructurado, un pipeline de generación de cursos totalmente automatizado y un chatbot RAG con verificación de fuentes (monitoreado por telemetría profunda), junto con guías prácticas y recursos de orientación, reduciríamos la sobrecarga cognitiva, fortaleceríamos la confianza y mejoraríamos significativamente la retención a 30 días.
Mi enfoque y proceso
Investigación de usuarios y definición del problema
- ◆ La investigación reveló que la deserción no se debía a falta de interés, sino a una intensa ansiedad por desinformación y barreras culturales.
- ◆ Definimos el alcance del MVP específicamente en torno a estos motores de retención, enfocándonos exclusivamente en resolver la brecha de confianza y la parálisis de «por dónde empezar» de los nuevos usuarios.
Marcos de decisión de IA y compromisos técnicos
- ◆ Priorizé explícitamente una arquitectura RAG con verificación de fuentes por encima del fine-tuning para garantizar la trazabilidad de las fuentes. Configuré la IA para rechazar preguntas fuera de alcance, prefiriendo un «no sé» confiable a una respuesta improvisada.
- ◆ Con un presupuesto de $0, cada gasto en IA debía tratarse como un costo de infraestructura. Diseñé pipelines multi-modelo que asignan el modelo más económico y capaz a cada tarea cognitiva, reduciendo los costos de clasificación hasta en un 95 % sin sacrificar fidelidad.
Definición de objetivos y validación de funcionalidades
- ◆ Impulsé el crecimiento a través de nuestro indicador norte (Total de interacciones de aprendizaje), siempre emparejado con contramétricas como precisión académica y tasa de finalización de lecciones.
- ◆ Establecí umbrales de corte estrictos para todas las funcionalidades secundarias. Si una funcionalidad de comunidad o soporte no alcanza una tasa de clics predefinida hacia el contenido educativo, se desprioriza activamente.
Colaboración escalable y gestión de partes interesadas
- ◆ Involucré a teólogos y diseñé un modelo de colaboración en el que los pipelines de IA manejan el 100 % de la generación y extracción de contenido, mientras los teólogos actúan exclusivamente como capa de aseguramiento de calidad.
- ◆ En lugar de revisar cada interacción, los expertos evalúan una muestra mensual estructurada de respuestas de IA según una rúbrica estricta de 4 dimensiones (exactitud, completitud, claridad, eficiencia).
Solución y diseño de IA
El Frontend (la entrega)
Una PWA mobile-first con React/Vite, optimizada para las limitaciones de dispositivos en Latinoamérica. Promueve la formación de hábitos mediante gamificación (XP, rachas) y entrega micro-lecciones culturalmente relevantes adaptadas a la etapa del recorrido del usuario.
El pipeline de creación de cursos (el motor)
Un flujo de trabajo n8n completamente automatizado que ingesta PDFs y produce CSVs LMS bilingües. Asigné modelos específicos a cada tarea para optimizar la relación costo-rendimiento: Google Gemini 2.5 Flash para la clasificación de libros completos (aprovechando su ventana de contexto de 1M de tokens), Claude Haiku 4.5 para generación estructurada de alto volumen, y Claude Sonnet 4.5 exclusivamente para validación de fidelidad independiente.
El chatbot y la plataforma de observabilidad (la red de seguridad)
Una arquitectura RAG estrictamente anclada en textos islámicos seleccionados, con embedding semántico y reranker. Implementé una separación OLTP/OLAP deliberada: el chat del usuario reside en una tabla dedicada, mientras la telemetría RAG profunda (fragmentos recuperados, dimensiones de embedding, tiempos de búsqueda) se transmite de forma asíncrona a un almacén analítico para habilitar el seguimiento RLHF y las evaluaciones administrativas. Todo el ecosistema está conectado a Amplitude, Fivetran y Databricks.
Puesta en producción y experimentación
Ciclo de generación auto-reparable
La IA fabrica citas con frecuencia. Construí un control de fidelidad en dos pasos: Claude Sonnet verifica la lección generada contra el texto fuente. Si detecta citas inventadas, activa a Claude Haiku para ejecutar una reparación puntual (~$0.001 por corrección) en lugar de reprocesar el libro completo.
Resolución de la truncación de contexto
Al inicio, GPT-4o clasificaba mal los libros porque su ventana de contexto de 128K obligaba a muestrear solo el 75 % del texto. La migración a Gemini 2.5 Flash permitió procesar el 100 % del contenido, eliminando ese modo de fallo y reduciendo los costos de clasificación en un factor de 22 (de $0.22 a $0.01 por libro).
Interfaz de evaluación administrativa y RLHF
Desarrollé una interfaz de administración donde los expertos califican las respuestas del chatbot en 4 dimensiones (exactitud, completitud, claridad, eficiencia). Para construir un conjunto de datos RLHF de alta calidad, implementé el seguimiento de revision_count sobre la retroalimentación de usuarios, aislando las etiquetas de alta confiabilidad para el entrenamiento futuro del modelo de recompensa.
Observabilidad de costos
El consumo variable de tokens de API es un gasto difícil de controlar. Implementé un patrón de registro (_tkn) en todos los nodos n8n, que envía los conteos de tokens y los costos por modelo directamente a Google Sheets en cada ejecución, garantizando una disciplina presupuestaria estricta.
Resultados
20+ libros
procesados de punta a punta, generando miles de lecciones sin intervención manual
Menos de $5
costo total por libro para el pipeline automatizado completo
99 %+
tasa de precisión académica mantenida por el sistema RAG con verificación de fuentes
22x
reducción en costos de clasificación gracias a la migración a Gemini 2.5 Flash
95 %
reducción en costos de generación mediante la optimización del pipeline multi-modelo
Aprendizajes clave
Los esquemas analíticos evolucionan más rápido que los esquemas de producto. Separar las tablas OLTP (chat) de las tablas OLAP (telemetría RAG) fue la mejor decisión de arquitectura. Permitió experimentar rápidamente con tamaños de fragmentos y parámetros de búsqueda sin comprometer la estabilidad del historial de conversaciones.
La retroalimentación del usuario es un activo de entrenamiento, no un ticket de soporte. Implementar el seguimiento de revision_count me enseñó lo ruidosa que es la retroalimentación humana. Aislar las etiquetas de alta confiabilidad, no revisadas, transforma la calidad del conjunto de datos RLHF.
La IA es un producto, no magia. Hay que integrar validación en ciclo, reparaciones estructurales automatizadas y una separación explícita OLTP/OLAP para gestionar la retroalimentación de usuarios (RLHF) si se quiere que el producto realmente escale y mejore con el tiempo.
El dominio profundo del flujo de trabajo permite detectar fallas silenciosas. Sin una comprensión detallada de cada etapa y un monitoreo cuidadoso de cada salida, la IA dejará pasar contenido inventado sin generar ninguna alerta.