SCORM → RAG

Convierte cursos SCORM muertos en una base de conocimiento viva

Tu empresa tiene cientos de paquetes SCORM acumulando polvo en un LMS. Dentro de ellos está exactamente el conocimiento de dominio que necesita tu pipeline RAG: procedimientos de formación, normas de cumplimiento, especificaciones de productos. ScormParser los abre y te entrega contenido estructurado listo para embeddings. Sin trabajo manual. Una sola llamada a la API.

Por qué los paquetes SCORM son minas de oro para RAG

Las bibliotecas de formación empresarial contienen décadas de conocimiento de dominio acumulado: procedimientos de seguridad, requisitos de cumplimiento, especificaciones de productos, procesos de incorporación. Este contenido fue creado por expertos en la materia con un costo significativo. Pero está atrapado dentro de paquetes SCORM diseñados para la interoperabilidad con LMS, no para pipelines de IA.

ScormParser cierra esta brecha. Nuestro motor de IA entiende la estructura interna de SCORM, extrae cada archivo de contenido, transcribe audio y video, y genera contenido pre-fragmentado listo para embeddings.

Cómo funciona

Sube un paquete ZIP de SCORM a través de nuestra API. La IA de ScormParser procesa el paquete completo, extrae el contenido de texto, transcribe audio y video con reconocimiento de voz, y estructura todo en Markdown o JSON limpio. La salida incluye límites de fragmentos pre-computados optimizados para los modelos de embeddings más populares.

Estrategias de fragmentación para diferentes modelos de embeddings

Los distintos modelos de embeddings tienen diferentes ventanas de contexto y funcionan mejor con diferentes tamaños de fragmentos. ScormParser te permite configurar estrategias de fragmentación para que coincidan con tu modelo, ya sea que uses text-embedding-3-large de OpenAI, embed-v3 de Cohere, o modelos de código abierto como BGE o E5. Cada fragmento incluye metadatos de la jerarquía del curso para que tu pipeline de recuperación preserve el contexto.

chunk-output.json

{
  "text": "All forklift operators must complete...",
  "metadata": {
    "course": "Warehouse Safety 2024",
    "module": "Equipment Operation",
    "slide": 7
  }
}

Integración con las bases de datos vectoriales más populares

La salida fragmentada de ScormParser está diseñada para la ingesta directa en bases de datos vectoriales populares. Carga los fragmentos directamente en Pinecone, Weaviate, Qdrant o ChromaDB sin escribir código de transformación personalizado. El formato de salida se alinea con lo que estas bases de datos esperan, para que puedas pasar de SCORM a conocimiento buscable en minutos.

Compatible con SCORM 1.2 y SCORM 2004 (todas las ediciones)
Transcripción de video y audio con IA
Salida pre-fragmentada optimizada para modelos de embeddings
JSON estructurado con la jerarquía completa del curso
Salida Markdown para pipelines de documentación
Procesamiento por lotes mediante API asíncrona
Notificaciones por webhook al completar
Almacenamiento de salida compatible con S3

Preguntas frecuentes

¿Qué tamaños de fragmentos usa ScormParser para la salida RAG?

ScormParser utiliza valores predeterminados inteligentes optimizados para los modelos de embeddings más populares. Puedes personalizar completamente el tamaño de los fragmentos y el solapamiento a través de la API para que coincidan con la ventana de contexto óptima de tu modelo.

¿Puedo personalizar la estrategia de fragmentación?

Sí. La API ofrece control total sobre la fragmentación: tamaño, solapamiento y estrategia de división. También puedes dividir por módulo del curso para mantener los fragmentos temáticamente restringidos a un único área de contenido.

¿Preserva la jerarquía del curso en los metadatos de los fragmentos?

Cada fragmento incluye metadatos con la jerarquía completa del curso: título del curso, nombre del módulo, número de diapositiva y tipo de contenido (texto, transcripción, cuestionario). Esto permite que tu pipeline RAG filtre y pondere los resultados según dónde apareció el contenido en la estructura original del curso.

¿Cómo gestiona ScormParser el contenido multimedia en la salida RAG?

El contenido de audio y video es transcrito por IA e incluido como fragmentos de texto con los metadatos adecuados. Las imágenes con texto alternativo también se incluyen. Esto garantiza que todo el conocimiento del curso, no solo las diapositivas de texto, esté disponible para la recuperación.

Soluciones relacionadas

SCORM a Markdown y JSON

Convierte paquetes SCORM en Markdown limpio y JSON estructurado para documentación y pipelines de contenido.

Saber más

API y herramientas para desarrolladores

API REST, SDKs para Python y Node.js, webhooks y procesamiento por lotes para análisis SCORM.

Saber más

Transcripción de video y audio

Transcripción con IA para cada palabra hablada encerrada en archivos multimedia SCORM.

Saber más

Empieza a convertir SCORM a RAG hoy

Únete a la beta y obtén 5 conversiones de paquetes gratuitas al mes.

Plan gratuito disponible
Sin tarjeta de crédito
Acceso completo a la API

Reserva tu lugar

Ingresa tu correo y te avisaremos cuando ScormParser esté disponible.