SCORM → RAG

Transformez des cours SCORM obsolètes en base de connaissances vivante

Votre entreprise possède des centaines de packages SCORM qui prennent la poussière dans un LMS. À l'intérieur se trouve exactement la connaissance métier dont votre pipeline RAG a besoin — procédures de formation, règles de conformité, spécifications produit. ScormParser les ouvre et vous remet un contenu structuré prêt pour l'intégration. Sans travail manuel. Un seul appel API.

Pourquoi les packages SCORM sont des mines d'or pour le RAG

Les bibliothèques de formation en entreprise contiennent des décennies de connaissances métier accumulées — procédures de sécurité, exigences de conformité, spécifications produit, processus d'intégration. Ce contenu a été créé par des experts à un coût significatif. Mais il est piégé dans des packages SCORM conçus pour l'interopérabilité LMS, pas pour les pipelines IA.

ScormParser fait le pont. Notre moteur IA comprend la structure interne de SCORM, extrait chaque ressource de contenu, transcrit l'audio et la vidéo, et produit un contenu pré-découpé prêt pour l'intégration.

Comment ça fonctionne

Importez un package ZIP SCORM via notre API. L'IA de ScormParser traite l'intégralité du package — extrayant le contenu textuel, transcrivant l'audio et la vidéo par reconnaissance vocale, et structurant tout en Markdown propre ou JSON. La sortie inclut des limites de chunks pré-calculées optimisées pour les modèles d'embedding populaires.

Stratégies de découpage pour différents modèles d'embedding

Les différents modèles d'embedding ont des fenêtres de contexte différentes et fonctionnent mieux avec des tailles de chunks différentes. ScormParser vous permet de configurer des stratégies de découpage pour correspondre à votre modèle — que vous utilisiez text-embedding-3-large d'OpenAI, embed-v3 de Cohere ou des modèles open-source comme BGE ou E5. Chaque chunk inclut des métadonnées de hiérarchie du cours pour que votre pipeline de récupération préserve le contexte.

chunk-output.json

{
  "text": "All forklift operators must complete...",
  "metadata": {
    "course": "Warehouse Safety 2024",
    "module": "Equipment Operation",
    "slide": 7
  }
}

Intégration avec les bases de données vectorielles populaires

La sortie découpée de ScormParser est conçue pour une ingestion directe dans les bases de données vectorielles populaires. Chargez les chunks directement dans Pinecone, Weaviate, Qdrant ou ChromaDB sans écrire de code de transformation personnalisé. Le format de sortie s'aligne sur ce que ces bases de données attendent, pour passer de SCORM à une connaissance consultable en quelques minutes.

Supporte SCORM 1.2 et SCORM 2004 (toutes éditions)
Transcription vidéo et audio par IA
Sortie pré-découpée optimisée pour les modèles d'embedding
JSON structuré avec hiérarchie complète du cours
Sortie Markdown pour les pipelines de documentation
Traitement par lots via API asynchrone
Notifications webhook à la fin du traitement
Stockage de sortie compatible S3

Questions fréquentes

Quelles tailles de chunks ScormParser utilise-t-il pour la sortie RAG ?

ScormParser utilise des valeurs par défaut intelligentes optimisées pour les modèles d'embedding populaires. Vous pouvez personnaliser entièrement les tailles de chunks et le chevauchement via l'API pour correspondre à la fenêtre de contexte optimale de votre modèle.

Puis-je personnaliser la stratégie de découpage ?

Oui. L'API offre un contrôle total sur le découpage — taille, chevauchement et stratégie de découpe. Vous pouvez également diviser par module de cours pour garder les chunks thématiquement limités à un seul sujet.

La hiérarchie du cours est-elle préservée dans les métadonnées des chunks ?

Chaque chunk inclut des métadonnées avec la hiérarchie complète du cours : titre du cours, nom du module, numéro de diapositive et type de contenu (texte, transcription, quiz). Cela permet à votre pipeline RAG de filtrer et pondérer les résultats en fonction de l'emplacement du contenu dans la structure originale du cours.

Comment ScormParser gère-t-il le contenu multimédia dans la sortie RAG ?

Le contenu audio et vidéo est transcrit par IA et inclus sous forme de chunks textuels avec des métadonnées appropriées. Les images avec texte alternatif sont également incluses. Cela garantit que toute la connaissance du cours — pas seulement les diapositives textuelles — est disponible pour la récupération.

Solutions connexes

SCORM vers Markdown & JSON

Convertissez les packages SCORM en Markdown propre et JSON structuré pour la documentation et les pipelines de contenu.

API & Outils développeur

API REST, SDK Python et Node.js, webhooks et traitement par lots pour le parsing SCORM.

Transcription vidéo & audio

Transcription par IA de chaque mot prononcé verrouillé dans les fichiers médias SCORM.

Commencez à convertir SCORM en RAG dès aujourd'hui

Rejoignez la bêta et obtenez 5 conversions de packages gratuites par mois.

Offre gratuite disponible
Aucune carte bancaire requise
Accès complet à l'API

Réservez votre place

Saisissez votre e-mail et nous vous avertirons du lancement de ScormParser.