Aller au contenu principal

Corpora

Corpora est une application web avec un système de base de données robuste pour des Projets en Humanités Numériques (HN). Vous pouvez utiliser Corpora pour effectuer de la Reconnaissance Optique de Caractères (OCR) sur les documents téléchargés, attribuer des Identificateurs de Ressource Uniforme (URI) et des types de contenu Corpora à des entités, créer des visualisations de réseau, etc.

Corpora et LINCS

En collaboration avec LINCS, Corpora est utilisé pour attribuer des URI à des entités nommées dans le catalogue Advanced Research Consortium (ARC) et convertir ces données en triplets afin que celles-ci puissent être ingérées dans l’entrepôt de triplets LINCS.

Corpora intègre les outils de Traitement Automatique du Langage (TAL) de LINCS tels que NERVE pour identifier et attribuer des URI aux entités dans le catalogue ARC. Corpora est également associé au Rich Prospect Browser (RPB), un outil de visualisation en développement pour les Données Liées (LD) qui permet aux utilisateurs de naviguer entre des bases de données liées et au sein de celles-ci. Une fois terminé, le RPB sera intégré dans Corpora à la place de l’outil de visualisation de réseau actuel.

Les chercheurs qui souhaitent verser leur ensemble de données dans LINCS via Corpora doivent contacter le chef de projet de l’ARC. L’ARC travaillera avec l’utilisateur pour cartographier map et traiter ses données dans Corpora et effectuer l’attribution d’URI. Les données seront ensuite cartographiées et versées dans le schéma LINCS.

À l'heure actuelle, Corpora est conçu pour travailler avec des données bibliographiques dans des projets DH traditionnels qui se concentrent sur des artefacts et des entités individuels. Les utilisateurs disposant de tels ensembles de données pourraient considérer que l'ingestion de données dans LINCS via Corpora est préférable à l'utilisation des flux de travail de conversion standard de LINCS.

Corpora peut être utilisé en ligne ou l’outil lui-même peut également être téléchargé, afin d’exécuter et d’enregistrer les données localement. Bien que Corpora fasse des sauvegardes des ensembles de données téléchargés lorsqu’il est utilisé en ligne, il n’est pas engagé dans le stockage de données à long terme.

Conditions préalables

Les utilisateurs de Corpora:

  • Devront venir avec leur propre ensemble de données
  • Devront créer un compte utilisateur
    • Un compte GitLab ou GitHub peut également être utilisé pour importer un dépôt directement dans Corpora.
  • Auront besoin d’une connaissance de Python et JSON pour accéder à toutes les fonctionnalités
  • N’auront pas besoin de connaissances techniques pour utiliser les fonctions frontales

Corpora prend en charge les entrées et sorties suivantes :

  • Entrée : PDF, JPEG, MARC, XML, etc.
  • Sortie : JSON

Ressources

Pour en savoir plus sur Corpora, consultez les ressources suivantes: