Aller au contenu principal

Jessica et Goliath - Apprendre 3M et CIDOC CRM

· 6 minutes de lecture
Ze Xi (Jessica) Ye
LINCS Metadata Co-op

Unsplash

Au cours de mes cours d'études supérieures à la Faculté de l'information de l'Université de Toronto, j'ai acquis une compréhension de haut niveau des Linked Open Data (LOD) et CIDOC CRM ontologie, un outil théorique et pratique pour l'intégration de l'information dans le domaine du patrimoine culturel. Parce que je suis un étudiant en Archives & Records Management, je ne m'attendais pas à comprendre LOD et CIDOC CRM à un degré significatif, et certainement pas dans la mesure où mon poste de spécialiste des métadonnées coopérative au LINCS l'exige...

LINCS prend les données des chercheurs canadiens en sciences humaines et les convertit en LOD. Structurellement, nous le convertissons en utilisant l'ontologie CIDOC CRM. Une fois les données des chercheurs nettoyées et les modèles de cartographie approuvés, les données sont converties à l'aide d'un outil open source appelé 3M, le gestionnaire de mémoire de cartographie. Mon rôle principal chez LINCS est de configurer et d'exécuter ces conversions. Pour ce faire, non seulement j'ai dû acquérir une compréhension plus approfondie de LOD, mais j'ai également dû apprendre CIDOC CRM et 3M.

Le processus de formation a duré près d'un mois, deux fois plus longtemps que mes collègues embauchés pour l'été ont passé à se former pour leurs rôles respectifs. J'ai passé la moitié du mois à digérer des lectures et l'autre moitié à lutter contre 3M. Assimiler autant de connaissances en si peu de temps était parfois écrasant, mais même si je terminais ma journée de travail en ayant l'impression que mon crâne avait été ouvert par une bande de singes ivres effectuant une opération du cerveau, j'ai adoré. J'aime apprendre! Toujours avoir. Et maintenant je suis payé pour apprendre ? Je suis payé pour acquérir cet ensemble de compétences extrêmement difficiles sur le plan technique et conceptuel ? Je suis payé pour réfléchir au bourbier théorique de savoir si une action est un ajout à un événement de production précédent, ou s'il s'agit - en fait - d'un événement de production entièrement nouveau, et comment la distinction entre ces deux choses se résume à la l'intention des données elles-mêmes ? Quelle merveille, quel privilège ! Je n'ai pas pris de notes aussi détaillées depuis la première année de premier cycle.

Grâce à une mission de formation, à la fin de la troisième semaine, j'ai suffisamment bien compris le CRM du CIDOC pour expliquer comment entités et propriétés liées les unes aux autres, et je me sentais à l'aise de naviguer dans les notes d'application de la dernière version stable. Lorsqu'on m'a donné un modèle de mappage et des données source, je pouvais écrire manuellement une représentation des données suivant le CRM en utilisant la syntaxe Turtle. Bien sûr, faire cela manuellement pour des milliers et des milliers d'entités serait une entreprise très peu pratique, et c'est là que 3M entre en jeu. Si je pouvais configurer le mappage dans 3M, il appliquerait l'ontologie CRM et écrirait le fichier Turtle pour moi . Le problème, bien sûr, était de le mettre en place. Je me souviens d'avoir été désorienté la première fois que j'ai vu 3M, en partie parce qu'il ressemblait beaucoup aux premiers logiciels Internet et en partie parce que le manuel utilisait un langage extrêmement technique. Je devais comprendre comment la table de correspondance (qui attribuait des classes et des propriétés CRM aux éléments des données source) était liée à un générateur (qui attribuait Uniform Resource Identifiers (URI) et rdfs:labels to entity), comment utiliser le générateur pour créer des URI LINCS temporaires ou pour le diriger vers un URI préexistant, comment écrire un fichier générateur afin que je puisse obtenir les étiquettes personnalisées appropriées, et plus encore. C'était parfois frustrant, mais les frustrations n'ont fait que rendre les succès encore plus satisfaisants. Lorsque j'ai téléchargé correctement les fichiers de schéma d'entrée et cible, lorsque j'ai utilisé une variable pour la première fois, lorsque j'ai appuyé sur "Transformer" et qu'il n'y avait aucune erreur, tous ces succès m'ont fait me sentir comme un assistant technique de niveau 20.

CIDOC

Une vue de haut niveau de CIDOC CRM.

Avec le recul, le premier ensemble de données que j'ai converti pour LINCS, la Map of Early Modern London (MoEML) Personography, était incroyablement simple par rapport aux ensembles de données que je convertis actuellement. Néanmoins, je ressens toujours un immense penchant pour cette première conversion, sans parler de ma profonde gratitude envers Erin Canning (analyste des systèmes d'ontologie) et Natalie Hervieux (analyste informatique principale) pour m'avoir aidé tout au long du processus. En fait, la conversion de données dans 3M est désormais l'une des parties préférées de mon travail. Je peux passer des heures dans 3M à corriger les erreurs, à faire des modifications et à rechercher le frisson d'enfin faire fonctionner les choses. C'est d'autant plus gratifiant de savoir que le travail que je fais profitera aux autres de manière tangible. Je fais ce travail pour que d'autres personnes, qu'il s'agisse de chercheurs ou d'autres membres de l'équipe LINCS, puissent copier mes mappages ou en tirer parti, puissent utiliser ma documentation pour créer leurs propres mappages ou examiner des ensembles de données, puissent effectuer des recherches et trouver de nouvelles connexions dans leur travail grâce aux données que j'ai converties. J'ai appris quelque chose de difficile, pour que ce soit plus facile pour les autres !

3M est une bête et je l'ai vaincue. Sorte de. Le problème avec l'apprentissage, c'est qu'il s'agit d'un processus continu. Un de mes anciens patrons m'a dit cela, et j'ai hoché la tête parce que je voulais désespérément mâcher un des croissants qu'il avait apportés ; écouter à moitié ses conseils de carrière semblait être la condition préalable à l'acquisition des pâtisseries, mais mon adolescent aurait dû écouter sérieusement parce qu'il avait raison. Chaque jour, j'apprends quelque chose de nouveau sur 3M ou CIDOC CRM. Chaque jour, il y a quelque chose d'autre à modifier, une perspective alternative à considérer. Lorsque j'ai assisté à la 2022 LD4 Conference on Linked Data, j'ai eu le plaisir d'écouter des professionnels de LOD discuter des problèmes que j'avais jamais envisagé auparavant, que je ne savais même pas qu'il s'agissait de problèmes nécessitant des solutions. Cela m'a ouvert les yeux et revigoré d'apprendre que, malgré toutes les connaissances que j'ai acquises jusqu'à présent, ce n'est qu'une petite partie de ce qu'il y a à savoir. Il existe des applications innovantes, des organisations et des personnes qui font des choses que je ne peux même pas imaginer. Les données ouvertes liées sont un domaine passionnant et en constante évolution, et j'ai hâte de voir ce que j'apprendrai ensuite.