Plan de gestion des données (PGD)

Le Plan de gestion des données (PGD) de l’IATEXT décrit les lignes directrices générales de la gestion des données dans l’ensemble de ses projets et applications. Ce plan envisage les stratégies et procédures pour la gestion complète des données, principalement textuelles, dans un projet de humanités numériques. Il se concentre sur la collecte, le stockage, le traitement, l’accès et la préservation des données, tout en laissant une marge pour les spécificités de chaque projet ou travail de recherche. Pour la mise en œuvre des aspects les plus technologiques de ce PGD, l’IATEXT s’appuie sur sa Division de linguistique computationnelle et applications informatiques.

Identification des données

Chaque travail de recherche doit définir l’origine des informations, les types et formats des documents qui les contiennent ainsi que les processus nécessaires à leur numérisation, le cas échéant. En règle générale, les données seront de type textuel (mots, phrases, paragraphes, fragments ou documents complets), bien que, selon les caractéristiques de chaque recherche, elles puissent également être de type image, données de géolocalisation, sons, etc. Dans tous les cas, une base de données relationnelle est conçue, adaptée aux besoins actuels et futurs du projet, ainsi qu’au volume des données et aux compétences technologiques des chercheurs. Si nécessaire, les données peuvent être exportées vers d’autres formats tels que XML, TEI, CSV, etc., de préférence des formats ouverts afin de favoriser leur diffusion et leur préservation. Exceptionnellement, d’autres formats peuvent être utilisés s’ils permettent un traitement informatique et sont justifiés pour des raisons techniques.

Organisation et gestion des données

Les projets de l’IATEXT comportent au minimum deux types d’applications développées spécifiquement pour chaque projet et reposant sur la même base de données :

  • Une application web d’annotation (préparation/curation des données) permettant aux chercheurs de classifier et gérer les données de manière contrôlée et sécurisée. L’accès se fait via identifiant et mot de passe (stockés de manière chiffrée). Deux rôles existent : chercheur et réviseur. Les chercheurs saisissent les données et relations ; les réviseurs, en plus, valident et certifient ces données. Un journal interne enregistre les accès et actions afin de détecter d’éventuelles anomalies.
  • Une application web de consultation, publique et ouverte, donnant accès aux données validées. Seules les données révisées apparaissent dans les résultats. Les recherches permettent de filtrer selon les métadonnées propres à chaque projet, offrant différentes vues. Les résultats peuvent être téléchargés en formats ouverts. Les données sont actualisées en temps réel, avec possibilité de figer certaines versions si nécessaire.

Documentation des données

Les données sont documentées, classées et annotées via l’application web d’annotation développée spécifiquement pour chaque projet. L’application de consultation inclut une section descriptive et une aide utilisateur. Les chercheurs souhaitant accéder aux données doivent contacter le responsable du projet et en préciser le format souhaité, conformément aux politiques en vigueur.

Qualité des données

L’application d’annotation est le seul outil de gestion des données. Elle limite la saisie libre via des listes prédéfinies afin de réduire les erreurs et garantir la cohérence. Certains champs obligatoires doivent être complétés. Les réviseurs ont la responsabilité de valider les données avant leur publication. Toute correction est immédiatement répercutée dans l’application de consultation.

Stratégie de stockage

Les données sont stockées dans des bases de données relationnelles dédiées à chaque projet. Les applications et bases sont hébergées sur les serveurs de l’IATEXT, accessibles 24h/24 et 7j/7. Des sauvegardes quotidiennes sont réalisées sur un second serveur et des sauvegardes complètes trimestrielles sur un système NAS. Les applications sont également versionnées dans un dépôt cloud.

Politique de données, éthique et licence

Chaque projet doit définir sa politique de données, notamment la licence d’utilisation et la gestion des données sensibles. Le respect de ces règles relève du chercheur principal et est contrôlé via l’application de consultation.

Diffusion des données

Les données sont diffusées automatiquement via l’application de consultation dès leur validation. Les résultats peuvent être téléchargés en PDF ou dans d’autres formats utilisés en humanités numériques.

Rôles et responsabilités

Le chercheur principal est responsable de l’application du plan de gestion des données, en coordination avec l’équipe du projet.

Budget

La conservation et la préservation des données sont gratuites pour les projets propres à l’IATEXT.