Plan de Gestión de Datos (PGD) del IATEXT
El Plan de Gestión de Datos (PGD) del IATEXT describe las directrices generales de la gestión de los datos en todos sus proyectos y aplicaciones. Este plan contempla las estrategias y procedimientos para la gestión completa de datos, principalmente textuales, en un proyecto de humanidades digitales. Se centra en la recopilación, almacenamiento, procesamiento, acceso y preservación de los datos, dejando margen para las particularidades de cada proyecto o trabajo de investigación. Para el cumplimiento y desarrollo de los aspectos más tecnológicos de este PGD, el IATEXT se apoya en su División de Lingüística Computacional y Aplicaciones Informáticas.
Identificación de los datos
Cada trabajo de investigación debe definir la procedencia de la información, tipos y formatos de los documentos que la contienen y procesos necesarios para su digitalización, si fuese necesario. Por norma general, los datos serán de tipo texto (palabras, oraciones, párrafos, fragmentos textuales o documentos completos, según sea el caso), aunque en función de las características de cada investigación, podrán ser de tipo imagen, ubicaciones de geolocalización, sonidos, etc. En todos los casos, se diseña una base de datos relacional que se ajusta a las necesidades actuales y futuras de cada investigación, que se adapta, en función del volumen de los datos, a la recopilación y a las competencias tecnológicas de los investigadores. Si es necesario, los datos almacenados en una base de datos relacional se pueden exportar fácilmente a otros formatos como XML, TEI, CSV, etc., preferiblemente formatos abiertos, en aras a facilitar su difusión y su preservación frente a futuros cambios tecnológicos. Excepcionalmente, se podrán almacenar los datos en otros formatos, siempre que permitan un tratamiento computacional y esté justificado por motivos técnicos, computacionales o de compatibilidad con sistemas u organizaciones externas.
Organización y gestión de los datos
Los proyectos desarrollados por el IATEXT se componen, como mínimo, de dos tipos de aplicaciones creadas por el propio IATEXT para cada proyecto. Las dos aplicaciones usan la misma base de datos diseñada y creada al efecto para cada proyecto:
- Una aplicación web de anotación (preparación/curación de datos) en donde los investigadores clasifican y gestionan los datos de forma controlada y segura. A la aplicación web de anotación se accede mediante usuario y contraseña (datos que se almacenan encriptados). Existen dos roles para los usuarios investigadores: revisor e investigador. Los investigadores se encargarán de introducir los datos y sus relaciones de forma que los revisores, además de tener los permisos y privilegios de los investigadores, también podrán revisar el trabajo de estos y marcarlo como correcto y revisado. Es opcional que cada investigador pueda gestionar y/o visualizar solo los datos que ha introducido o, por el contrario, que todos los investigadores puedan gestionar y visualizar todos los datos. En cualquier caso, la aplicación mantiene un registro interno de accesos y acciones de cada usuario con el fin de detectar irregularidades.
- Una aplicación web de consulta de información, pública y abierta, en la base de datos del proyecto. Esta aplicación sólo muestra los datos que han sido revisados y marcados como correctos por los investigadores con privilegios de revisor; de esta forma, se asegura de que los datos que están en proceso de clasificación o que no han sido revisados por un segundo investigador no aparezcan en los resultados de la consulta. Las consultas permiten filtrar los resultados por los metadatos o características propias de cada investigación, de forma que el usuario pueda obtener diferentes “vistas” de los datos, según sus necesidades. Los resultados de las consultas se pueden descargar en algún formato abierto. Los datos que se muestran en la aplicación web de consulta no tienen control de versiones, ya que no se realizan volcados de los datos clasificados y etiquetados sobre esta aplicación al usar directamente la única base de datos existente del proyecto. En tiempo real, según avancen los investigadores, los nuevos datos estarán disponibles para la comunidad científica y el público en general. No obstante, el equipo de investigación podrá, cuando sea necesario, “congelar” versiones de los datos y mantenerlas aparte.
Documentación de los datos
Los datos se documentan, clasifican y etiquetan a través de la aplicación web de anotación, desarrollada ad hoc para cada proyecto o trabajo de investigación del IATEXT. La aplicación web de consulta tiene una sección descriptiva sobre el proyecto y los datos y otra sección de ayuda sobre el uso de la web de consulta. Cualquier investigador que desee los datos para otro estudio debe ponerse en contacto con el investigador responsable y solicitar en qué formato los necesita, siempre de acuerdo con la política de datos, ética y licencia que sean aplicables.
Calidad de los datos
La aplicación web de anotación contempla la gestión de todos los datos descritos en el proyecto. Es el único medio que tienen los investigadores para gestionar los datos. La aplicación limita la escritura, en todos los casos que sea posible, mediante selección de listas de opciones con el fin de evitar errores humanos en la escritura y multiplicidad en las etiquetas de clasificación. Mantiene la coherencia y robustez de los datos almacenándolos adecuadamente en la base de datos diseñada para tal efecto. Además, la aplicación exige a los investigadores añadir los datos que se hayan considerado obligatorios. Los investigadores con privilegios de revisor tienen la responsabilidad, y están obligados, a marcar como correctos y revisados los datos clasificados por el resto de los investigadores, para que puedan publicarse y estar disponibles en la aplicación web de consulta. Si se detectara un error en los datos, la corrección y revisión a través de la aplicación de la web de anotación tendrá efecto inmediato en la aplicación web de consulta.
Estrategia de almacenamiento
Los datos se almacenan en bases de datos relacionales diseñadas al efecto para cada proyecto. Tanto las aplicaciones como las bases de datos se instalan y se publican en el servidor informático propiedad del IATEXT. Este servidor ofrece servicio 24/7, asegurando así la conservación de los datos durante el periodo de investigación y la preservación posterior a la finalización del proyecto. Se realizan copias de seguridad diarias de todas las bases de datos en otro servidor, también propiedad del IATEXT y, trimestralmente, del servidor completo en un sistema NAS. Las aplicaciones se almacenan con control de versiones en un repositorio en la nube durante todo su proceso de vida.
Política de datos, ética y licencia
Cada proyecto debe definir su política de datos en lo que respecta a la licencia de uso de los mismo, así como a los datos sensibles, si los hubiere. En cualquier caso, siempre estarán bajo la responsabilidad del investigador principal del proyecto y controlados a través de la aplicación web de consulta.
Difusión de los datos
Los datos se difunden automática e inmediatamente a través de la aplicación web de consulta una vez que han sido marcados como correctos y revisados. El resultado de la consulta se puede descargar en formato PDF u otros formatos aceptados en Humanidades Digitales.
Roles y responsabilidades
El investigador principal es el responsable del cumplimiento del plan de gestión de datos en coordinación con el resto de los investigadores del proyecto.
Presupuesto
El coste de la conservación y preservación de los datos es gratuito para los proyectos propios del IATEXT.