Gestão de Dados
Diretrizes para Planos de Gestão de Dados (PGD) para Propostas de Centros
Estas diretrizes devem ser consideradas nas propostas para Centros, incluindo-se propostas de CEPID (Centro de Pesquisa, Inovação e Difusão), CPE (Centro de Pesquisa em Engenharia) e CCD (Centro de Ciencia para o Desenvolvimento).
A FAPESP não tem um modelo próprio para planos de gestão de dados, pois há detalhes que dependem do domínio do conhecimento. A FAPESP considera necessário que os dados resultantes de projetos por ela financiados sejam gerenciados e compartilhados de forma a garantir o maior benefício possível para o avanço científico, tecnológico, socioeconômico e cultural.
Um Plano de Gestão de Dados para propostas de Centros é um texto de até quatro páginas, que deve responder a quatro perguntas básicas:
1. Quais dados digitais serão gerados pelo Centro?
2. Como serão gerenciados internamente (cobrindo as etapas de geração, limpeza e armazenamento seguro e confiável)?
3. Como serão preservados e compartilhados (interna e externamente), considerando questões éticas, legais, privacidade e segurança?
4. Caso o Centro decida criar o próprio repositório institucional de dados, como planeja fazê-lo e gerenciá-lo?
Para efeito do PGD, os dados coletados poderão ser tanto físicos como digitais (como por exemplo amostras de tecidos e cultivares, dentre outros). Para dados produzidos pelas pesquisas do Centro, o PGD será restrito a dados digitais, como por exemplo registros de coleta, formulários eletrônicos, modelos computacionais, resultados experimentais e de simulação, séries temporais, software, gráficos, mapas, vídeos, planilhas, gravações de áudio, bancos de dados, material didático e outros. Notar que software (código ou executável) está contido na descrição ampla de dados digitais, embora se entenda que os procedimentos e natureza sejam distintos.
Também para efeito do PGD, considera-se “compartilhamento interno” aquele restrito aos membros do Centro e “compartilhamento externo” se refere a pessoas ou instituições que não estão associadas ao Centro.
O texto deverá ser organizado da seguinte forma, considerando as questões indicadas:
a) Sumário descritivo dos dados digitais a serem produzidos e gerenciados no Centro
Que dados (digitais ou não) serão coletados? Quais tipos e formatos de dados o Centro irá gerar? Qual a estimativa do volume dos dados a serem gerados? Haverá armazenamento e compartilhamento de dados brutos?
Software e outros objetos digitais – além de dados propriamente ditos, que outros tipos de objetos digitais se pretende gerar no Centro – software, workflows, protocolos, modelos, etc?
b) Gerenciamento dos objetos digitais armazenados – formatos, metadados e interoperabilidade
Que padrões de metadados serão utilizados para documentar os dados e outros objetos digitais produzidos (genéricos e/ou específicos a domínios do conhecimento). Quais formatos de dados e metadados serão adotados para viabilizar o compartilhamento interno e externo? Que providências serão tomadas para permitir o reuso – por exemplo, documentação do software usado para gerar os dados, uso de padrões adotados amplamente, dentre outros. Os arquivos serão identificados por DOI ou outro tipo de identificador?
c) Compartilhamento interno e externo
Os dados produzidos pelo Centro serão, em sua integralidade, tornados abertos e disponíveis livremente visando permitir o reuso mais amplo possivel? Identificar os tipos de dados que não podem ser compartilhados livremente e apresentar justificativa para tal. Haverá previsão do uso de licenças de uso (por exemplo, CC-BY). Que mecanismos estão previstos para compartilhamento interno? E para compartilhamento externo?
Haverá políticas diferenciadas dentro do Centro contemplando dados que possam ser compartilhados livremente e outros que tenham restrições de disseminação? O Centro pretende estabelecer níveis diferentes de acesso para compartilhamento interno? E para compartilhamento externo?
d) Gerenciamento dos dados – responsabilidades, preservação e segurança
Quem será responsável pelo gerenciamento dos dados gerados no Centro? Haverá um comitê gestor de dados? Como se pretende decidir quais dados serão preservados, e por quanto tempo, e quais descartados? Quais os mecanismos que serão usados para preservação durante a existência do Centro? Qual o planejamento para preservação a longo prazo? Que cuidados se pretende tomar para impedir acesso indevido ou destruição dos dados? Como a obediência ao plano será monitorada e como se pretende atualizá-lo ao longo da vida do Centro?
e) Restrições éticas, de confidencialidade, legais e outras
Haverá algum tipo de restrição ética ou legal que possa impactar o compartilhamento amplo dos dados produzidos? Haverá necessidade de, por exemplo, termos de consentimento e autorização de comitês de ética? Quais as medidas que serão tomadas para conformidade com a LGPD? Havendo restrições de compartilhamento, quais os mecanismos previstos para permitir o eventual reuso (por exemplo, acordos de confidencialidade)?
Haverá embargo para a abertura dos dados produzidos? Se sim, justificar e indicar o período de embargo.
f) Repositórios
O Centro pretende criar seu próprio repositório de dados? Se sim, descrever brevemente como planeja criá-lo e gerenciá-lo, incluindo necessidade de equipamentos e pessoal. Adicionalmente, descrever as medidas para permitir que os dados nele depositados sejam compartilhados interna e externamente, conforme os planos de compartilhamento mencionados nos itens anteriores, garantidas as restrições éticas e legais.
Se não pretende ter seu próprio repositório, em quais repositórios institucionais confiáveis pretende armazenar os dados gerados?