Otwarte dane badawcze – nowe perspektywy

Już od kilku lat zainteresowanie otwartą nauką w Polsce wykracza poza temat otwartego dostępu do publikacji naukowych, choć zajmują one szczególne miejsce w komunikacji naukowej ze względu na system ewaluacji. Publikacja stanowi jeden z ostatnich etapów realizacji projektu bądź pracy nad konkretnym problemem badawczym, tymczasem praktyki otwartej nauki wdrażać można już wcześniej, mając na uwadze m.in. zasady rzetelnego, uczciwego i odpowiedzialnego prowadzenia badań.

Jednym z elementów takiego postępowania jest właściwe zarządzanie danymi badawczymi i ich otwarte udostępnianie, które ułatwia weryfikację wyników i replikację badań, a dodatkowo zwiększa ich widoczność i oddziaływanie oraz ułatwia nawiązywanie współpracy. Zalety takiego podejścia często podkreślane są w rekomendacjach bądź politykach otwartości przyjmowanych przez instytucje naukowe i rządy poszczególnych krajów. Odpowiednie rozwiązania przyjęła w tym zakresie także Komisja Europejska, proponując w programie Horyzont Europa zdecydowane przejście od otwartego dostępu do otwartej nauki rozumianej jako systematyczne dzielenie się wiedzą, metodami i narzędziami jak najszerzej i jak najwcześniej 1.

 

W stronę otwartej nauki

Również w Polsce praktyki otwartej nauki w coraz większym stopniu stosowane są na wczesnych etapach – już od momentu planowania badań. Wpłynęły na to przede wszystkim przyjęte w 2019 r. wymogi w zakresie tworzenia i realizacji planu zarządzania danymi badawczymi, które obowiązują w ramach projektów finansowanych przez Narodowe Centrum Nauki (NCN). Rok później w NCN wprowadzono także politykę dotyczącą otwartego dostępu do publikacji, która w pewnym zakresie objęła dane badawcze, tj. podstawowy zestaw danych powiązanych z opublikowanymi artykułami 2. Zgodnie z wytycznymi wnioskodawcy powinni zaplanować zarządzanie danymi, m.in. bezpieczne przechowywanie, właściwą dokumentację, otwarte udostępnianie oraz długoterminową archiwizację, uwzględniając regulacje prawne, kodeksy etyczne, dobre praktyki czy standardy obowiązujące w konkretnych dyscyplinach.

Celem tych działań jest udostępnianie danych w sposób zgodny z zasadami FAIR, czyli tak aby były łatwe do znalezienia (findable), dostępne (accessible), interoperacyjne (interoperable) i możliwe do ponownego wykorzystania (reusable). Wymogi przyjęte w NCN odnoszą się do tych zasad m.in. poprzez zalecenie stosowania, tam gdzie to możliwe, licencji Creative Commons Public Domain (CC0) równoznacznej z przeniesieniem jej przedmiotu do domeny publicznej. Ważnym elementem polityki otwartości jest ponadto wymóg udostępniania danych badawczych w otwartych repozytoriach, czyli specjalnych systemach informatycznych służących do przechowywania i udostępniania materiałów naukowych. Wyklucza to inne rozwiązania, które nie uwzględniają zasad FAIR, np. umieszczanie danych na stronach internetowych instytucji, projektów czy indywidualnych badaczy.

Wymogi instytucji finansującej badania naukowe przyczyniły się do zintensyfikowania działań na rzecz otwartej nauki podejmowanych przez uczelnie i instytuty badawcze. Obejmują one wdrażanie polityk otwartości, wspieranie badaczy w przygotowaniu planu zarządzania danymi czy szeroko rozumiane uregulowanie kwestii związanych z danymi w kontekście regulaminów własności intelektualnej, zasad komercjalizacji wyników badań bądź zadań bibliotek czy działów IT.

W obliczu tych zmian kluczowy jest zatem rozwój odpowiedniej infrastruktury, która zapewnia bezpieczne przechowywanie danych, zwiększa ich widoczność i dostępność oraz umożliwia otwarte udostępnianie w sposób zgodny ze światowymi standardami, a zarazem odpowiadający na potrzeby instytucji oraz badaczy z różnych dyscyplin oraz uwzględniający lokalne uwarunkowania. Zmiany te były przedmiotem szczególnego zainteresowania zespołu Platformy Otwartej Nauki, ponieważ wpisały się w rozpoczęte już w 2015 roku działania na rzecz otwartego udostępniania danych badawczych 3. Funkcjonująca w ramach Interdyscyplinarnego Centrum Modelowania Matematycznego i Komputerowego Uniwersytetu Warszawskiego (ICM UW) inicjatywa ma na celu wspieranie naukowców i instytucji w otwartym udostępnianiu rezultatów badań zarówno poprzez rozwijanie ogólnodostępnej infrastruktury otwartej nauki, jak i przez szkolenia czy działania doradcze i eksperckie. Od 2015 roku badacze w Polsce korzystać mogą z Repozytorium Otwartych Danych RepOD, które ma charakter repozytorium ogólnego przeznaczenia i umożliwia bezpłatne deponowanie różnego typu danych ze wszystkich dyscyplin.

 

Nowe repozytoria danych badawczych

W ostatnich latach zespół Platformy Otwartej Nauki zintensyfikował działania w obszarze danych, realizując projekt Dziedzinowe Repozytoria Otwartych Badawczych. Jego celem było zwiększenie dostępności zasobów nauki dzięki ich udostępnieniu w repozytoriach, a także poprawa jakości udostępnianych danych i metadanych oraz ułatwienie ich lepszego wykorzystania4. W ramach projektu powstały trzy repozytoria: nowa wersja Repozytorium Otwartych Danych (RepOD) oraz dwa nowe repozytoria dziedzinowe – Repozytorium Danych Społecznych (RDS) oraz Macromolecular Xtallography Raw Data Repository (MX-RDR).

W serwisach dziedzinowych udostępniane są dane gromadzone i opracowywane przez partnerów projektu: Uniwersytet im. Adama Mickiewicza w Poznaniu (UAM) oraz Instytut Filozofii i Socjologii Polskiej Akademii Nauk (IFiS PAN).

W Macromolecular Xtallography Raw Data Repository (MX-RDR) opublikowano już ponad 300 zbiorów danych krystalograficznych. W ramach Repozytorium Danych Społecznych działają kolekcje Archiwum Danych Jakościowych (ADJ) prowadzonego przez IFiS PAN oraz Polskiego Archiwum Danych Społecznych (PADS), wspólnego przedsięwzięcia IFiS PAN oraz Instytutu Studiów Społecznych im. Prof. Roberta Zajonca (ISS UW), który również zaangażowany jest w realizację projektu. W pierwszej kolekcji znaleźć można m.in. materiały z klasycznych badań Józefa Obrębskiego, Stanisława Ossowskiego, Antoniny Kłoskowskiej czy Elżbiety Tarkowskiej oraz wiele współczesnych zbiorów danych, natomiast w drugiej m.in. zbiory z badań Centrum Badania Opinii Społecznej CBOS z kolekcji „Aktualne Problemy i Wydarzenia” wraz z dokumentacją opisującą metodologię badań, Polskie Generalne Sondaże Społeczne (PGSS), zbiory „Diagnoza Społeczna. Warunki i Jakość Życia Polaków”, „Struktura społeczna w Polsce” (POLPAN) czy Polskie Generalne Studium Wyborcze (PGSW).

Repozytoria są ponadto otwarte dla wszystkich badaczy, niezależnie od afiliacji. Serwisy korzystają z oprogramowania Dataverse, które oferuje szereg funkcji pozwalających na przechowywanie, opisanie oraz udostępnianie danych badawczych w sposób, który ułatwia spełnienie zasad FAIR. Zbiorom danych nadawane są trwałe identyfikatory DOI (Digital Object Identifier), które ułatwiają wyszukanie danych, zacytowanie ich, a także powiązanie z innymi rezultatami badań. Naukowcy mogą też dodać kolejne wersje zestawów danych, wskazać źródło finansowania badań bądź ustawić embargo, czyli określić termin udostępnienia danych w sposób otwarty. Oprogramowanie Dataverse może być w przyszłości rozwijane i modyfikowane z uwzględnieniem potrzeb badaczy i instytucji oraz rozwijającego się systemu komunikacji naukowej.

 

Dobre praktyki i kompetencje

Rozwojowi infrastruktury towarzyszyły ponadto zaplanowane w ramach projektu działania szkoleniowe, edukacyjne i promocyjne, m.in. szkolenia z zarządzania danymi badawczymi, które cieszyły się bardzo dużym zainteresowaniem. Od jesieni 2019 roku do października 2021 roku zorganizowano 2 szkolenia stacjonarne oraz 20 szkoleń online, w których w sumie udział wzięło ponad 1400 osób z różnych instytucji z całej Polski.

Stały kontakt z badaczami, bibliotekarzami oraz pracownikami administracji pozwolił na rozwinięcie programu szkoleń. Jedną z uwag najczęściej zgłaszanych przez uczestników była sugestia organizacji szkoleń dziedzinowych. Webinaria dotyczące danych badawczych w naukach społecznych organizowano w 2021 roku we współpracy z IFiS PAN oraz ISS UW. Uwzględniały one dziedzinowe uwarunkowania udostępniania danych, wynikające m.in. ze zobowiązań wobec osób badanych, kodeksów etycznych czy konieczności ochrony danych osobowych. Zagadnienia te należy wziąć pod uwagę, aby zarządzać danymi zgodnie z zasadą as open as possible, as closed as necessary. Podczas webinariów wskazano także, na co warto zwrócić uwagę podczas selekcji danych do udostępnienia oraz omówiono dobre praktyki w zakresie opisu, dokumentacji i udostępniania danych w Repozytorium Danych Społecznych (RDS). Program szkoleń poszerzono ponadto o webinaria na temat korzystania z nowych repozytoriów, podczas których omawiane są najważniejsze funkcje serwisów oraz proces deponowania danych. To okazja do przekazania użytkownikom praktycznych wskazówek dotyczących metadanych, licencji czy embarga.

 

Polityki polskich instytucji naukowych

Z Repozytorium Otwartych Danych korzystać mogą zarówno indywidualni badacze, jak i instytucje zainteresowane prowadzeniem kolekcji, umożliwiających gromadzenie i udostępnianie w jednym miejscu danych wytwarzanych w ramach badań prowadzonych w konkretnych uczelniach czy instytutach. Instytucje sprawują nadzór merytoryczny nad swoimi kolekcjami, współpracując przy ich prowadzeniu z ICM UW.

Założenie oraz prowadzenie kolekcji uwzględniać powinno m.in. specyfikę badań realizowanych w instytucji w ramach dyscyplin wiodących. Ze strony instytucji podejmowane są zatem działania w zakresie rozpoznania potrzeb badaczy, określenia ról i obowiązków osób zaangażowanych w prowadzenie kolekcji czy rozwoju kompetencji wymaganych do prawidłowego zarządzania danymi badawczymi. Organizacja sprawnego systemu wspierania badaczy w zarządzaniu danymi badawczymi i ich otwartym udostępnianiu jest zatem jednym z wyzwań stojących przed instytucjami naukowymi zainteresowanymi skutecznym zarządzaniem i promocją dorobku naukowego pracowników. W praktyce działania te obejmują utworzenie stanowiska data stewarda5, uzupełnienie procesu składania wniosków grantowych o konsultacje planów zarządzania danymi badawczymi czy wypracowanie i przyjęcie polityki otwartości uwzględniającej dane badawcze.

 

Wdrażanie polityk otwartości stało się głównym tematem innej inicjatywy ICM – Krajowych Warsztatów Otwartego Dostępu OpenAIRE, które odbyły się w 2020 roku w ramach OpenAIRE-Advance, europejskiego projektu rozwijającego infrastrukturę otwartej nauki. Warsztaty, zorganizowane przez działające w ICM Krajowe Biuro Otwartego Dostępu OpenAIRE, stanowiły okazję do wymiany doświadczeń w zakresie realizacji polityk otwartości, m.in. rozwijania repozytoriów, tworzenia systemu wsparcia naukowców czy promowania dobrych praktyk. Rezultatem warsztatów było ponadto zainicjowanie w 2021 roku sieci pełnomocników i koordynatorów ds. otwartego dostępu, która obecnie działa jako grupa dyskusyjna koordynowana przez Platformę Otwartej Nauki. W ramach dalszych działań zaplanowane są webinaria, spotkania i panele dyskusyjne.

W ostatnich miesiącach otwarta nauka coraz częściej stawała się tematem przewodnim wydarzeń organizowanych przez różne instytucje naukowe w Polsce. Co więcej, działania w zakresie danych badawczych odejmowane były również na szczeblu rządowym: w 2021 roku ustanowiono Program Otwierania Danych na lata 2021–2027, w którym zapowiedziano zwiększenie dostępności zasobów nauki, m.in. poprzez aktualizację krajowej polityki otwartego dostępu do danych i publikacji naukowych, a także powołano Zespół doradczy ds. otwartych danych naukowych działający przy Ministerstwie Edukacji i Nauki. Niedawno Prezydent Andrzej Duda podpisał ustawę o otwartych danych i ponownym wykorzystywaniu informacji sektora publicznego, która obejmuje także dane o charakterze naukowym6. Inicjatywy te pozwalają sądzić, że najbliższe miesiące i lata będą okresem intensywnych prac, które wpłyną zarówno na system komunikacji naukowej, jak i na codzienną pracę naukowców.

Natalia Gruenpeter, ICM UW

[Artykuł ukazał się w PWN Nauka Nr 3(17)]

 

Zobacz także:

Biuletyn EBIB, nr 5(200) | Archiwum Danych Jakościowych IFIS PAN w nowej odsłonie

PAUza Akademicka, nr 566 | Repozytoria danych otwarte dla wszystkich badaczy

Forum Akademickie 11/2021 | Współpraca sprzyja otwieraniu danych

 


1 Por. European Commission. Horizon Europe. Programme Guide, Version 1.1, 19 July 2021, https://ec.europa.eu/info/funding-tenders/opportunities/docs/2021-2027/horizon/guidance/programme-guide_horizon_en.pdf. European Commission, AGA – Annotated Model Grant Agreement, Pre-Draft, 23 July 2021, https://ec.europa.eu/info/funding-tenders/opportunities/docs/2021-2027/common/guidance/aga_en.pdf [dostęp dn. 1.9.2021].

2 Polityka Narodowego Centrum Nauki dotycząca otwartego dostępu do publikacji, https://ncn.gov.pl/sites/default/files/pliki/zarzadzenia-dyrektora/zarzadzenie-Dyr-38_2020.pdf. Por. dodatkowe informacje dot. wymogów NCN w zakresie otwartego udostępniania rezultatów badań, https://www.ncn.gov.pl/finansowanie-nauki/otwarta-nauka [dostęp dn. 1.9.2021].

3 W dniach 28-29 maja 2015 r. odbyła się w Warszawie zorganizowana przez Platformę Otwartej Nauki międzynarodowa konferencja Open Research Data: Implications for Science and Society, poświęcona standardom, strategiom i narzędziom udostępniania danych badawczych w sposób umożliwiający ich dalsze wykorzystanie. Od 2015 roku prowadzone są szkolenia z zarządzania danymi badawczymi. Ponadto, w 2016 roku ukazał się raport Towards Open Research Data in Poland, którego celem było zainicjowanie w Polsce szerokiej dyskusji na temat otwartego udostępniania danych badawczych. Wojciech Fenrich, Krzysztof Siewicz, Jakub Szprot, Towards Open Research Data in Poland, Warszawa 2016, http://pon.edu.pl/nasze-publikacje?pubid=19 [dostęp: 1.9.2021].

4 Strona projektu Dziedzinowe Repozytoria Otwartych Danych Badawczych, https://drodb.icm.edu.pl/opis-projektu/ [dostęp dn. 1.9.2021]. Zob. także W. Fenrich, N. Gruenpeter, Dziedzinowe Repozytoria Otwartych Danych Badawczych, „Biuletyn EBIB” 2020, nr 5 (194), Otwarte dane badawcze, http://ebibojs.pl/index.php/ebib/article/view/698/740 [dostęp dn. 1.9.2021].

5 Por. A. Wałek, Data librarian and data steward – new tasks and responsibilities of academic libraries in the context of Open Research Data implementation in Poland, „Przegląd Biblioteczny” 2019, nr 4 (tom 87), DOI: https://doi.org/10.36702/pb.634 [dostęp dn. 31.08.2021]. Por. także „Biuletyn EBIB” 2020, nr 194 poświęcony otwartym danym badawczym, http://ebibojs.pl/index.php/ebib/issue/view/82 [dostęp dn. 31.08.2021].

6 Program Otwierania Danych na lata 2021–2027. Załącznik do uchwały nr 28 Rady Ministrów z dnia 18 lutego 2021 r. (poz. 290), s. 73, https://monitorpolski.gov.pl/M2021000029001.pdf [dostęp dn. 1.9.2021]. Serwis Rzeczypospolitej Polskiej, Otwarte dane – ustawa z podpisem Prezydenta, https://www.gov.pl/web/cyfryzacja/otwarte-dane–ustawa-z-podpisem-prezydenta