IDUB: Zintegrowana baza danych atmosferycznych w Repozytorium Otwartych Danych RepOD

Wspólny projekt IGF–ICM ułatwi gromadzenie i wykorzystanie danych o stanie atmosfery i umożliwi realizację nowych prac badawczych i badawczo-rozwojowych z zakresu fizyki atmosfery i modelowania numerycznego. Zebrane przez zespół IGF–ICM doświadczenie może być szeroko wykorzystane i łatwo zaimplementowane na potrzeby innych Jednostek UW, gromadzących dane pomiarowe i obserwacyjne rożnych typów.

Dzięki współpracy Instytutu Geofizyki Wydziału Fizyki UW (IGF) z Interdyscyplinarnym Centrum Modelowania Matematycznego i Komputerowego UW (ICM), powstała wielofunkcyjna, zintegrowana baza atmosferycznych danych obserwacyjno-pomiarowych i wyników symulacji, wraz z dostępem dla Zakładu Fizyki Atmosfery IGF do systemu udostępniania tych danych w Repozytorium Otwartych Danych RepOD. Zbudowana infrastruktura informatyczna zapewnia bezpieczeństwo związane z gromadzeniem, przechowywaniem i udostępnianiem danych naukowych oraz zgodność z zasadami FAIR data – findability, accessibility, interoperability, reusability. Projekt powstawał w latach 2021-2023 w ramach programu Inicjatywa Doskonałości – Uczelnia Badawcza (IDUB), Priorytetowy Obszar Badawczy III: Wyzwanie petabajtów.

Uruchomiona baza danych pozwala na bezpieczne przechowywanie i udostępnianie danych, zarówno bieżących jak i archiwalnych, z pomiarów atmosferycznych prowadzonych w trybie ciągłym przez Laboratorium Transferu Radiacyjnego i Laboratorium Pomiarów Zdalnych IGF. W bazie przechowywać można również dane z bieżących i archiwalnych pomiarów sieci PolandAOD oraz dane z kampanii pomiarowych, takich jak kampania w ramach projektu EUREC4A-ATOMIC. Aby dane przechowywane w bazie udostępnić publicznie, należy umieścić je w systemie RepOD. Udostępniane dane mogą być surowe lub przetworzone, po kontroli jakości, skompresowane do plików ZIP i uzupełnione o odpowiednie metadane, czyli opisy charakteryzujące udostępniany zbiór danych.

Na potrzeby utworzonej zintegrowanej bazy, w systemie RepOD utworzona została dedykowana kolekcja danych Zakładu Fizyki Atmosfery (Dataverse). Jest to miejsce, gdzie przechowywane i udostępniane mogą być kolejne zbiory danych (Datasets), takich jak zbiór danych pomiarowych z kampanii EUREC4A-ATOMIC. System RepOD oparty jest na otwartym harwardzkim oprogramowaniu „The Dataverse Project”. Umożliwia przechowywanie, przeglądanie, udostępnianie oraz pobieranie danych bezpośrednio z poziomu przeglądarki intermetowej. Udostępnienie zbioru danych w RepOD umożliwia również jego włączenie w inne ekosystemy, np. OpenAIRE. Aktualnie nie ma ograniczenia wielkości zbioru danych udostępnianych w RepOD, ale pojedynczy przesyłany plik ZIP nie może przekroczyć 5.0 GB. Korzystanie z RepOD jest darmowe i otwarte dla wszystkich użytkowników, jednak niektóre funkcje, związane z przechowywaniem i publicznym udostępnianiem danych, wymagają wcześniejszej rejestracji.

Zdeponowane w RepOD zbiory danych otrzymują numer DOI. Numer DOI zostaje wstępnie przypisany do zbioru danych podczas ich deponowania, jeszcze przed publikacją. Dzięki temu możliwe jest powiązanie danych z publikacją, poprzez wskazanie w publikacji odpowiedniego DOI, bez konieczności udostępniania danych przed ukazaniem się publikacji. Aktywacja numeru DOI następuje w momencie aktywacji zbioru. Zarówno opis zbioru (Metadane), jak i sam zbiór danych (Dataset), zgodnie z regulaminem RepOD, zawsze udostępniane są na licencji CC0. Istnieje jednak możliwość wybrania innej licencji dla poszczególnych plików w zbiorze.

Wspólny projekt IGF–ICM ułatwi gromadzenie i  wykorzystanie danych o stanie atmosfery i umożliwi realizację nowych prac badawczych i badawczo-rozwojowych z zakresu fizyki atmosfery i modelowania numerycznego. Zespół IGF–ICM kontynuuje prace w zakresie dalszego rozwoju bazy danych. Planowane jest m.in. dodanie do bazy kolejnych laboratoriów, z zaimplementowanym automatycznym transferem pozyskanych danych pomiarowych oraz usprawnienie zarządzania procesem wykonywania kopii zapasowych i udostępniania danych. Zebrane przez zespół IGF–ICM doświadczenie może być szeroko wykorzystane i łatwo zaimplementowane na potrzeby innych Jednostek UW, gromadzących dane pomiarowe i obserwacyjne rożnych typów.

Źródło: IGF UW