Otwarte dane wymagają nowego modelu myślenia

Dane nie są statyczne, dlatego nie powinno się o nich myśleć jak o stałym i jednorodnym obiekcie. To raczej nieustannie zmieniający się strumień. Przyjęcie takiej dynamicznej perspektywy może pomóc w zarządzaniu danymi, przekonuje w kolejnym odcinku Rozmów Otwartej Nauki Mark Parsons z Research Data Alliance

Jeśli chodzi o sposoby zachęty naukowców do udostępniania danych, to – zdaniem amerykańskiego eksperta – możliwość cytowania odgrywa tu istotną rolę. Takie rozwiązanie ogranicza jednak widoczność danych do publikacji naukowych. Gdyby natomiast opatrywać dane stałymi identyfikatorami, możliwe stałoby się śledzenie ich zastosowania w dowolnej dziedzinie. Niestety, podejście to nie cieszy się obecnie wystarczającą popularnością, by można było liczyć na jego rychłe upowszechnienie. 

Otwartość to dopiero pierwszy krok. Zapewnienie danym funkcjonalności, a także umożliwienie ich ponownego wykorzystania, to zadania znacznie bardziej skomplikowane – zauważa Parsons. W tym kontekście często mówi się o objętości, szybkości i różnorodności. Od strony technicznej poradzimy sobie z objętością i prędkością, jednak różnorodność będzie wymagała znacznie większej zmiany. Nie tylko z technicznego punktu widzenia, ale także ze względu na samych badaczy i ich sposoby zbierania i prezentowania danych.

Zapraszamy do obejrzenia całego wywiadu z Markiem Parsonsem, jak również do zapoznania się z pozostałymi rozmowami w cyklu.

Przepis Holendrów na repozytorium danych

DANS, czyli Data Archiving and Networked Services, to holenderski instytut zajmujący się archiwizacją i udostępnianiem danych naukowych. O przyjętych w nim rozwiązaniach rozmawialiśmy z jego dyrektorem – Peterem Doornem.

Peter Doorn,  dyrektor DANS (Data Archiving and Networked Services)

DANS funkcjonuje od 10 lat i, co podkreśla Doorn, zainteresowanie deponowaniem i ponownym wykorzystywaniem danych wzrasta z roku na rok. Zwraca jednak uwagę, że świadomość korzyści z udostępniania danych jest wśród badaczy różna w zależności od tego, jaką dyscyplinę naukową reprezentują. Z kolei za najważniejsze wyzwanie w przypadku otwartych danych uważa przekonanie naukowców do tej praktyki. Doorn dostrzega również skuteczność promowania otwartości wśród grantodawców – tak krajowych, jak i europejskich.

Zapytany o optymalne rozwiązania na szczeblu krajowym, odpowiada: Nie chcę twierdzić, że jedno konkretne rozwiązanie – scentralizowane lub zdecentralizowane – jest najlepsze.

Promujemy „federacyjną” infrastrukturę danych, w której różni gracze mają do wypełnienia różne role i różne obowiązki na różnych szczeblach.

Otwarte dane badawcze w nauce i gospodarce

Dane badawcze są dziś coraz częściej udostępniane przez światowe ośrodki naukowe, znajdując zastosowanie zarówno w samej nauce, jak i w obszarze komercyjnym. Do wzrostu zainteresowania nimi przyczyniła się popularność Big Data – wielkich zbiorów danych przetwarzanych na niespotkaną dotąd skalę i będących siłą napędową licznych innowacyjnych rozwiązań w biznesie i gospodarce.

W domenie nauki otwarte dane, oprócz możliwości lepszej weryfikacji wyników badań oraz zwiększenia ich interdyscyplinarnego potencjału, pozwalają również na bardziej precyzyjną ewaluację dorobku badaczy. Podobnie jak w przypadku artykułów publikowanych w otwartym dostępie, których oddziaływanie mierzy się za pomocą alternatywnych metryk, także w odniesieniu do otwartych danych możliwe jest zastosowanie nowych technik pomiaru pokazujących zainteresowanie konkretnym zbiorem. O to, co jest konieczne, by otwarte dane stały się trwałym elementem procesu badawczego, zapytaliśmy w kolejnym odcinku Rozmów Otwartej Nauki Marka Thorleya – specjalistę z zakresu danych badawczych w brytyjskiej Natural Environment Research Council.

W erze cyfrowej badania naukowe zasadniczo różnią się od badań w tradycyjnym sensie – zauważa Thorley.

Otwarty dostęp na Uniwersytecie Warszawskim

Obowiązek otwartego udostępniania wyników badań naukowych został dotychczas zadekretowany przez nieliczne instytucje badawcze w Polsce. Jednakże kilka krajowych ośrodków akademickich od kilku lat prężnie realizuje ideę Open Access, między innymi dzięki aktywnie funkcjonującym repozytoriom instytucjonalnym oraz licznym działaniom promocyjnym i szkoleniowym w tym zakresie. O to, jaki stosunek do otwartego dostępu mają władze największej polskiej uczelni, zapytaliśmy w kolejnym odcinku Rozmów Otwartej Nauki profesora Marcina Pałysa – rektora Uniwersytetu Warszawskiego.

Nagranie rozmowy z rektorem UW prof. Marcinem Pałysem
W różnych dyscyplinach nauk łatwość udostępniania wyników badań jest większa bądź mniejsza. W takiej uczelni jak UW, gdzie mamy bardzo wiele dyscyplin naukowych, będzie się to zmieniało w zależności od wydziału czy instytutu – mówi rektor Pałys.

Zarządzanie Big Data w ośrodku badań jądrowych CERN

Gdyby Europejska Organizacja Badań Jądrowych (CERN) chciała archiwizować wszystkie dane wytwarzane przez Wielki Zderzacz Hadronów, jej system przechowywania informacji o pojemności 100 petabajtów zapełniłby się już w ciągu kilku sekund. Dlatego – jak wyjaśnia w kolejnym odcinku Rozmów Otwartej Nauki dr Tim Smith, szef działu współpracy i informacji w CERN – proces przetwarzania danych w przypadku największego na świecie akceleratora, jakim jest WZH, zaczyna się już na poziomie samych detektorów.

The Large Hadron Collider/ATLAS at CERN Picture by Image Editor Flickr https://www.flickr.com/photos/11304375@N07/2046228644/in/photolist-47Psud-ogXshs-5sfgxt-5pFCnY-7Vzyne-7nSYdK-bGdiGc-oMUk5n-5k8PQZ-pFUdGj-4ZnpUM-5UEKRF-4jWdtw-akZbPz-eCx53n-5kuG4n-rjsMvt-oa4QqD-rJ4tHd-7vij5i-5zaZoE-4bWZXe-aVqQ5k-69X6kC-6gSj6e-5J9nmk-6xCZQS-aUZVq4-7h3jQ1-5tZEmr-4Nr1cy-crfnK1-gfzocb-7gB5xT-7mFhQK-7NsNze-5nnadf-akZwLD-5kXEUJ-3JSnxr-6c2qTw-63H3bQ-6acdxA-ruTopr-rMN4Z7-rynAKA-qStmJc-rLEXiG-ruhD4g-rwH4hY

Smith opowiedział nam o stosowanych w podgenewskim ośrodku rozwiązaniach, które pomagają naukowcom optymalizować ich prace badawcze, sposobach na bezpieczne długoterminowe przechowywanie danych, powodach, dla których warto je udostępniać, a także o tym, czy wyniki badań prowadzonych przez CERN znajdują zastosowanie poza fizyką molekularną.

Przechowywane przez nas dane to tylko ułamek wszystkich danych wytwarzanych w Wielkim Zderzaczu Hadronów – wyjaśnia Smith. Poruszające się w przeciwnych kierunkach cząsteczki zderzają się ze sobą 14 milionów razy na sekundę. Z kolei każdy detektor składa się z około 150 milionów czujników. Jeśli więc pomnożymy przez siebie te dwie wielkości, to otrzymujemy petabajty danych na sekundę wytwarzanych przez detektory. Nie ma możliwości, by przechować ani zanalizować taką ilość danych. W związku z tym proces przetwarzania danych zaczyna się już w samych detektorach. Stworzyliśmy odpowiednio zaprogramowany filtr umożliwiający ograniczenie ilości danych z petabajtów na sekundę do terabajtów na sekundę.

Additional information