Text Mining w naukach medycznych w oparciu o WBN
ICM UW rozwija i dostarcza w Polsce framework Taxila służący do szybkiej i praktycznej analizy tekstów naukowych. Dzięki współpracy z Systems Biology Institute Tokyo oraz zasobom Wirtualnej Biblioteki Nauki, z warsztatów dedykowanych wykorzystaniu Taxila w onkologii oraz w badaniach nad Covid-19, skorzystało już kilkudziesięciu lekarzy i naukowców z uznanych ośrodków w całej Polsce.
Taxila to oparta na sztucznej inteligencji platforma umożliwiająca analizę tekstu w dużej skali i uzyskiwaniu na jego podstawie naukowego wglądu. Framework wykorzystuje technologię text-miningu: konwersji tekstu zawartego w wielu rodzajach dokumentów na struktury danych odpowiednich dla różnych algorytmów. W szczególności, operując na ogromnym zbiorze publikacji, Taxila pozwala na generację hipotez naukowych łączących różne obszary wiedzy zawartej w tekście za pomocą narzędzi takich jak: analiza tagów, wyszukiwanie korelacji pomiędzy pojęciami czy wizualizacja grafowa.
ICM udostępnia narzędzie Taxila na podstawie umowy o współpracy naukowej z Systems Biology Institute Tokyo (SBI) oraz w oparciu o zasoby licencyjne gromadzone przez Wirtualną Bibliotekę Nauki dostępne dla polskich instytucji objętych licencją. W ramach warsztatów dotyczących onkologii, integracja Taxila z WBN pozwala obecnie na analizę 25 tys. pełnych artykułów naukowych, głównie z czasopism Springer i Elsevier i jest stale powiększana o kolejne teksty.
„Jesteśmy jak dotąd jedyną jednostką naukową na świecie posiadającą zainstalowany system informatyczny Taxila, który w połączeniu w korpusem WBN umożliwia automatyczną analizę tysięcy artykułów naukowych. Naszym najbliższym celem jest zwiększenie puli artykułów naukowych z 25 do 100 tysięcy i kolejne szkolenia dla środowiska medycznego, a w przyszłości dostęp do frameworku dla lekarzy, badaczy i studentów uczelni medycznych, w tym włączenie aplikacji w ofertę nowo powstającego Wydziału Medycznego na UW – informuje dr inż. Robert Sot, dyrektor Interdyscyplinarnego Centrum Modelowania Matematycznego i Komputerowego na Uniwersytecie Warszawskim.
Warsztaty z Text Mining odbywają się w dwudziestoosobowych grupach i prowadzone są w języku angielskim przez instruktorów SBI. Do tej pory odbyły się spotkania poświęcone tematom medycznym: “Taxila: Empowering the fight against COVID-19 through text” oraz dwie edycje “Taxila global scientific literature text-mining intelligence for oncology research”. W wydarzeniach wzięli udział pracownicy naukowi, lekarze i badacze z uniwersytetów i uczelni medycznych w Gdańsku, Krakowie, Lublinie, Białymstoku, Katowicach i Warszawie, Narodowego Instytutu Onkologii (Warszawa, Gliwice), Instytutu Matki i Dziecka, Międzynarodowego Instytutu Biologii Molekularnej i Komórkowej, Agencji Badań Medycznych oraz kilku innych jednostek badawczych.
Szczegóły dotyczące kolejnych edycji warsztatów będą publikowane na stronie Akademii ICM.
Wirtualna Biblioteka Nauki (WBN) to program zakupu i udostępniania światowych zasobów wiedzy w postaci elektronicznych czasopism, książek i baz danych dla polskich instytucji akademickich i naukowych. Program jest dofinansowany przez Ministerstwo Edukacji i Nauki i realizowany w większości przez ICM. W ramach WBN kupowany jest dostęp do zasobów na serwerach wydawców w ramach corocznie odnawianych licencji, ale duża część zasobów jest na bieżąco archiwizowana na serwerze Infona w ICM, który zapewnia możliwość bezterminowego korzystania z archiwów w przypadku czasowej lub trwałej utraty dostępu do serwerów wydawców, w szczególności w przypadku niekontynuowania licencji.
W ramach licencji krajowych i konsorcyjnych dla ponad 500 instytucji, WBN udostępnia 26 tys. tytułów czasopism i 157 tys. tytułów książek. Liczba pobrań w 2021 r. wyniosła odpowiednio 18 mln art. i 5,2 mln rozdziałów książek, a z możliwości przeszukań baz danych badacze skorzystali 7,9 mln razy. Szczegóły dotyczące licencji oraz programów publikowania otwartego dostępne są na stronie wbn.icm.edu.pl
Zobacz także:
COVID-19 Taxila – wersja open source
Akujuobi U., Spranger M., Palaniappan S.K., Zhang X. 2020 T-PAIR: Temporal Node-pair Embedding for Automatic Biomedical Hypothesis Generation IEEE Transactions on Knowledge Sand Data Engineering
Hiroaki Kitano, Nobel Turing Challenge — Creating the Engine of Scientific Discovery (VIRTUAL ICM SEMINARS) https://www.youtube.com/watch?v=OwINVXEusQY