Jak Stany Zjednoczone inwestują w superkomputery

Pod koniec października amerykański Departament Energii oficjalnie uruchomił Sierrę – drugi najbardziej zaawansowany superkomputer zbudowany w ramach projektu CORAL, czyli wspólnego przedsięwzięcia ośrodków badawczych Lawrence Livermore, Oak Ridge i Argonne. Kilka miesięcy wcześniej uruchomiony został Summit. Obie maszyny należą do najmocniejszych superkomputerów na świecie – Summit zajmuje pierwsze, a Sierra trzecie drugie miejsce w rankingu HPC Top500. O szczegółach projektu CORAL rozmawialiśmy z dr. Dimitri Kusnezovem z Departamentu Energii USA.

Poglądy wyrażone poniżej stanowią indywidualną opinię i niekoniecznie odzwierciedlają stanowisko Departamentu Energii bądź rządu Stanów Zjednoczonych.

Maciej Chojnowski: Powstałe w ramach projektu CORAL systemy Summit i Sierra zajmują w tej chwili odpowiednio pierwsze i trzecie drugie miejsce na liście najpotężniejszych superkomputerów świata. W wywiadzie udzielonym nam podczas konferencji Supercomputing Frontiers Europe 2018 powiedział Pan, że najistotniejsze w przypadku High Performance Computingu nie są same komputery, lecz cel, który dzięki nim staramy się osiągnąć. Jaki jest zatem cel wspomnianych systemów? Do jakiego rodzaju prac zostaną wykorzystane?

Dimitri Kusnezov: To dobre pytanie. Wykorzystujemy środki publiczne, by wspierać projektowanie i budowę tych niezwykłych superkomputerów. Lecz to tylko narzędzia – musimy więc być pewni, że są odpowiednie, by sprostać najważniejszym problemom, z którymi obecnie mamy do czynienia, ale też że zwrot z inwestycji (ROI) dalece przekroczy koszty ich budowy – chodzi o korzyści liczone w setkach milionów dolarów. Pozycji w rankingu nie powinno się rozumieć jako miernika sukcesu czy ogólnej przydatności takiego narzędzia. Może to być mylące i prowadzić do wyboru wskaźników nie dość dobrze określających procesy, które powinny stanowić podstawę do zaprojektowania optymalnego systemu.

Z kilkuletnim wyprzedzeniem bacznie się przyglądamy, kto będzie używał tych systemów i jaka opcja będzie najbardziej wydajna – np. rozwiązanie chmurowe czy może zbiór mniejszych systemów itd. Wszystko zależy od rodzaju problemów, które uważa się za warte takich inwestycji. Potrzeba wielu lat, aby zaprojektować i stworzyć tak duże systemy, dlatego odpowiednio wcześnie rozwijamy oprogramowanie, żeby móc testować wydajność na prototypach, zanim zostaną stworzone ostateczne wersje.

Wracając do pańskiego pytania: jaki jest zwrot z inwestycji i czemu będą służyły te systemy? Jeden z nich jest przeznaczony do rozwiązywania precyzyjnie określonych kwestii związanych z bezpieczeństwem jądrowym, zaś drugi do zastosowań w otwartych projektach służących środowisku naukowemu i technologicznemu. Co ciekawe, problemy zarówno z obszaru badań podstawowych, jak i stosowanych są rozwiązywane na obu tych systemach – różne są tylko pytania, na które dostarczają one odpowiedzi.

Zwrot z inwestycji postrzegam przez pryzmat kilku mierników. W przypadku Sierry mamy do czynienia z problemami, które wpływają na decyzje dotyczące miliardów dolarów. Nie jest więc trudno to sobie przeliczyć. Jeśli chodzi o decyzje podejmowane na podstawie symulacji, to zaufanie wobec predykcji jest bardzo ważne. Określamy to jako „kwantyfikację niepewności” (uncertainty quantification) i bywa, że wymaga to dużych mocy obliczeniowych – większych nawet od tych, którymi dysponujemy obecnie. Część tych zagadnień poruszyłem podczas swojego wystąpienia zimą tego roku na konferencji Supercomputing Frontiers Europe 2018 (zebrałem te wątki w artykule: https://arxiv.org/pdf/1804.11002.pdf). W przypadku badań stosowanych oraz wykorzystania HPC w technologii zwrot z inwestycji jest rzędu pięćset do jednego. Oznacza to, że z każdego zainwestowanego dolara otrzymuje się zwrot około 500 dolarów w produktywności, wartości rynkowej itp. W odniesieniu do badań podstawowych można mierzyć oddziaływanie danej pracy i oszacować, czy wyniki wpłynęły na znaczące zmiany w rozumieniu kluczowych problemów: np. czy były to najważniejsze odkrycia naukowe – z pierwszej piątki czy dziesiątki – czy może mniej istotne. Obiektywna ocena może pomóc zmierzyć efektywność tych systemów. Jednak ten rodzaj zwrotu zależy od uprzedniego zaplanowania ich wykorzystania, tak by zmaksymalizować rezultaty osiągane w okresie 4–5 lat pracy superkomputera.

Jak zauważył CEO Nvidii Jensen Huang, systemy wykorzystane w superkomputerach Sierra i Summit zostały tak zaprojektowane, że jest to „nowa rasa komputerów”. Oczekuje się, że pozwolą one naukowcom realizować zadania związane ze sztuczną inteligencją równolegle z prowadzeniem symulacji. Dzięki jakim kluczowym komponentom technologicznym jest to możliwe i dlaczego ma to tak istotne znaczenie?

Znajdujemy się dziś w okresie niezwykłych zmian technologicznych. Sztuczna inteligencja odgrywa coraz ważniejszą rolę we wszystkich naszych działaniach, od danych z czujników i detekcji, przez metody nauczania takie jak uczenie maszynowe, decyzje oparte na wyszukiwaniu, planowaniu i weryfikacji, skończywszy zaś na narzędziach autonomicznych i interfejsach człowiek-sztuczna inteligencja. Kiedy kilka lat temu rozpoczynaliśmy projekt egzaskalowy, nie myśleliśmy o zastosowaniach w obszarze sztucznej inteligencji. Ale wraz z rozwojem technologii stało się dla nas jasne, że architektury hybrydowe pomagają nam lepiej rozumieć uczenie maszynowe. W przypadku omawianych systemów, kierowaliśmy swoją uwagę w różnych kierunkach, począwszy od projektu płyt głównych, węzłów obliczeniowych chłodzonych wodą, przez zwiększanie wydajności układów GPU, harmonogramowanie zadań, diagnostykę i wykorzystanie buforów, aż po odciążanie obliczeń w warstwie sieciowej, wydajność i skalowalność systemów GPFS. Są to środki umożliwiające lepszą produktywność, których nadrzędnym celem jest umożliwić pierwsze kroki w kierunku wprowadzenia sztucznej inteligencji do predykcji opartej na modelach. Zaczniemy badania, jak wzmocnić symulacje komputerowe metodami opartymi na uczeniu maszynowym z wykorzystaniem informacji pochodzących z wcześniejszych tradycyjnych symulacji komputerowych. Potrzeba więc delikatnego przesunięcia w naszych systemach HPC. Jako narzędzia, systemy te mogą nam pomóc rozumieć uczenie maszynowe na różne sposoby, wiemy jednak, że nie są one zoptymalizowane pod tym kątem. Obecnie na świecie rozwija się cała gałąź przemysłu oferująca nowatorskie rozwiązania hardware’owe na potrzeby sztucznej inteligencji, specjalnie zaprojektowane i zbudowane, co może przynieść znaczne przyspieszenie. Zdecydowanie dążymy także w tym kierunku.

Dimitri Kusnezov, Supercomputing Frontiers Europe 2018

Stworzona przez IBM architektura dla systemów w projekcie CORAL łączy możliwości analizy danych właściwe procesorom Power9 z potencjałem uczenia głębokiego typowego dla procesorów graficznych. Czego spodziewają się Państwo po takiej architekturze?

Abstrahując od wydajności energetycznej, zalet topologii wykorzystujących tzw. fat nodes i złożonej hierarchii pamięci, tym, co naprawdę kilka lat temu przykuło moja uwagę, była koherentna przestrzeń danych w węzłach oraz liczba gniazd PCIe. Dało to nam możliwość poznawania nowych sposobów równoległego wykorzystania technologii neuromorficznych czy uczenia maszynowego z bardziej tradycyjnymi podejściami do symulacji komputerowych. Uważam, że przyszłość symulacji predykcyjnych będzie wymagała zrobienia odważnego kroku w stronę rozwiązań z obszaru AI zorientowanych na analizę danych i takie właśnie architektury są odpowiednie do pierwszej próby zrozumienia, jak zintegrować metody uczenia maszynowego z bardziej tradycyjnymi podejściami do predykcji opartej na modelach. To rzeczywiście wydaje mi się ekscytujące.

Dlaczego jest to ważne? Nasz departament powinien nosić nazwę Departament Trudnych Problemów albo Departament Modelowania. Rozwijamy obliczenia i symulacje nie jako cele same w sobie, lecz jako narzędzia pomocne przy znalezieniu właściwych odpowiedzi na ważne pytania. Od bezpieczeństwa jądrowego przez energetykę aż po cyberbezpieczeństwo – chodzi o decyzje mające nas zabezpieczyć przed sytuacjami, które miejmy nadzieję nigdy się nie wydarzą, i podejmowane przy ograniczonych środkach. Symulacje mają nam umożliwić zrozumienie problemów, z którymi się stykamy, oraz dostarczać możliwe rozwiązania. Jednak pozbawione rygorystycznych ram, które gwarantowałyby ich wiarygodność, symulacje nie są predykcjami i trudno na nich oprzeć swoje działania. Z tego właśnie względu rozwijamy walidację, weryfikację, kwantyfikację niepewności oraz wiele innych metod niezbędnych, byśmy bezkrytycznie nie ufali naszym predykcjom. Wspomniane architektury systemowe zbliżają nas ku rozwiązaniom, które ostatecznie pomogą nam poradzić sobie z tymi problemami – będą one bardziej inteligentne, będą lepiej radzić sobie z zalewem danych eksperymentalnych i numerycznych, i będą miały lepsze możliwości kognitywne. Architektury te jako bardziej „inteligentne” pomogą nam rozpocząć przejście do problemów z obszaru kwantyfikacji niepewności, które uważam za problemy NP-trudne w sensie teorii złożoności, a w konsekwencji niełatwe do rozwiązania z wykorzystaniem tradycyjnej architektury von Neumanna.

W kwietniu tego roku ogłoszono, że Departament Energii USA zamierza wydać 1,8 miliarda dolarów na zbudowanie trzech superkomputerów egzaskalowych. Będzie to program CORAL-2. W obu programach – zarówno CORAL, jak i CORAL-2, wymagane są maszyny o zróżnicowanej architekturze: systemy powstałe w CORAL są efektem współpracy IBM, Nvidii i Mellanox, podczas gdy budowany w ramach CORAL-2 system A21 zostanie wyprodukowany przez Intela i Craya. Z czego wynika ta różnorodność?

Różnorodność w sektorze technologicznym oraz konkurencyjne rozwiązania, które pojawiają się, gdy rzucamy wyzwanie związane z nowymi projektami, pomaga napędzać innowacje i jest ważną częścią cyklu rozwoju technologii. Szukamy podejść, w których różne firmy mogą współpracować na rzecz jednego rozwiązania, co pomaga im wykorzystywać swoje mocne strony i procesy rozwoju produktów. W ten sposób dzięki wspólnemu dzieleniu kosztów i ponoszeniu ryzyka możliwe jest powstanie nowych architektur oraz rozwiązań z obszaru hardware’u i software’u, które w przeciwnym razie byłyby trudne do stworzenia. Prowadzimy również prace badawczo-rozwojowe we współpracy z sektorem technologicznym, by pomóc w rozwoju technologii, które inaczej nie byłyby dla nas dostępne, a które można uzgodnić z planami rozwoju poszczególnych firm. Z im większym zbiorem firm mamy do czynienia, tym więcej pomysłów może się pojawić.

Dziękuję za rozmowę.

 

W marcu 2018 r. dr Dimitri Kusnezov był jednym z głównych prelegentów na konferencji Supercomputing Frontiers Europe 2018 w Warszawie. Nagrany wówczas wywiad wideo oraz jego wystąpienie konferencyjne są dostępne w sekcji MEDIA na stronie SCFE.

Rejestracja na konferencję SCFE2019 już się rozpoczęła.