
Ilość danych, które zostaną zebrane przez Vera C. Rubin Observatory, które wydało w tym tygodniu wspaniałe zdjęcia pierwszego światła, znacznie przewyższy to, co dostarczył każdy teleskop, zanim udało mu się dostarczyć. Doprowadziło to astronomów do podjęcia kroku przetwarzaniu w chmurze – a także pozyskanie pomocy siedmiu brokerów i kamerdynera danych.
Gdy będzie w pełni uruchomić, Obserwatorium Rubina (Finansowane przez amerykańską National Science Foundation – Department of Energy) będzie zbierać 20 terabajtów danych każdej nocy. Analizując te dane, wyda astronomom 10 milionów alertów, z których wszystkie będą zarządzane przez tak zwane „brokerzy”, którzy filtrują ogromną liczbę alertów w coś łatwiejszego do zarządzania.
„Jeśli chodzi o dane, jesteśmy co najmniej rzędu wielkości większej niż poprzednie teleskopy”, powiedział, informatyk University of Edinburgh George Beckett, który jest koordynatorem budownictwa danych w Wielkiej Brytanii dla Rubina, powiedział Rubin Space.com.
W ciągu następnych 10 lat zbierze się starsze badanie przestrzeni i czasu Rubina o 500 petabajtów danych, co odpowiada pół miliona dysków Blu-ray 4K-UHD. Po zebraniu przez teleskop dane zostaną przesyłane wzdłuż dedykowanego połączenia sieciowego między Rubinem, który znajduje się w Chile, a centrum danych w SLAC National Accelerator Laboratory w Kalifornii. Z SLAC kopia wszystkich surowych danych zostanie wysłana do obiektu obliczeniowego IN2P3 w Lyonie we Francji, a niektóre dane zostaną również wysłane do brytyjskiej rozproszonej sieci obliczeniowej.
Przetwarzanie danych zostanie udostępnione między tymi trzema centrami danych, przy czym SLAC przyczyni się do 35%, In2P3 zajmuje 40%, a Wielka Brytania 25%. (Istnieje również skromne centrum danych w Chile, w którym obsługuje obserwatorium Rubin, aby wspierać chilijskie astronomowie.) Nie tylko wiele centrów danych zapewnia redundancję, więc dane nie mogą zostać utracone w wypadku, ale mogą również wspierać się, jeśli jedno centrum danych pozostaje w zależności od przetwarzania. To dlatego, że to, co naprawdę liczy się dla astronomów, jest szybkie wyprowadzanie ważnych danych, aby mogli jak najszybciej wykonać interesujące alerty.
„Moim największym wyzwaniem jest to, że astronomowie nieustannie wymagają swoich danych!” Żartował Beckett.
Ta ogromna ilość danych będzie cennym zasobem dla astronomów nie tylko tu i teraz, ale także dziesięcioleci w przyszłości.
Jak więc szukać tego wszystkiego?
Beckett przyciąga analogię do wyszukiwania zdjęcia wykonanego na smartfonie. „Twój telefon jest prawdopodobnie pełen zdjęć, które zrobiłeś w ciągu ostatnich pięciu lub 10 lat, a odkrycie, że jedno zdjęcie sprzed dwóch lat zwykle polega na przebiciu i jest to trochę fragmentaryczne podejście” – powiedział. „Teraz wyobraź sobie, że Twój telefon ma 1,5 miliona zdjęć i wszystkie są o szerokości 10 000 pikseli, nie masz szansy na ich przebicie”.
Beckett mówi, że przywracając tę analogię do zestawu danych Rubin, jest dostarczenie dostępnych opisów wszystkich tych obrazów w sposób, w jaki astronomowie mogą znaleźć to, czego szukają ze względną łatwością. To jeden z powodów, dla których obsługa danych Rubina jest różne w porównaniu z poprzednimi teleskopami, z którymi astronomowie mogą pobierać kieszenie danych, których potrzebują bez zbyt dużej złożoności. Zestaw danych dla Rubina jest po prostu zbyt duży, aby pobrać – więc wszystko jest przechowywane w „chmurze”.
Zestaw danych Rubin jest zarządzany przez usługę o nazwie Data Butler. Rejestruje wszystkie metadane, które są danymi o danych – godzinie, daty, współrzędnych Sky, co jest na obrazie i tak dalej.
„Astronom może wymyślić prawie każde zapytanie, które chcą pisać w terminie astronomii, rozmawiając o obiektach astronomicznych, skalach czasowych lub systemach koordynowanych, a kamerdyner danych pobiera to, czego potrzebują” – powiedział Beckett.
To dotyczy długoterminowych badań, ale istnieją również przejściowe, poruszające się przedmioty, rzeczy, które uderzają w noc, które wywołały powiadomienia, aby skłonić astronomów do ścigania ich, zanim przestanie znikną. Obejmują one supernoweW Kilonovas te produktu Fale grawitacyjneNovas, gwiazdy flary, zaćmienie binarne, wybuchy magnetutarne, asteroidy I komety porusza się po niebie, Quazarsi wiele więcej, być może nawet nowe rodzaje obiektów nigdy wcześniej nie widziane. Rubin wytworzy około 10 milionów alertów każdej nocy, uwalniając każdy alert w ciągu dwóch minut od wykrycia teleskopu: Nawet przy pomocy Butlera danych, w jaki sposób astronomowie mogą przesiewać przez wszystkie, aby znaleźć najważniejsze?
Istnieje siedmiu brokerów, obsługiwanych przez naukowców w różnych krajach, którzy przetworzą pełne 10 milionów alertów (i dwóch kolejnych brokerów o określonych celach naukowych, które będą działać tylko w podzbiorze 10 milionów dziennych alertów). Na przykład istnieje chilijski broker o nazwie Alerce, stojący do automatycznego uczenia się w celu szybkiej klasyfikacji zdarzeń i Antares, analiza czasowa Arizona – Nirlab i reakcja na systemy zdarzeń. Brytyjski broker nazywa się Lasair (wymawiany Lah-Suhr, co oznacza „Flame” lub „Flash” w języku szkockim i irlandzkim gaelickim) i koncentruje się na przejściach.
Pomyśl o brokerach jako o zestawie filtrów, które astronomowie mogą zdecydować się na przesiewanie alertów i wybrać te, którymi są najbardziej zainteresowani. Niektórzy brokerzy używają algorytmów uczenia maszynowego i sztucznej inteligencji, ale bardziej tradycyjne metody modelowania są również używane do szybkiego przetwarzania danych.
„Astronomowie mogą zapisać się do brokera, opisać rzeczy, które są zainteresowani, i mieć nadzieję, że przy odpowiednich opisach 10 milionów alertów każdej nocy zostanie przefiltrowanych do może dwóch lub trzech” – powiedział Beckett.
Nie chodzi o to, że pozostałe 9 999 998 powiadomień nie ma wartości-być może nie są to, że astronom jest zainteresowany, a może nie są wystarczająco wyjątkowe, aby żądać dedykowanych obserwacji, ale dodają statystyki dla każdego rodzaju obiektu.
Rubin co noc będzie badać jedną czwartą nieba na półkuli południowej, widząc wszystko i nic nie tracą. Można by pomyśleć, że to ankieta polegająca na zakończeniu wszystkich ankiet, że nigdy nie będzie większej ankiety, która wytworzy więcej danych. Jednak Beckett pracuje również w zespole zarządzania danymi dla Tablica kilometra kwadratowego (SKA), który jest ogromną gamą teleskopów radiowych w Południowej Afryce i Australii, a techniki opracowane dla Rubina i wyciągnięte wnioski mają na celu przekazanie danych dla SKA znacznie płynniej.
„Rozmiar zestawu danych Rubina zostanie zalany przez SKA, który będzie rzędem wielkości większą niż Rubin” – powiedział Beckett.
Zawsze jest większa ryba!