mgr Łukasz Tracewski

Obliczenia rozproszone z wykorzystaniem Apache Spark

Apache Spark jest narzędziem umożliwiającym rozproszone przetwarzanie danych. Łatwość konfiguracji i programowania nań, połączona z wysoką skalowalnością i wydajnością, sprawiła, że w ostatnim czasie zyskał on ogromną popularność zarówno w przemyśle, jak i w środowisku akademickim. Oprócz algorytmów ogólnego przeznaczenie dostarcza on również szeroki wachlarz algorytmów samouczących i możliwość obliczeń na grafach. Do dyspozycji użytkownika są interfejsy w języku Python, Java, Scala i R. Apache Spark jest dostępny na PL Grid. W trakcie seminarium przedstawię pokrótce technologię stojącą za Apache Spark, a następnie przejdę do praktycznej demonstracji możliwości narzędzia na niewielkim klastrze obliczeniowym.