Rozproszone przetwarzanie w chmurze: GraphLab
GraphLab to narzędzie do obsługi danych big data opracowane przez Carnegie Mellon University, które ułatwia wyszukiwanie danych. Dowiedz się, jak działa oprogramowanie GraphLab i dlaczego jest przydatne.
Cele szkolenia
Zawartość tego modułu:
- Opis unikatowych funkcji w narzędziu GraphLab i typów aplikacji, dla których jest przeznaczone
- Przedstawienie funkcji struktury programowania równoległego i rozproszonego opartego na grafach
- Przedstawienie trzech głównych elementów aparatu GraphLab
- Opis czynności związanych z aparatem wykonywania GraphLab
- Opis modelu architektonicznego oprogramowania GraphLab
- Przedstawienie strategii planowania w narzędziu GraphLab
- Opis modelu programowania narzędzia GraphLab
- Lista poziomów spójności w oprogramowaniu GraphLab i ich wyjaśnienie
- Opis strategii umieszczania danych w pamięci w narzędziu GraphLab i jej wpływ na wydajność niektórych typów grafów
- Omówienie modelu obliczeniowego oprogramowania GraphLab
- Omówienie mechanizmów odporności na awarie oprogramowania GraphLab
- Opis czynności związanych z wykonywaniem programu GraphLab
- Porównanie oprogramowania MapReduce, Spark i GraphLab pod względem modeli programowania, obliczeń, przetwarzania równoległego, architektury i planowania
- Identyfikowanie odpowiedniego aparatu analitycznego zależnie od cech aplikacji
We współpracy z dr. Majdem Sakrem i uniwersytetem Carnegie Mellon University.
Wymagania wstępne
- Zrozumienie idei przetwarzania w chmurze, w tym modeli usług w chmurze, i zapoznanie się z najpopularniejszymi dostawcami usług w chmurze
- Znajomość technologii umożliwiających przetwarzanie w chmurze
- Zrozumienie, jak dostawcy usług w chmurze płacą za korzystanie z chmury oraz pobierają za to opłaty
- Wiedza o tym, czym są centra danych oraz dlaczego istnieją
- Wiedza na temat sposobu konfiguracji, zasilania i aprowizacji centrów danych
- Wiedza na temat sposobu aprowizacji i mierzenia zasobów chmury
- Znajomość koncepcji wirtualizacji
- Znajomość różnych typów wirtualizacji
- Zrozumienie wirtualizacji procesora
- Zrozumienie wirtualizacji pamięci
- Zrozumienie wirtualizacji we/wy
- Znajomość różnych typów danych i sposobów ich przechowywania
- Znajomość działania rozproszonych systemów plików
- Znajomość działania baz danych NoSQL i magazynu obiektów
- Znajomość programowania rozproszonego oraz wiedza o tym, dlaczego jest ono przydatne w chmurze
- Zrozumienie usługi MapReduce i sposobu, w jaki umożliwia ona przetwarzanie danych big data
- Zrozumienie sposobu działania platformy Spark i cech, którymi różni się od usługi MapReduce