Распределенные вычисления в облаке: Spark
Spark — это платформа кластерных вычислений с открытым исходным кодом и преимуществами MapReduce. Узнайте, как работает Spark.
Цели обучения
В этом модуле рассматриваются следующие темы:
- Вспомним возможности платформы итеративного программирования
- Опишем архитектуру и поток заданий в Spark
- Вспомним роль отказоустойчивых распределенных наборов данных (RDD) в Spark
- Опишем свойства RDD в Spark
- Сравним RDD с распределенными системами с общей памятью
- Опишем механизмы обеспечения отказоустойчивости в Spark
- Опишем роль журнала преобразований в RDD для отказоустойчивости и восстановления
- Разберемся в различных типах зависимостей между RDD
- Разберемся в основных операциях в RDD Spark
- Шаг за шагом создадим простую итеративную программу Spark
- Вспомним различные библиотеки Spark и их функции
В партнерстве с доктором Маджд Сакр и Университетом Карнеги Меллон.
Предварительные требования
- Понимание темы облачных вычислений, в том числе знакомство с моделями и некоторыми поставщиками облачных служб.
- Знание технологий, лежащих в основе облачных вычислений.
- Представление о том, как поставщики облачных служб управляют оплатой и выставлением счетов за использование облака.
- Знание понятия центров обработки данных и их назначения.
- Знания в области настройки, поддержки и подготовки центров обработки данных.
- Представление о том, как подготавливаются и измеряются облачные ресурсы.
- Знакомство с понятием виртуализации.
- Знание различных типов виртуализации.
- Представление о виртуализации ЦП.
- Представление о виртуализации памяти.
- Представление о виртуализации ввода-вывода.
- Знания различных типов данных и об их хранении
- Знакомство с распределенными файловыми системами и принципами их работы.
- Знакомство с базами данных NoSQL и хранилищем объектов, а также с принципами их работы
- Представление о том, что такое распределенное программирование и почему оно подходит для облачной среды
- Представление о MapReduce и о том, каким образом эта модель позволяет выполнять вычисления с большими объемами данных