Распределенные вычисления в облаке: Spark

Начальный уровень
Разработка
Учащийся
Azure

Spark — это платформа кластерных вычислений с открытым исходным кодом и преимуществами MapReduce. Узнайте, как работает Spark.

Цели обучения

В этом модуле рассматриваются следующие темы:

  • Вспомним возможности платформы итеративного программирования
  • Опишем архитектуру и поток заданий в Spark
  • Вспомним роль отказоустойчивых распределенных наборов данных (RDD) в Spark
  • Опишем свойства RDD в Spark
  • Сравним RDD с распределенными системами с общей памятью
  • Опишем механизмы обеспечения отказоустойчивости в Spark
  • Опишем роль журнала преобразований в RDD для отказоустойчивости и восстановления
  • Разберемся в различных типах зависимостей между RDD
  • Разберемся в основных операциях в RDD Spark
  • Шаг за шагом создадим простую итеративную программу Spark
  • Вспомним различные библиотеки Spark и их функции

В партнерстве с доктором Маджд Сакр и Университетом Карнеги Меллон.

Предварительные требования

  • Понимание темы облачных вычислений, в том числе знакомство с моделями и некоторыми поставщиками облачных служб.
  • Знание технологий, лежащих в основе облачных вычислений.
  • Представление о том, как поставщики облачных служб управляют оплатой и выставлением счетов за использование облака.
  • Знание понятия центров обработки данных и их назначения.
  • Знания в области настройки, поддержки и подготовки центров обработки данных.
  • Представление о том, как подготавливаются и измеряются облачные ресурсы.
  • Знакомство с понятием виртуализации.
  • Знание различных типов виртуализации.
  • Представление о виртуализации ЦП.
  • Представление о виртуализации памяти.
  • Представление о виртуализации ввода-вывода.
  • Знания различных типов данных и об их хранении
  • Знакомство с распределенными файловыми системами и принципами их работы.
  • Знакомство с базами данных NoSQL и хранилищем объектов, а также с принципами их работы
  • Представление о том, что такое распределенное программирование и почему оно подходит для облачной среды
  • Представление о MapReduce и о том, каким образом эта модель позволяет выполнять вычисления с большими объемами данных