Подключение Excel к Apache Hadoop с помощью Power Query

Одной из ключевых особенностей решения Майкрософт для работы с большими данными является интеграция компонентов бизнес-аналитики Майкрософт с кластерами Apache Hadoop в службе Azure HDInsight. Важнейшим примером является возможность подключения Excel к учетной записи хранения Azure, в которой хранятся данные, связанные с кластером Hadoop, с помощью надстройки Microsoft Power Query для Excel. В этой статье приводится пошаговое руководство по настройке и использованию Power Query для запроса данных, связанных с кластером Hadoop, который управляется с помощью HDInsight.

Предварительные требования

Установка Microsoft Power Query

Power Query может импортировать данные, которые были выведены или созданы заданием Hadoop, выполняющимся в кластере HDInsight.

В Excel 2016 надстройка Power Query находится на ленте "Данные" в группе "Получить и преобразовать"&. В предыдущих версиях Excel необходимо скачать надстройку Microsoft Power Query для Excel из Центра загрузки Майкрософт и установить ее.

Импорт данных HDInsight в Excel

Надстройка Power Query для Excel удобна для импорта данных из кластера HDInsight в Excel, где можно использовать средства бизнес-аналитики, такие как PowerPivot и Power Map, для изучения, анализа и представления данных.

  1. Запустите Excel.

  2. Создайте новую пустую книгу.

  3. Выполните указанные ниже действия для вашей версии Excel.

    • Excel 2016

      • Выберите >Данные>Получить данные>Из Azure>Из Azure HDInsight(HDFS).

        HDI.PowerQuery.SelectHdiSource.2016

    • Excel 2013 или 2010

      • Выберите Power Query>из Azure>из Microsoft Azure HDInsight.

        HDI.PowerQuery.SelectHdiSource

        Примечание. Если меню Power Query не отображается, последовательно выберите пункты Файл>Параметры>Надстройки, затем выберитеНадстройки COM в раскрывающемся списке Управление в нижней части страницы. Нажмите кнопку Перейти... и убедитесь, что установлен флажок «Power Query для Excel».

        Примечание. Power Query также позволяет импортировать данные из HDFS, для этого нужно выбрать Из других источников.

  4. В диалоговом окне Azure HDInsight (HDFS) в текстовом поле Имя учетной записи или URL-адрес введите имя учетной записи хранилища больших двоичных объектов Azure, связанной с кластером. Нажмите кнопку ОК. Это может быть учетная запись хранения по умолчанию или связанная учетная запись хранения. Формат — https://StorageAccountName.blob.core.windows.net/.

  5. В поле Ключ учетной записи введите ключ для учетной записи хранения больших двоичных объектов Azure, а затем нажмите кнопку Подключиться. (Вводить данные учетной записи требуется только при первом доступе к этому магазину.)

  6. В области Навигатор слева от окна редактора запросов дважды щелкните имя контейнера хранилища больших двоичных объектов, связанного с вашим кластером. По умолчанию имя контейнера совпадает с именем кластера.

  7. Найдите HiveSampleData.txt в столбце Имя (путь папки: ../hive/warehouse/hivesampletable/ ), а затем выберите Двоичный код в левой части HiveSampleData.txt. HiveSampleData.txt поставляется вместе с кластером. При необходимости можно использовать собственный файл.

    HDI Excel power query import data

  8. Если необходимо, можно переименовать имена столбцов. Когда будете готовы, нажмите кнопку Закрыть и загрузить&. Данные загружены в книгу.

    HDI Excel power query imported table

Дальнейшие действия

В этой статье было показано, как использовать Power Query для извлечения данных из HDInsight в Excel. Аналогичным образом можно извлекать данные из HDInsight в базу данных SQL Azure. Можно также передавать данные в HDInsight. Дополнительные сведения см. в следующих статьях: