Подключение Excel к Apache Hadoop с помощью драйвера Microsoft Hive ODBC в Azure HDInsight

Решение Майкрософт для работы с большими данными включает в себя компоненты бизнес-аналитики (БА) Майкрософт с кластерами Apache Hadoop, развернутыми в HDInsight. Примером может служить возможность подключения Excel к хранилищу данных Hive кластера Hadoop. Подключение с помощью драйвера Microsoft Hive Open Database Connectivity (ODBC).

Вы можете подключить данные, связанные с кластером HDInsight, из Excel с помощью надстройки Microsoft Power Query для Excel. Дополнительные сведения см. в статье Подключение Excel к HDInsight с помощью Power Query.

Необходимые компоненты

Перед началом работы с этой статьей необходимо иметь следующее:

  • Кластер HDInsight Hadoop. Дополнительные сведения о создании кластера см. в статье Приступая к работе с Hadoop в HDInsight.
  • Рабочая станция с Office 2010 Professional Plus или более поздней версии или Excel 2010 или более поздней версии.

Установка драйвера Microsoft Hive ODBC

Скачайте и установите драйвер Microsoft Hive ODBC. Выберите версию, которая соответствует версии приложения, где будет использоваться драйвер ODBC. В рамках данной статьи используется драйвер для Office Excel.

Создание источника данных Apache Hive ODBC

Ниже показано, как создать источник данных Hive ODBC.

  1. В Windows откройте Пуск > Средства администрирования Windows > Источники данных ODBC (32-разрядная или 64-разрядная версия). В результате откроется окно Администратор источников данных ODBC.

    OBDC data source administrator.

  2. На вкладке DSN пользователя выберите Добавить, чтобы открыть окно Создание нового источника данных.

  3. Выберите Microsoft Hive ODBC Driver, а затем — Готово, чтобы открыть окно Microsoft Hive ODBC Driver DSN Setup (Настройка DSN Microsoft Hive ODBC Driver).

  4. Введите или выберите следующие значения:

    Свойство Description
    Имя источника данных Присвойте имя источнику данных
    Хозяева Введите HDInsightClusterName.azurehdinsight.net. Например, myHDICluster.azurehdinsight.net. Примечание. HDInsightClusterName-int.azurehdinsight.net поддерживается до тех пор, пока клиентская виртуальная машина соединена с той же виртуальной сетью.
    Порт Используйте 443. (Этот порт был изменен с 563 на 443.)
    База данных Используйте значение по умолчанию.
    Механизм Выберите Windows Azure HDInsight Service.
    Имя пользователя Введите имя пользователя HTTP кластера HDInsight. Имя пользователя по умолчанию — admin.
    Пароль Введите пароль пользователя кластера HDInsight. Установите флажок Save Password (Encrypted) (Сохранить пароль (зашифрованный)).
  5. Необязательно: выберите Дополнительные параметры...

    Параметр Описание
    Использовать исходный запрос При выборе этого параметра драйвер ODBC НЕ пытается преобразовать TSQL в HiveQL. Следует использовать только при полной уверенности в отправке действительных инструкций HiveQL. При подключении к серверу SQL Server или базе данных Azure SQL необходимо снять этот флажок.
    Строки, загружаемые для каждого блока При получении большого объема записей включение этого параметра может обеспечить оптимальную производительность.
    Длина столбца строки по умолчанию, длина столбца двоичного кода, масштаб столбца десятичных значений Длина и точность типа данных может повлиять на способ выведения данных. Это приведет к возврату недопустимой информации из-за потери точности и/или усечения.

    Advanced DSN configuration options.

  6. Щелкните Тест для проверки источника данных. При правильной настройке источника результатом теста будет слово УСПЕШНО!.

  7. Нажмите кнопку ОК, чтобы закрыть окно тестов.

  8. Нажмите кнопку ОК, чтобы закрыть окно Microsoft Hive ODBC Driver DSN Setup (Настройка DSN Microsoft Hive ODBC Driver).

  9. Нажмите кнопку ОК, чтобы закрыть окно Администратор источников данных ODBC.

Импорт данных в Excel из службы HDInsight

Ниже описан способ импорта данных из таблицы Hive в рабочую книгу Excel с помощью источника данных ODBC, созданного в предыдущем разделе.

  1. Откройте новую или существующую рабочую книгу в Excel.

  2. На вкладке Данные перейдите к разделу Получить данные>Из других источников>Из ODBC, чтобы открыть окно Из ODBC.

    Open Excel data connection wizard.

  3. Из раскрывающегося списка выберите имя источника данных, который вы создали в предыдущем разделе, и щелкните ОК.

  4. При первом использовании откроется диалоговое окно Драйвер ODBC. В меню слева выберите пункт Windows. Затем нажмите кнопку Подключиться, чтобы открыть окно Навигатор.

  5. В окне Навигатор перейдите к HIVE>по умолчанию>hivesampletable, а затем нажмите кнопку Загрузить. Для импорта данных в Excel потребуется несколько секунд.

    HDInsight Excel Hive ODBC navigator.

Следующие шаги

В рамках этой статьи вы узнали, как получить данные из службы HDInsight в Excel с помощью драйвера Microsoft Hive ODBC. Аналогичным образом можно получать данные из службы HDInsight в базу данных SQL. Можно также передавать данные в службу HDInsight. Дополнительные сведения см. на следующих ресурсах: