Регистрация данных из Azure Data Lake Storage 1-го поколения в каталоге данных Azure
В этой статье вы узнаете, как интегрировать Azure Data Lake Storage 1-го поколения со службой "Каталог данных Azure", чтобы в организации можно было обнаруживать данные с помощью интеграции с каталогом данных. Дополнительные сведения о каталогизации данных см. в статье Каталог данных Azure. Чтобы понять, в каких сценариях можно использовать каталог данных, см. статью Типичные сценарии каталога данных Azure.
Предварительные требования
Перед началом работы с этим учебником необходимо иметь следующее:
Подписка Azure. См. страницу бесплатной пробной версии Azure.
Включите свою подписку Azure для Data Lake Storage 1-го поколения. Ознакомьтесь с инструкциями.
Учетная запись Data Lake Storage 1-го поколения. Следуйте инструкциям из статьи Начало работы с Azure Data Lake Storage Gen1 с помощью портала Azure. В целях этого руководства создадим учетную запись Data Lake Storage 1-го поколения и назовем ее datacatalogstore.
После создания учетной записи передайте в нее пример набора данных. В этом учебнике мы передадим CSV-файлы в папку AmbulanceData в репозитории Git озера данных Azure. Чтобы передать данные в контейнер больших двоичных объектов, можно использовать различные клиенты, например обозреватель хранилищ Azure.
Каталог данных Azure. В организации уже должен быть создан каталог данных Azure. Для каждой организации допускается только один каталог.
Регистрация Data Lake Storage 1-го поколения в качестве источника для каталога данных
Перейдите на страницу
https://azure.microsoft.com/services/data-catalog
и щелкните Начало работы.Войдите на портал каталога данных Azure и щелкните Опубликовать данные.
На следующей странице щелкните Запустить приложение. На ваш компьютер будет скачан файл манифеста приложения. Дважды щелкните этот файл манифеста, чтобы запустить приложение.
На странице "Приветствие" щелкните Войтии введите учетные данные.
На странице "Выбор источника данных" выберите Azure Data Lake Store, а затем нажмите кнопку Далее.
На следующей странице укажите имя учетной записи Data Lake Storage 1-го поколения, которую необходимо зарегистрировать в каталоге данных. Оставьте значения по умолчанию для остальных параметров и щелкните Подключиться.
Следующую страницу можно разделить на следующие области.
а. Поле Иерархия серверов представляет структуру папки учетной записи Data Lake Storage 1-го поколения. $Root представляет корень учетной записи Data Lake Storage 1-го поколения, а AmbulanceData — папку, созданную в корне учетной записи Data Lake Storage 1-го поколения.
b. В поле Доступные объекты перечислены файлы и папки, расположенные в папке AmbulanceData.
c. В поле Объекты для регистрации перечислены файлы и папки, которые вы хотите зарегистрировать в каталоге данных Azure.
В рамках этого учебника необходимо зарегистрировать все файлы в каталоге. Для этого нажмите кнопку (), чтобы переместить все файлы в поле Объекты для регистрации .
Так как данные будут зарегистрированы в каталоге данных на уровне всей организации, рекомендуется добавить какие-либо метаданные, которые позже можно будет использовать для быстрого поиска данных. Скажем, можно добавить электронный адрес владельца данных (например, того, кто передает данные) или добавить тег для идентификации данных. На снимке экрана ниже показан тег, добавляемый к данным.
Щелкните Зарегистрировать.
На следующем снимке экрана показано, что данные успешно зарегистрированы в каталоге данных.
Щелкните Просмотреть портал , чтобы вернуться на портал каталога данных и убедиться, что теперь вы можете обращаться к зарегистрированным данным на портале. Для поиска данных можно использовать тег, который вы добавили при регистрации данных.
Теперь можно выполнять такие операции, как добавление аннотаций и документации к данным. Дополнительные сведения см. по следующим ссылкам.