Ссылка на данные в Lakehouse для проектов Обработка и анализ данных

В этом кратком руководстве объясняется, как ссылаться на данные, хранящиеся во внешней учетной записи ADLS, и использовать их в проектах обработки и анализа данных. После выполнения этого краткого руководства у вас будет ярлык к хранилищу ADLS в lakehouse и записной книжке с кодом Spark, который обращается к внешним данным.

Подготовка данных к ярлыку

  1. Создание учетной записи ADLS 2-го поколения в Azure

  2. Включение иерархических пространств имен

    Screenshot of hierarchical namespaces in storage account.

  3. Создание папок для данных

  4. Отправка данных

  5. Добавление удостоверения пользователя в роль BLOB-объектов служба хранилища Contributor

  6. Получение конечной точки учетной записи хранения

Создание ярлыка

  1. Откройте озеро, чтобы добраться до Lakehouse Обозреватель

  2. В файлах создается папка, в которой ссылались данные

  3. Щелкните правой кнопкой мыши (...) и выберите "Создать ярлык" рядом с именем папки

    Screenshot of new shortcut link.

  4. Выбор внешних источников > ADLS 2-го поколения

  5. Укажите имя ярлыка, конечную точку учетной записи хранения, укажите расположение папки данных в учетной записи хранения.

    Screenshot of new shortcut dialog.

  6. Выберите "Создать"

Доступ к данным, на которые ссылается записная книжка

  1. Открытие существующей или создание записной книжки
  2. Закрепление lakehouse в записной книжке
  3. Просмотр данных в папке ярлыка
  4. Выберите файл со структурированными данными и перетащите его в записную книжку, чтобы получить созданный код
  5. Выполнение кода для получения содержимого файла
  6. Добавление кода для анализа данных