Краткое руководство: загрузка данных в OneLake

OneLake — это единое унифицированное озеро данных для Microsoft Fabric. Каждая рабочая нагрузка Fabric читает и записывает данные через OneLake, поэтому вам нужно загрузить данные только один раз, чтобы использовать их везде. Вы можете перенести данные в OneLake несколькими способами:

  • Загружайте файлы напрямую в озеро-хранилище или хранилище.
  • Принимайте данные, используя конвейеры, потоки данных или средства потоковой передачи.
  • Подключитесь к внешним данным с помощью сочетаний клавиш или зеркального отображения.

В этом кратком руководстве вы загружаете данные в OneLake двумя способами: загружаете CSV-файл в lakehouse и создаете ярлык OneLake из второго lakehouse, который ссылается на те же данные без их копирования. По завершении у вас будут таблица Delta, к которой можно выполнять запросы, и ярлык — оба доступны всем механизмам Fabric через OneLake.

Необходимые условия

Создание озера-хранилища

Когда вы создаёте элемент Fabric, например lakehouse, хранилище данных или eventhouse, для этого элемента в OneLake от вашего имени выделяется хранилище. В этом кратком руководстве вы создадите lakehouse, который предоставляет как область файлов (Files) для неструктурированных или полуструктурированных данных, так и область таблиц Delta (Tables) для структурированных данных, доступных для запросов. Все, что вы помещаете в любую из этих областей, хранится в OneLake и немедленно становится доступным для других рабочих нагрузок Fabric.

  1. Войдите на портал Fabric и выберите рабочую область.

  2. Выберите Новый элемент.

  3. На панели "Создать элемент" найдите и выберите Lakehouse.

  4. Введите имя, например DataLakehouse, а затем нажмите кнопку "Создать".

    Lakehouse открывается в представлении обозревателя , в котором отображаются пустые разделы таблиц и файлов . Оба раздела уже размещены в OneLake и готовы к добавлению содержимого.

Отправка примеров данных

В этом кратком руководстве вы используете Dim_Products.csv из общедоступного образца набора данных Fabric. Это небольшая таблица сведений о продукте из примера магазина кофе.

  1. Откройте веб-браузер и перейдите по адресу https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv.
  2. При появлении запроса сохраните файл под именем Dim_Products.csv в папке на компьютере.

В этом разделе вы загружаете данные Dim_Products.csv в Files, чтобы необработанные исходные данные хранились в OneLake. Область Files в lakehouse — это универсальная область хранения в OneLake. Представьте это как зону выгрузки для необработанных данных, в каком бы формате они ни поступали. Вы можете загружать CSV, JSON, Parquet, изображения, логи и другие данные без необходимости сначала определять схему.

  1. В обозревателе lakehouse наведите указатель мыши на файлы, выберите меню дополнительных параметров (...), а затем нажмите кнопку "Отправить>файлы".

  2. На панели Загрузка файлов выберите значок папки и перейдите к Dim_Products.csv на вашем компьютере.

  3. Нажмите кнопку "Отправить", а затем закройте область отправки.

  4. Выберите папку "Файлы" , чтобы просмотреть его содержимое и подтвердить ее Dim_Products.csv появление.

  5. Выберите Dim_Products.csv , чтобы просмотреть данные.

    Снимок экрана портала Fabric, на котором в разделе

Файл теперь находится в OneLake, но в виде необработанного CSV-файла он пока не является таблицей, к которой SQL или Spark могут обращаться.

Загрузка файла в таблицу Delta

В Fabric в качестве формата таблиц в OneLake используется Delta Lake. При загрузке файла в область Tables Fabric считывает исходный файл, выводит схему и записывает данные в виде таблицы Delta. С этого момента каждый обработчик Fabric может запрашивать одну и ту же таблицу без копирования или преобразования данных еще раз.

  1. В обозревателе lakehouse откройте папку "Файлы ".

  2. Наведите указатель мыши на файл Dim_Products.csv и выберите меню дополнительных параметров (...), затем выберите Загрузить в таблицы>Новая таблица.

  3. В диалоговом окне "Загрузка в таблицу " введите dim_products имя таблицы, сохраните значения по умолчанию и выберите "Загрузить".

  4. После завершения загрузки разверните таблицы и выберите dim_products для предварительного просмотра строк. Исходный CSV-файл в Files остаётся неизменным, а dim_products — это новая таблица Delta, созданная на его основе.

    Снимок экрана, на котором показаны структурированные данные таблицы Delta в разделе

  5. Наведите указатель мыши dim_products и выберите меню дополнительных параметров (...), а затем выберите "Свойства".

    На экране Properties представлены различные сведения о таблице, включая URL-адрес и путь Azure Blob File System (ABFS), которые можно использовать для обращения к этой таблице в других механизмах.

Повторно используйте данные с помощью ярлыка из второго лейкхауса

Отправка и загрузка — один из способов получения данных в OneLake. Другой шаблон ключа — ссылаться на данные, которые уже существуют в другом месте, не дублируя их. Это то, что такое ярлык: указатель в OneLake, который ссылается на данные, хранящиеся в другом лейкхаусе, в другой рабочей области Fabric или в поддерживаемых источниках за пределами Fabric, таких как Azure Data Lake Storage или Amazon S3. Данные не копируются; они остаются в исходном местоположении, но их можно читать через OneLake, как будто они хранятся локально. Все обновления источника сразу же отображаются с помощью ярлыка, поэтому вам не нужно хранить копии данных.

В этом разделе вы создадите второй лейкхаус и добавите в него ярлык dim_products для таблицы из первого лейкхауса. Это отражает типичный порядок работы команд: одна команда отвечает за подготовленные данные, а другие команды или проекты используют их через ярлыки в собственных рабочих областях.

  1. В рабочей области выберите новый элемент.
  2. На панели "Создать элемент" найдите и выберите Lakehouse.
  3. Введите имя, например ShortcutLakehouse, а затем нажмите кнопку "Создать".
  4. В обозревателе нового Lakehouse наведите указатель на Tables, выберите меню дополнительных параметров (...), а затем выберите New shortcut.
  5. На странице Новый ярлык, в разделе Внутренние источники выберите Microsoft OneLake.
  6. В браузере источника данных выберите первое озеро, которое вы сделали для этого краткого руководства, а затем нажмите кнопку "Далее".
  7. Разверните таблицы, выберите таблицу dim_products и нажмите кнопку "Далее".
  8. Просмотрите выбор и нажмите кнопку "Создать".
  9. Разверните Tables в ShortcutLakehouse и убедитесь, что рядом с dim_products отображается значок ярлыка (небольшой значок ссылки поверх значка таблицы). Выберите его, чтобы просмотреть строки. Таблица такая же, как и в исходном озере-хранилище, но никакие данные не были скопированы.
  10. Наведите указатель мыши на таблицу dim_products , выберите дополнительные параметры (...), а затем нажмите кнопку "Управление ярлыками". В области "Управление ярлыками " можно просмотреть сведения о ярлыке, включая целевой объект ярлыка, в котором хранятся исходные данные.

Очистите ресурсы

Если вы не планируете переходить к другим кратким руководствам OneLake, удалите lakehouse, чтобы избежать платы за хранение в OneLake, списываемой с вашей емкости Fabric.

  1. В рабочей области наведите указатель мыши на озеро, которое требуется удалить.
  2. Выберите меню дополнительных параметров (...) рядом с lakehouse, выберите "Удалить" и подтвердите удаление.

При удалении lakehouses также удаляется их содержимое: загруженный файл, таблица Delta dim_products и ярлык.