Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
OneLake — это единое унифицированное озеро данных для Microsoft Fabric. Каждая рабочая нагрузка Fabric читает и записывает данные через OneLake, поэтому вам нужно загрузить данные только один раз, чтобы использовать их везде. Вы можете перенести данные в OneLake несколькими способами:
- Загружайте файлы напрямую в озеро-хранилище или хранилище.
- Принимайте данные, используя конвейеры, потоки данных или средства потоковой передачи.
- Подключитесь к внешним данным с помощью сочетаний клавиш или зеркального отображения.
В этом кратком руководстве вы загружаете данные в OneLake двумя способами: загружаете CSV-файл в lakehouse и создаете ярлык OneLake из второго lakehouse, который ссылается на те же данные без их копирования. По завершении у вас будут таблица Delta, к которой можно выполнять запросы, и ярлык — оба доступны всем механизмам Fabric через OneLake.
Необходимые условия
- Лицензия Fabric. Или зарегистрируйте бесплатную пробную версию Fabric.
- Рабочая область Fabric.
Создание озера-хранилища
Когда вы создаёте элемент Fabric, например lakehouse, хранилище данных или eventhouse, для этого элемента в OneLake от вашего имени выделяется хранилище. В этом кратком руководстве вы создадите lakehouse, который предоставляет как область файлов (Files) для неструктурированных или полуструктурированных данных, так и область таблиц Delta (Tables) для структурированных данных, доступных для запросов. Все, что вы помещаете в любую из этих областей, хранится в OneLake и немедленно становится доступным для других рабочих нагрузок Fabric.
Войдите на портал Fabric и выберите рабочую область.
Выберите Новый элемент.
На панели "Создать элемент" найдите и выберите Lakehouse.
Введите имя, например
DataLakehouse, а затем нажмите кнопку "Создать".Lakehouse открывается в представлении обозревателя , в котором отображаются пустые разделы таблиц и файлов . Оба раздела уже размещены в OneLake и готовы к добавлению содержимого.
Отправка примеров данных
В этом кратком руководстве вы используете Dim_Products.csv из общедоступного образца набора данных Fabric. Это небольшая таблица сведений о продукте из примера магазина кофе.
- Откройте веб-браузер и перейдите по адресу https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv.
- При появлении запроса сохраните файл под именем
Dim_Products.csvв папке на компьютере.
В этом разделе вы загружаете данные Dim_Products.csv в Files, чтобы необработанные исходные данные хранились в OneLake. Область Files в lakehouse — это универсальная область хранения в OneLake. Представьте это как зону выгрузки для необработанных данных, в каком бы формате они ни поступали. Вы можете загружать CSV, JSON, Parquet, изображения, логи и другие данные без необходимости сначала определять схему.
В обозревателе lakehouse наведите указатель мыши на файлы, выберите меню дополнительных параметров (...), а затем нажмите кнопку "Отправить>файлы".
На панели Загрузка файлов выберите значок папки и перейдите к
Dim_Products.csvна вашем компьютере.Нажмите кнопку "Отправить", а затем закройте область отправки.
Выберите папку "Файлы" , чтобы просмотреть его содержимое и подтвердить ее
Dim_Products.csvпоявление.Выберите
Dim_Products.csv, чтобы просмотреть данные.
Файл теперь находится в OneLake, но в виде необработанного CSV-файла он пока не является таблицей, к которой SQL или Spark могут обращаться.
Загрузка файла в таблицу Delta
В Fabric в качестве формата таблиц в OneLake используется Delta Lake. При загрузке файла в область Tables Fabric считывает исходный файл, выводит схему и записывает данные в виде таблицы Delta. С этого момента каждый обработчик Fabric может запрашивать одну и ту же таблицу без копирования или преобразования данных еще раз.
В обозревателе lakehouse откройте папку "Файлы ".
Наведите указатель мыши на файл
Dim_Products.csvи выберите меню дополнительных параметров (...), затем выберите Загрузить в таблицы>Новая таблица.В диалоговом окне "Загрузка в таблицу " введите
dim_productsимя таблицы, сохраните значения по умолчанию и выберите "Загрузить".После завершения загрузки разверните таблицы и выберите
dim_productsдля предварительного просмотра строк. Исходный CSV-файл в Files остаётся неизменным, аdim_products— это новая таблица Delta, созданная на его основе.
Наведите указатель мыши
dim_productsи выберите меню дополнительных параметров (...), а затем выберите "Свойства".На экране Properties представлены различные сведения о таблице, включая URL-адрес и путь Azure Blob File System (ABFS), которые можно использовать для обращения к этой таблице в других механизмах.
Повторно используйте данные с помощью ярлыка из второго лейкхауса
Отправка и загрузка — один из способов получения данных в OneLake. Другой шаблон ключа — ссылаться на данные, которые уже существуют в другом месте, не дублируя их. Это то, что такое ярлык: указатель в OneLake, который ссылается на данные, хранящиеся в другом лейкхаусе, в другой рабочей области Fabric или в поддерживаемых источниках за пределами Fabric, таких как Azure Data Lake Storage или Amazon S3. Данные не копируются; они остаются в исходном местоположении, но их можно читать через OneLake, как будто они хранятся локально. Все обновления источника сразу же отображаются с помощью ярлыка, поэтому вам не нужно хранить копии данных.
В этом разделе вы создадите второй лейкхаус и добавите в него ярлык dim_products для таблицы из первого лейкхауса. Это отражает типичный порядок работы команд: одна команда отвечает за подготовленные данные, а другие команды или проекты используют их через ярлыки в собственных рабочих областях.
- В рабочей области выберите новый элемент.
- На панели "Создать элемент" найдите и выберите Lakehouse.
- Введите имя, например
ShortcutLakehouse, а затем нажмите кнопку "Создать". - В обозревателе нового Lakehouse наведите указатель на Tables, выберите меню дополнительных параметров (...), а затем выберите New shortcut.
- На странице Новый ярлык, в разделе Внутренние источники выберите Microsoft OneLake.
- В браузере источника данных выберите первое озеро, которое вы сделали для этого краткого руководства, а затем нажмите кнопку "Далее".
- Разверните таблицы, выберите таблицу
dim_productsи нажмите кнопку "Далее". - Просмотрите выбор и нажмите кнопку "Создать".
- Разверните Tables в
ShortcutLakehouseи убедитесь, что рядом сdim_productsотображается значок ярлыка (небольшой значок ссылки поверх значка таблицы). Выберите его, чтобы просмотреть строки. Таблица такая же, как и в исходном озере-хранилище, но никакие данные не были скопированы. - Наведите указатель мыши на таблицу
dim_products, выберите дополнительные параметры (...), а затем нажмите кнопку "Управление ярлыками". В области "Управление ярлыками " можно просмотреть сведения о ярлыке, включая целевой объект ярлыка, в котором хранятся исходные данные.
Очистите ресурсы
Если вы не планируете переходить к другим кратким руководствам OneLake, удалите lakehouse, чтобы избежать платы за хранение в OneLake, списываемой с вашей емкости Fabric.
- В рабочей области наведите указатель мыши на озеро, которое требуется удалить.
- Выберите меню дополнительных параметров (...) рядом с lakehouse, выберите "Удалить" и подтвердите удаление.
При удалении lakehouses также удаляется их содержимое: загруженный файл, таблица Delta dim_products и ярлык.