Ескертпе
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Жүйеге кіруді немесе каталогтарды өзгертуді байқап көруге болады.
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Каталогтарды өзгертуді байқап көруге болады.
Библиотека — это многократно используемый пакет кода( например, пакет Python из PyPI, пакет R из CRAN или JAR-файл Java), который можно импортировать в записные книжки и определения заданий Spark, чтобы добавить функциональные возможности, не записывая его с нуля. Microsoft Fabric предоставляет несколько механизмов для управления библиотеками и их использования.
- Встроенные библиотеки: каждая среда выполнения Spark Fabric предоставляет широкий набор популярных предустановленных библиотек. Полный список встроенных библиотек можно найти в среде выполнения Spark Fabric.
- Общедоступные библиотеки: общедоступные библиотеки создаются из репозиториев, таких как PyPI и Conda, которые в настоящее время поддерживаются.
- Пользовательские библиотеки: пользовательские библиотеки ссылаются на код, который вы или ваша организация создаете. Fabric поддерживает их в форматах WHL, .jar и .tar.gz . Fabric поддерживает .tar.gz только для языка R. Для пользовательских библиотек Python используйте формат WHL .
Сводка рекомендаций по управлению библиотеками
В следующих сценариях описаны рекомендации по использованию библиотек в Microsoft Fabric.
Сценарий 1. Администратор задает библиотеки по умолчанию для рабочей области
Чтобы задать библиотеки по умолчанию, необходимо быть администратором рабочей области. Как администратор вы можете выполнять следующие задачи:
- Создание новой среды
- Установка необходимых библиотек в среде
- Присоединение этой среды к рабочей области по умолчанию
Когда определения заданий Spark и записные книжки подключены к параметрам рабочей области, они начинают сеансы с библиотеками, установленными в среде рабочей области по умолчанию.
Сценарий 2. Сохранение спецификаций библиотеки для одного или нескольких элементов кода
Если у вас есть общие библиотеки для разных элементов кода и их часто не нужно обновлять, установите библиотеки в среде и подключите его к элементам кода.
Публикация занимает от 5 до 15 минут в зависимости от сложности библиотек. В ходе этого процесса система разрешает потенциальные конфликты и загружает необходимые зависимости.
Преимуществом этого подхода является то, что успешно установленные библиотеки гарантированно будут доступны при запуске сеанса Spark с присоединенной средой. Он экономит усилия по поддержанию общих библиотек для ваших проектов и рекомендуется использовать для сценариев конвейера из-за его стабильности.
Сценарий 3. Встроенная установка в интерактивном запуске
При интерактивном написании кода в записной книжке встроенная установка — лучший подход к добавлению библиотек PyPI или conda или проверке пользовательских библиотек для однократного использования. Встроенные команды делают библиотеку доступной только в текущем сеансе Spark в записной книжке, они позволяют быструю установку, но установленная библиотека не сохраняется между сеансами.
Так как %pip install может создавать различные деревья зависимостей от запуска до запуска, что может привести к конфликтам библиотек, встроенные команды по умолчанию отключены в запусках конвейеров и не рекомендуется для конвейеров.
Сводка поддерживаемых типов библиотек
| Тип библиотеки | Управление библиотекой среды | Встроенная установка |
|---|---|---|
| Public Python (PyPI и Conda) | Поддерживается | Поддерживается |
| Python Custom (.whl) | Поддерживается | Поддерживается |
| R Public (CRAN) | Не поддерживается | Поддерживается |
| Пользовательская версия R (.tar.gz) | Поддерживается как пользовательская библиотека | Поддерживается |
| JAR-файл | Поддерживается как пользовательская библиотека | Поддерживается |
Встроенная установка
Встроенные команды позволяют управлять библиотеками в отдельных сеансах записной книжки.
Инлайн-установка Python
Система перезапускает интерпретатор Python для применения изменений библиотеки. Все переменные, определенные перед запуском ячейки команд, будут потеряны. Поместите все команды для добавления, удаления или обновления пакетов Python в начале записной книжки.
Встроенные команды для управления библиотеками Python по умолчанию отключены в конвейере ноутбуков. Чтобы включить %pip install в рамках конвейера, добавьте _inlineInstallationEnabled как логический параметр, установленный на True, в параметры действия записной книжки.
Замечание
Команда %pip install может привести к нестабильным результатам между запусками. Установите библиотеки в среде и используйте среду в потоке обработки данных.
Команда %pip install не поддерживается в режиме высокой параллелизма.
При выполнении запусков записных книжек встроенные команды для управления библиотеками Python не поддерживаются. Удалите эти встроенные команды из записной книжки, на которой ссылается ссылка, чтобы обеспечить правильное выполнение.
Используйте %pip вместо !pip. Эта !pip команда — это встроенная команда оболочки IPython со следующими ограничениями:
-
!pipустанавливает пакет только на узле драйвера, а не на узлах исполнителя. - Пакеты, установленные с помощью
!pip, не учитывают конфликты со встроенными пакетами или пакетами, уже импортированными в ноутбук.
%pip обрабатывает эти сценарии. Библиотеки, установленные с помощью %pip , доступны как на узлах драйвера, так и исполнителя, и вступают в силу, даже если библиотека уже импортирована.
Подсказка
Команда %conda install обычно занимает больше времени, чем %pip install команда для установки новых библиотек Python. Он проверяет полные зависимости и разрешает конфликты.
Используйте %conda install для повышения надежности и стабильности. Используйте %pip install , если вы уверены, что библиотека, которую вы хотите установить, не конфликтует с предварительно установленными библиотеками в среде выполнения.
Все доступные встроенные команды Python и уточнения, см. %pip команды и %conda команды.
Управление общедоступными библиотеками Python с помощью встроенной установки
В этом примере показано, как использовать встроенные команды для управления библиотеками. Предположим, что вы хотите использовать altair, мощную библиотеку визуализации для Python, для одноразового анализа данных, а библиотека не установлена в вашей рабочей среде. В следующем примере используются команды conda для иллюстрации шагов.
Вы можете использовать инлайн команды, чтобы включить Альтаир в вашем сеансе тетради, не влияя на другие сеансы тетради или на другие элементы.
Выполните следующие команды в ячейке кода записной книжки. Первая команда устанавливает библиотеку altair. Кроме того, установите vega_datasets, содержащую семантику модели, которую можно использовать для визуализации.
%conda install altair # install latest version through conda command %conda install vega_datasets # install latest version through conda commandВыходные данные ячейки указывают на результат установки.
Импортируйте пакет и семантику модели, выполнив следующий код в другой ячейке записной книжки.
import altair as alt from vega_datasets import dataТеперь вы можете поиграть с библиотекой altair в рамках сеанса.
# load a simple dataset as a pandas DataFrame cars = data.cars() alt.Chart(cars).mark_point().encode( x='Horsepower', y='Miles_per_Gallon', color='Origin', ).interactive()
Управление пользовательскими библиотеками Python с помощью встроенной установки
Пользовательские библиотеки Python можно загрузить в папку ресурсов записной книжки или подключенной среды. Каталог ресурсов — это файловая система, встроенная в каждую записную книжку и среду. Дополнительные сведения см. в ресурсах Записной книжки . После отправки библиотеки можно перетащить ее в ячейку кода, чтобы автоматически создать команду установки. Или можно выполнить следующую команду:
# install the .whl through pip command from the notebook built-in folder
%pip install "builtin/wheel_file_name.whl"
Встроенная установка R
Для управления библиотеками R Fabric поддерживает команды install.packages(), remove.packages() и devtools::. Все доступные встроенные команды R и пояснения см. в команде install.packages и команде remove.package.
Управление общедоступными библиотеками R с помощью встроенной установки
Выполните этот пример, чтобы выполнить инструкции по установке общедоступной библиотеки R.
Чтобы установить библиотеку фида R, выполните следующие действия.
Переключите рабочий язык на SparkR (R) на ленте записной книжки.
Установите библиотеку цезаря , выполнив следующую команду в ячейке записной книжки.
install.packages("caesar")Теперь вы можете работать с библиотекой caesar с областью видимости сеанса с помощью задания Spark.
library(SparkR) sparkR.session() hello <- function(x) { library(caesar) caesar(x) } spark.lapply(c("hello world", "good morning", "good evening"), hello)
Управление библиотеками Jar с помощью встроенной установки
Вы можете добавить .jar файлы в сеансы записной книжки с помощью следующей команды.
%%configure -f
{
"conf": {
"spark.jars": "abfss://<<Lakehouse prefix>>.dfs.fabric.microsoft.com/<<path to JAR file>>/<<JAR file name>>.jar",
}
}
В приведенной выше ячейке кода в качестве примера используется хранилище Lakehouse. В обозревателе записных книжек можно скопировать полный путь ABFS файла и заменить его в коде.