Загрузка данных для машинного обучения и глубокого обучения

В этом разделе содержатся сведения о загрузке данных специально для приложений машинного и глубокого обучения. Общие сведения о загрузке данных см. в разделе "Стандартные соединители" в Lakeflow Connect.

Хранение данных для загрузки и назначения контрольных точек модели

Для загрузки данных и назначения контрольных точек модели приложениям машинного обучения может потребоваться общее хранилище. Это особенно важно для распределенного глубокого обучения.

Azure Databricks предоставляет Unity Catalog, унифицированное решение для управления данными и активами ИИ. Каталог Unity можно использовать для доступа к данным в кластере с помощью API Spark и локальных файлов.

Загрузка табличных данных

Вы можете загрузить табличные данные машинного обучения из таблиц или файлов (например, просмотреть CSV-файлы). Вы можете преобразовать DataFrames Apache Spark в DataFrames pandas с помощью метода PySparktoPandas(), а затем при необходимости преобразовать в формат NumPy с помощью метода PySparkto_numpy().

Подготовка данных для точной настройки больших языковых моделей

Вы можете подготовить данные для тонкой настройки открытых больших языковых моделей с помощью Hugging Face Transformers и Hugging Face Datasets.

Подготовка данных для точной настройки моделей Hugging Face

Подготовка данных для распределенного обучения нейронных сетей

В этом разделе рассматривается подготовка данных для распределенного глубокого обучения с использованием Mosaic Streaming и TFRecords.