Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этом разделе содержатся сведения о загрузке данных специально для приложений машинного и глубокого обучения. Общие сведения о загрузке данных см. в разделе "Стандартные соединители" в Lakeflow Connect.
Хранение данных для загрузки и назначения контрольных точек модели
Для загрузки данных и назначения контрольных точек модели приложениям машинного обучения может потребоваться общее хранилище. Это особенно важно для распределенного глубокого обучения.
Azure Databricks предоставляет Unity Catalog, унифицированное решение для управления данными и активами ИИ. Каталог Unity можно использовать для доступа к данным в кластере с помощью API Spark и локальных файлов.
Загрузка табличных данных
Вы можете загрузить табличные данные машинного обучения из таблиц или файлов (например, просмотреть CSV-файлы). Вы можете преобразовать DataFrames Apache Spark в DataFrames pandas с помощью метода PySparktoPandas(), а затем при необходимости преобразовать в формат NumPy с помощью метода PySparkto_numpy().
Подготовка данных для точной настройки больших языковых моделей
Вы можете подготовить данные для тонкой настройки открытых больших языковых моделей с помощью Hugging Face Transformers и Hugging Face Datasets.
Подготовка данных для точной настройки моделей Hugging Face
Подготовка данных для распределенного обучения нейронных сетей
В этом разделе рассматривается подготовка данных для распределенного глубокого обучения с использованием Mosaic Streaming и TFRecords.