機械学習とディープラーニング用のデータの読み込み

このセクションでは、ML および DL アプリケーション専用のデータを読み込む方法について説明します。データの読み込みに関する一般的な情報については、 Lakeflow Connect の Standard コネクタを参照してください。

データの読み込みとモデルのチェックポイント処理のためにファイルを格納する

機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用することが必要な場合があります。これは分散型ディープラーニングの場合に特に重要です。

Azure Databricks は、データと AI 資産の統合ガバナンスソリューションである Unity カタログを提供します。 Unity カタログを使用すると、Spark とローカルファイル API の両方を使用してクラスター上のデータにアクセスできます。

表形式データを読み込む

テーブルまたはファイルから表形式の機械学習データを読み込むことができます (CSV ファイルの読み取りと書き込みを参照)。 PySpark メソッドtoPandas() を使用して Apache Spark DataFrames を pandas DataFrames に変換し、必要に応じて、PySpark メソッドto_numpy() を使用して NumPy 形式に変換できます。

大規模言語モデルを微調整するためのデータを準備する

Hugging Face Transformers と Hugging Face Datasets を使用して、オープンソースの大規模言語モデルを微調整するためのデータを準備できます。

Hugging Face モデルを微調整するためのデータを準備する

分散型ディープラーニングトレーニングについて、データを準備してください。

このセクションでは、分散ディープラーニングトレーニング用のデータの準備について説明します。

メモリに収まらない非常に大規模なデータセットの場合は、ストリーミングアプローチを使用します。

カスタムストリーミングロジック用の PyTorch IterableDataset。
ハブまたはボリュームでホストされているデータセットのストリーミングを使用する Hugging Face データセット。
分散バッチデータ処理のためのRay Data。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-06-23