機械学習とディープ ラーニング用のデータの読み込み
このセクションでは、ML および DL アプリケーション専用のデータを読み込む方法について説明します。 データの読み込みの一般的な情報については、「Databricks レイクハウスにデータを取り込む」を参照してください。
データの読み込みとモデルのチェックポイント処理のためにファイルを格納する
機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用することが必要な場合があります。 これは分散型ディープ ラーニングの場合に特に重要です。
Azure Databricks では、Spark とローカル ファイル API の両方を使用してクラスター上のデータにアクセスするための Databricks ファイル システム (DBFS) が提供されています。
表形式データを読み込む
表形式の機械学習データはテーブルまたはファイルから読み込むことができます (例については、「CSV ファイルを読み取る」を参照)。 PySpark メソッド toPandas()
を使用して Apache Spark DataFrames を pandas DataFrames に変換し、必要に応じて、PySpark メソッド to_numpy()
を使用して NumPy 形式に変換できます。
大規模言語モデルを微調整するためのデータを準備する
Hugging Face Transformers と Hugging Face Datasets を使用して、オープン ソースの大規模言語モデルを微調整するためのデータを準備できます。
Hugging Face モデルを微調整するためのデータを準備する
分散型ディープ ラーニング トレーニングについて、データを準備してください。
このセクションでは、Mosaic ストリーミングおよび TFRecords を使用した分散型ディープ ラーニング トレーニング用のデータ準備について説明します。