機械学習とディープ ラーニング用のデータの読み込み
このセクションでは、ML および DL アプリケーション専用のデータを読み込む方法について説明します。 データの読み込みの一般的な情報については、「Databricks レイクハウスにデータを取り込む」を参照してください。
データの読み込みとモデルのチェックポイント処理のためにファイルを格納する
機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用することが必要な場合があります。 これは分散型ディープ ラーニングの場合に特に重要です。
Azure Databricks では、Spark とローカル ファイル API の両方を使用してクラスター上のデータにアクセスするための Databricks ファイル システム (DBFS) が提供されています。
表形式データを読み込む
表形式の機械学習データはテーブルまたはファイルから読み込むことができます (例については、「CSV ファイルを読み取る」を参照)。 PySpark メソッド toPandas()
を使用して Apache Spark DataFrames を pandas DataFrames に変換し、必要に応じて、PySpark メソッド to_numpy()
を使用して NumPy 形式に変換できます。
大規模言語モデルを微調整するためのデータを準備する
Hugging Face Transformers と Hugging Face Datasets を使用して、オープン ソースの大規模言語モデルを微調整するためのデータを準備できます。
Hugging Face モデルを微調整するためのデータを準備する
分散トレーニング用にデータを準備する
このセクションでは、分散トレーニング用のデータを準備するための 3 つの方法である Mosaic ストリーミング、Petastorm および TFRecords について説明します。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示