DocumentDB へのデータのインポートがより高速、簡単に
このポストは、6 月 2 日に投稿された Importing Data to DocumentDB Just Got Faster and Easier の翻訳です。
Azure DocumentDB Data Migration Tool は、Azure の NoSQL ドキュメント データベースである DocumentDB にデータをインポートするためのオープン ソース ソリューションです。このツールの最新リリースでは、インポート中にデータを複数のコレクションにパーティション分割することにより、さまざまなソースから大規模なデータをさらに高速にインポートできるようになりました。
また、現在サポートされている CSV ファイルのインポートとインポート エラーのログ記録の機能がさらに強化されました。各データ ソース向けのコマンド ラインのサンプルなど、このツールの使用方法の詳細や新機能の概要については、私が執筆したこちらの記事 (英語) をお読みください。
パーティション分割のサポート
DocumentDB Data Migration Tool で、複数の DocumentDB コレクションに対する読み取りと書き込みがサポートされるようになりました。複数のコレクションから読み取る場合は、正規表現を使用して 1 つまたは複数のコレクションを指定します。
インポート時に複数のコレクションにわたってデータをパーティション分割する場合は、既存の複数のコレクション (コレクションを新規作成する場合は、作成時にツールが使用する命名パターン*) と、パーティション キーとして使用するプロパティを指定します。
CSV 形式のサポートの強化
CSV ファイルをインポートする際に、CSV ファイル内の引用符で囲まれていない情報の型をツールが推定します (引用符で囲まれている値は従来どおり文字列として扱われます)。数値、日時、ブール値の順に型の識別が試みられます。
CSV ファイルへのインポート エラーのリダイレクト
詳細構成画面が追加され、エラーの記録先のログ ファイルの場所を指定できるようになりました。
新しい DocumentDB Data Migration Tool のソース コードは GitHub (英語) で公開しています。コンパイル済みの最新バージョンは Microsoft ダウンロード センター (英語) で提供しています。好みに応じて、上記のソリューションをご自身でコンパイルするか、コンパイル済みのバージョンをダウンロードして任意のディレクトリに展開してください。Data Migration Tool で対応してほしいソースがほかにありましたら、フィードバック フォーラム (英語) までお寄せください。DocumentDB の詳細については、DocumentDB のページをご覧ください。
*注: コレクションには DocumentDB の料金が発生するため、複数のコレクションを作成すると使用料金に影響します。詳細については DocumentDB の料金ページをご確認ください。