OneLake は、組織全体で 1 つに統合された論理データ レイクです。 OneDrive と同様、OneLake はすべての Microsoft Fabric テナントに付属し、すべての分析データの単一の場所になるように設計されています。
OneLake が顧客に提供する内容は次のとおりです。
- 組織全体に対する 1 つのデータ レイク
- 複数の分析エンジンで使用するデータの 1 つのコピー
組織全体に対する 1 つのデータ レイク
OneLake より前の多くの組織では、異なるビジネス グループ用に複数のレイクを作成し、複数のリソースを管理するための余分なオーバーヘッドが発生しました。 OneLake では、コラボレーションを改善することで、これらの課題を取り除く必要があります。
- すべての Fabric テナントで OneLake が自動的に 1 つ取得される
- 複数の OneLake を作成したり、OneLake を削除したりすることはできません
- プロビジョニングまたは管理する追加のリソースがない
このシンプルさは、組織が単一の統合データ レイクで共同作業を行うのに役立ちます。
コラボレーションのために既定で分散所有権で管理
Fabric データの組織とガバナンスの最上位レベルはテナントです。 OneLake に配置されるすべてのデータは、セキュリティ、コンプライアンス、およびデータ管理のためのテナント レベルのポリシーによって自動的に保護されます。
テナント内では、ワークスペース内でコラボレーション が行われます。 任意の数のワークスペースを作成して、データを整理できます。 ワークスペースを使用すると、組織のさまざまな部門が所有権とアクセス ポリシーを配布できます。 各ワークスペースは、特定のリージョンに関連付けられ、個別に課金される容量の一部です。
ワークスペース内では、データ項目を使用してすべてのデータを作成し、 アクセスします。 Office が OneDrive に Word、Excel、PowerPoint の各ファイルを格納するのと同様に、Fabric はレイクハウス、ウェアハウス、およびその他のアイテムを OneLake に格納します。 項目の種類ごとに、Lakehouse の Apache Spark 開発者エクスペリエンスなど、さまざまなペルソナに合わせて調整されたエクスペリエンスが提供されます。
オープン標準とフォーマットに基づいて構築
OneLake は、Azure Data Lake (ADLS) Gen2 の上に構築されており、構造化されているかいないかに関係なく、任意の種類のファイルをサポートできます。 データ ウェアハウスやレイクハウスなどのファブリック データ項目はすべて、データを Delta Parquet 形式で OneLake に自動的に格納します。 データ エンジニアが Apache Spark を使用してレイクハウスにデータを読み込み、SQL 開発者が T-SQL を使用して完全にトランザクション データ ウェアハウスでデータに読み込んでいる場合は、どちらも同じデータ レイクの構築に貢献しています。 OneLake は、すべての表形式データを Delta Parquet 形式で格納します。
OneLake は、Azure Databricks を含む既存の ADLS Gen2 アプリケーションとの互換性を維持するため、同じ ADLS Gen2 API と SDK をサポートします。 OneLake のデータは、組織全体に対する 1 つの大きな ADLS ストレージ アカウントであるかのようにアドレス指定できます。 すべてのワークスペースは、そのストレージ アカウント内のコンテナーとして表示され、それらのコンテナー内で、さまざまなデータ項目がフォルダーとして表示されます。
API とエンドポイントの詳細については、OneLake へのアクセスと API に関する記事を参照してください。 OneLake の Azure との統合の例については、Azure Synapse Analytics、Azure Storage Explorer、Azure Databricks、Azure HDInsight に関する記事を参照してください。
Windows 用 OneLake ファイル エクスプローラー
Windows 用の OneLake ファイル エクスプローラーを使用して、Windows から OneLake データを探索できます。 Office で行う場合と同様に、すべてのワークスペース、データ項目にアクセスして、ファイルを簡単にアップロード、ダウンロード、または変更できます。 OneLake ファイル エクスプローラーを使用すると、データ レイクでの操作が簡素化され、技術者以外のビジネス ユーザーでも使用できるようになります。
詳しくは、「OneLake ファイル エクスプローラー」を参照してください。
データの 1 つのコピー
OneLake は、データの移動や複製を行わずに、データの単一コピーから可能な限り最高の価値を提供することを目的としています。 データを別のエンジンで使用したり、複数のソースのデータを分析したりするためだけにデータをコピーする必要はありません。
ショートカットを使用すると、データを移動せずにドメインにまたがってデータを接続
ショートカットは、他のファイルの場所に格納されているデータへの参照です。 これらのファイルの場所は、同じワークスペース内でも、異なるワークスペース間でも、OneLake 内でも、ADLS、S3、Dataverse などの OneLake の外部でもかまいません。 ショートカットを使用すると、場所に関係なく、ファイルとフォルダーが、場所に関係なくローカルに格納されているかのように表示されます。
ショートカットを使用すると、情報を不必要に移動したり複製したりすることなく、ユーザーとアプリケーションの間でデータを共有できます。 チームが別個のワークスペースで独立して作業するとき、ショートカットを使用すると、さまざまなビジネス グループやドメインのデータを仮想データ製品に結合して、ユーザーの特定のニーズに合わせることができます。
ショートカットの使用方法の詳細については、「OneLake のショートカット」を参照してください。
複数の分析エンジンにデータを接続する
多くの場合、データは 1 つのエンジン用に最適化されているため、複数のアプリケーションで同じデータを再利用することが困難になります。 Fabric を使用すると、さまざまな分析エンジン (T-SQL、Apache Spark、Analysis Services など) が開いている Delta Parquet 形式でデータを格納し、複数のエンジンで同じデータを使用できるようにします。
データを別のエンジンで使用するためにコピーする必要はありませんし、データがあるからといって特定のエンジンを使わなければならないと感じる必要もありません。 たとえば、完全なトランザクション データ ウェアハウスを構築する SQL エンジニアのチームを想像してみてください。 T-SQL エンジンと T-SQL のすべての機能を使用して、データの作成、変換、テーブルへのデータの読み込みを行うことができます。 データ サイエンティストがこのデータを利用したい場合は、特別な Spark/SQL ドライバーを使用する必要はありません。 OneLake は、すべてのデータを Delta Parquet 形式で格納します。 データ サイエンティストは、Spark エンジンとそのオープンソース ライブラリの全機能をデータに直接使用できます。
ビジネス ユーザーは、Analysis Services エンジンの Direct Lake モードを使用して、OneLake の上に直接 Power BI レポートを作成できます。 Analysis Services エンジンは Power BI セマンティック モデルを活用し、データにアクセスするための 2 つのモード (インポートと直接クエリ) を常に提供してきました。 この 3 つ目のモードである Direct Lake モードでは、ユーザーはデータをコピーしなくてもすべてのインポート速度が得られ、インポートと直接クエリの組み合わせが可能になります。 詳細については、「Direct Lake 」を参照してください。
次のステップ
OneLake の使用を開始する準備はできましたか? 作業を開始する方法を次に示します。