中小企業向けの最新のデータ ウェアハウス
この記事では、中小企業 (SMB) が従来のデータ ストアを最新化し、現在の予算やスキル セットを過剰に拡張することなくビッグ データ のツールと機能を探索する方法について説明します。 これらの包括的なデータ ウェアハウス ソリューションは、Azure Machine Learning、Azure AI サービス、Microsoft Power Platform、Microsoft Dynamics 365、およびその他の Microsoft テクノロジとシームレスに統合されます。 これらのソリューションは、ニーズの拡大に応じて拡張できる、Microsoft Fabric 上の完全に管理されたサービスとしてのソフトウェア (SaaS) データ プラットフォームへの簡単なエントリ ポイントを提供します。
500 GB 未満のデータ ウェアハウス ソリューションにオンプレミスの SQL Server を使用する中小企業は、このパターンを使用することでメリットを得られる可能性があります。 SQL Server Integration Services (SSIS)、SQL Server Analysis Services (SSAS)、SQL Server Reporting Services (SSRS)、一般的な SQL ストアド プロシージャ、外部抽出、変換、読み込み (ETL)、抽出、読み込み、変換 (ELT) ツール、SQL Server エージェント ジョブ、SQL スナップショット レプリケーションなど、データ ウェアハウス ソリューションへのデータ インジェストにさまざまなツールを使用します。 通常、データ同期操作はスナップショット ベースであり、バッチで実行されるため、リアルタイムレポートは必要ありません。
簡略化されたアーキテクチャ
このアーキテクチャの Visio ファイル をダウンロードします。
概念的な最新化の機会には、従来のデータ ウェアハウス ソリューションを Azure SQL Database、Azure SQL Managed Instance、および Fabric の組み合わせに移行することが含まれます。 この戦略により、従来の SQL Server および SQL Server Management Studio (SSMS) などの SQL クライアント ツールとの幅広い互換性が確保されます。 また、既存のプロセスにリフトアンドシフト オプションを提供し、サポート チームのスキルアップは最小限で済みます。 このソリューションは、包括的な近代化に向けた最初のステップとして機能し、データ ウェアハウスが拡大し、チームのスキル セットが成長するにつれて、組織がレイクハウス アプローチを完全に採用できるようにします。
アーキテクチャ
このアーキテクチャの Visio ファイル をダウンロードします。
従来の SMB データ ウェアハウスには、いくつかの種類のデータが含まれる場合があります。
ドキュメントやグラフィックなどの非構造化データ。
ログ、CSV、JSON、XML ファイルなどの半構造化データ。
ETL および ELT アクティビティにストアド プロシージャを使用するデータベースを含む、構造化されたリレーショナル データ。
データフロー
次のデータフローは、前の図に対応しています。 選択したデータ タイプの取り込みを示します。
Fabric データ パイプラインまたは Azure Data Factory パイプラインは、データ ウェアハウス ソリューションへのトランザクション データの取り込みを調整します。
パイプラインは、移行または部分的にリファクタリングされたレガシ データベースと SSIS パッケージのフローを SQL Database と SQL Managed Instance に調整します。 このリフトアンドシフト アプローチを迅速に実装することで、オンプレミスの SQL ソリューションから将来の Fabric SaaS 環境へのシームレスな移行が保証されます。 リフトアンドシフト後、データベースを段階的に最新化できます。
パイプラインは、非構造化データ、半構造化データ、構造化データを Azure Data Lake Storage に渡し、集中的に保存して他のソースと分析することができます。 データの融合によってデータを再プラットフォーム化するよりもビジネス上のメリットが大きくなる場合は、このアプローチを使用します。
Microsoft Dynamics 365 データ ソースを使用して、Fabric サーバーレス分析ツールを使用して拡張されたデータセットに集中型ビジネス インテリジェンス (BI) ダッシュボードを構築します。 融合および処理されたデータを Dynamics に戻し、Fabric 内でさらに分析するために使用できます。
ストリーミング ソースからのリアルタイム データは、Azure Event Hubs またはその他のストリーミング ソリューションを介してシステムに入力できます。 リアルタイム ダッシュボードを必要とするお客様の場合、Fabric Real-Time Analytics でこのデータをすぐに分析できます。
Data Lake Storage ショートカットを使用すると、データを集中管理された Fabric OneLake に取り込んで、さらに分析、保存、レポート作成を行うことができます。 このプロセスにより、インプレース分析が可能になり、下流での消費が容易になります。
SQL Analytics エンドポイントや Fabric Spark 機能などのサーバーレス分析ツールは、Fabric 内でオンデマンドで利用でき、プロビジョニングされたリソースは必要ありません。 サーバーレス分析ツールは次のような場合に最適です。
OneLake データに対する ETL および ELT アクティビティ。
DirectLake 機能を介して、メダリオン アーキテクチャのゴールド レイヤーを Power BI レポートに提供します。
T-SQL 形式または Python での即興的なデータ サイエンスの探索。
データ ウェアハウス エンティティの初期プロトタイピング。
Fabric は、Power BI フロントエンド レポート、機械学習、Power Apps、Azure Logic Apps、Azure Functions、Azure App Service Web アプリなど、マルチソース データセットの潜在的な消費者と緊密に統合されています。
コンポーネント
Fabric は、データ エンジニアリング、データ ウェアハウス、データ サイエンス、リアルタイム データと BI の機能を組み合わせた分析サービスです。 このソリューションでは、 Fabric データ エンジニアリング機能 により、データ エンジニア、データ サイエンティスト、データ アナリスト、BI プロフェッショナル向けのコラボレーション プラットフォームが提供されます。 この重要なコンポーネントはサーバーレス コンピューティング エンジンを搭載しており、顧客に配信される分析情報を生成することでビジネス価値を提供します。
SQL Database と SQL Managed Instance は、クラウドベースのリレーショナル データベース サービスです。 SQL Database と SQL Managed Instance では 、SSMS を使用して、ストアド プロシージャなどのレガシ成果物を開発および管理します。 このソリューションでは、これらのサービスがエンタープライズ データ ウェアハウスをホストし、ストアド プロシージャまたは外部パッケージを使用して ETL および ELT アクティビティを実行します。 SQL Database と SQL Managed Instance は、高可用性とディザスター リカバリーの要件を満たすために使用できるサービスとしてのプラットフォーム (PaaS) 環境です。 必ず要件を満たす SKU を選択してください。 詳細については、「 SQL Database の高可用性 」および「 SQL Managed Instance の高可用性」を参照してください。
SSMS は、ストアド プロシージャなどのレガシ成果物の開発と保守に使用できる SQL インフラストラクチャを管理するための統合環境です。
Event Hubs は、リアルタイム データ ストリーミング プラットフォームおよびイベント インジェスト サービスです。 Event Hubs は Azure データ サービスとシームレスに統合され、どこからでもデータを取り込むことができます。
代替
Azure IoT Hub を使用して、Event Hubs を置き換えたり補完したりすることができます。 ストリーミング データのソースと、レポート デバイスとのクローン作成および双方向通信が必要かどうかに基づいてソリューションを選択します。
データ統合には、Data Factory パイプラインの代わりに Fabric データ パイプラインを使用できます。 あなたの決定はいくつかの要因によって決まります。 詳細については、「 Azure Data Factory から Fabric の Data Factory へのアクセス」を参照してください。
SQL Database または SQL Managed Instance の代わりに Fabric Warehouse を使用して、エンタープライズ データを格納できます。 この記事では、データ ウェアハウスを最新化したいお客様の市場投入までの時間を優先します。 Fabric のデータ ストア オプションの詳細については、Fabric の決定ガイドを参照してください。
シナリオの詳細
SMB がオンプレミスのデータ ウェアハウスをクラウド向けに最新化する場合、将来の拡張性のためにビッグ データ ツールを導入するか、コスト効率、メンテナンスの容易さ、スムーズな移行のために従来の SQL ベースのソリューションを使用することができます。 ハイブリッド アプローチは、両方の長所を活かし、最新のツールと AI 機能を使用しながら既存のデータ資産を簡単に移行できるようにします。 SMB は、SQL ベースのデータ ソースをクラウドで実行し続け、必要に応じて最新化することができます。
この記事では、中小企業が現在の予算やスキルセットを拡張することなく、レガシー データ ストアを最新化し、ビッグ データ ツールと機能を探索するためのいくつかの戦略について説明します。 これらの包括的な Azure データ ウェアハウス ソリューションは、AI サービス、Microsoft Dynamics 365、Microsoft Power Platform などの Azure および Microsoft サービスとシームレスに統合されます。
考えられるユース ケース
1 TB 未満で、SSIS パッケージを使用してストアド プロシージャを調整する従来のオンプレミスのリレーショナル データ ウェアハウスを移行します。
バッチ処理されたリアルタイムの Data Lake ソースを使用して、既存の Dynamics または Microsoft Power Platform Dataverse データをメッシュ化します。
革新的な技術を使用して、集中化された Azure Data Lake Storage Gen2 データを操作します。 これらの技術には、サーバーレス分析、知識マイニング、ドメイン間のデータ融合、Fabric Copilot を含むエンドユーザー データ探索が含まれます。
運用を最適化するためにデータ ウェアハウスを導入するように e コマース企業を設定します。
このソリューションは、次の場合には推奨されません。
データ ウェアハウスの グリーンフィールドデプロイ 。
1 TB を超えるか、1 年以内にそのサイズに達すると予測されるオンプレミス データ ウェアハウスの移行。
考慮事項
これらの考慮事項では、Azure Well-Architected Framework の柱を実装します。これは、ワークロードの品質を向上させるために使用できる一連の基本原則です。 詳細については、「 Well-Architected Framework」を参照してください。
コストの最適化
コストの最適化では、不要な経費を削減し、運用効率を向上させる方法に重点を置いています。 詳細については、「 コストの最適化」のデザイン レビュー チェックリストを参照してください。
Azure 料金計算ツール を使用すると、特定の要件がコストに与える影響を理解するために値を変更できます。 SMB データ ウェアハウス シナリオの価格サンプルは、Azure 料金計算ツールで確認できます。
SQL Database の 価格は、選択したコンピューティングレベルとサービス レベル、仮想コアとデータベース トランザクション ユニットの数によって異なります。 この例では、プロビジョニングされたコンピューティングと 8 つの仮想コアを備えた単一のデータベースについて説明し、SQL Database でストアド プロシージャを実行する必要があることを前提としています。
Data Lake Storage Gen2 の価格は、格納するデータの量と、データを使用する頻度によって異なります。 サンプル価格には、1 TB のデータ ストレージとその他のトランザクションの想定が含まれています。 1 TB はデータ レイクのサイズを指し、元のレガシー データベースのサイズを指すものではありません。
ファブリック の価格は、Fabric F 容量の価格または Premium Per Person の価格によって異なります。 サーバーレス機能は、購入した専用容量の CPU とメモリを使用します。
Event Hubs の 価格は、選択したレベル、プロビジョニングされたスループット ユニットの数、受信したイングレス トラフィックによって異なります。 この例では、Standard レベルの 1 つのスループット ユニットが 1 か月あたり 100 万を超えるイベントを処理することを想定しています。
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。
プリンシパル作成者:
- ガリーナ・ポリアコワ |シニア クラウド ソリューション アーキテクト
- バスカル・シャルマ |シニア プログラム マネージャー
パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。
次のステップ
- トレーニング コンテンツとラボについては、 データ エンジニアのラーニング パスに関するページを参照してください。
- Fabric の使用を開始します。
- すべてのコース、ラーニング パス、モジュールを参照します。
- 単一データベースを作成します。
- SQL Managed Instance を作成します。
- Data Lake Storage Gen2 で使用するストレージ アカウントを作成します。
- Azure portal を使用してイベント ハブを作成します。
関連リソース
- データ レイク
- データ ウェアハウスと分析
- エンタープライズ ビジネス インテリジェンス の