データ ロール
データを使用したストーリーテリングは、通常、データ アナリストのあなたから始まる取り組みではありません。 データは、他の場所から入ってくるものです。 そのデータをあなたが使用できる場所に取得するには、職務範囲外の可能性がある作業が必要であり、特に大企業の場合は、これが当てはまります。
今日のアプリケーションやプロジェクトは、大規模で複雑になる可能性があり、多くの場合、多くの人のスキルと知識が必要です。 プロジェクトを概念から運用まで確認するために、1 人 1 人が独自の才能や専門知識を発揮し、それらを共有しながら、共同作業を行い、タスクや責任を調整しています。
つい最近まで、ビジネス アナリストやビジネス インテリジェンス開発者などのロールがデータの処理と理解のための標準でした。 しかし、データのサイズの肥大化とデータの種類の多様化により、これらのロールは、データ エンジニアリングとデータ分析のプロセスを最新化し、効率化するより専門的な一連のスキルに進化しました。
以下では、さまざまなデータ ロールを明らかにし、データの検出から理解までの領域全体におけるそれぞれの責任について説明します。
ビジネス アナリスト
データ アナリスト
データ エンジニア
データ サイエンティスト
データベース管理者
ビジネス アナリスト
データ アナリストとビジネス アナリストの間にはいくつかの類似点がありますが、この 2 つのロールを区別する主な違いは、データを使って何を行うかということです。 ビジネス アナリストはビジネス寄りで、視覚化によって得られるデータを解釈する専門家です。 多くの場合、データ アナリストとビジネス アナリストのロールは、1 人が兼務しています。
データ アナリスト
データ アナリストにより、企業は、Microsoft Power BI などの視覚化とレポート作成用のツールを使用して、データ資産の価値を最大限に高めることができます。 データ アナリストは、データのプロファイル、クリーニング、変換を担当します。 彼らの責任には、スケーラブルで効果的なセマンティック モデルの設計と構築、および高度な分析機能の実現と分析用レポートへの実装も含まれます。 データ アナリストは、関係のある利害関係者と協力して、適切で必要なデータとレポート要件を特定し、その後、生データを関連性のある有意義な分析情報に変換する任務を担います。
さらに、レポート、ダッシュボード、ワークスペース、レポートで使用される基になるセマンティック モデルなど、Power BI の資産の管理も担当します。 すべての Power BI の資産とそのデータを確実に保管するために、利害関係者の要件に合わせて、適切なセキュリティ手順を構成し実装することが彼らに求められます。
データ アナリストは、データ エンジニアと協力して、利害関係者の要件を満たす適切なデータ ソースを決定し、見つけ出します。 また、データ エンジニアおよびデータベース管理者と協力して、アナリストが必要なデータ ソースへの適切なアクセスを確保します。 さらに、データ エンジニアと協力して、分析用のデータを収集するための新しいプロセスの特定や既存のプロセスの改善も行います。
データ エンジニア
データ エンジニアは、オンプレミスとクラウドにおけるデータ プラットフォーム テクノロジをプロビジョニングして設定します。 複数のソースからの構造化データと非構造化データの流れを管理したり、セキュリティで保護したりします。 使用されるデータ プラットフォームには、リレーショナル データベース、非リレーショナル データベース、データ ストリーム、ファイル ストアが含まれます。 また、データ エンジニアは、データ サービスがデータ プラットフォーム間で安全かつシームレスに統合されることを確保します。
データ エンジニアの主な役割としては、オンプレミスとクラウドのデータ サービスおよびツールを使用した、複数のソースからのデータの取り込み、エグレス、変換があります。 データ エンジニアはビジネス利害関係者と協力して、データの要件を特定し、それに対応します。 また、ソリューションを設計して実装します。
データ エンジニアとデータベース管理者のタスクや役割は、多少の調整が必要になる場合もありますが、データ エンジニアの業務範囲は、データベースとそれをホストするサーバーの管理にとどまりません。ただし、多くの場合、運用データの全体的な管理は含まれません。
データ エンジニアによって、ビジネス インテリジェンスとデータ サイエンスのプロジェクトに非常に高い付加価値がもたらされます。 データ エンジニアがデータをまとめると (多くの場合、データ ラングリングとして説明されます)、データ サイエンティストは、自身の作業領域に専念できるため、プロジェクトはより迅速に進行します。
データ エンジニアは、通常は最新のデータ ウェアハウスやデータ レイクから提供されるセマンティック モデルの最適化を支援するため、データ アナリストであるあなたは、構造化されたおよび構造化されていないさまざまなデータ ソースにアクセスできるようにするために、彼らと緊密に協力することになります。
データベース管理者とビジネス インテリジェンスの専門家はどちらも、データ エンジニアのロールに移行できます。ただし、大量のデータを処理するために使用されるツールやテクノロジを習得する必要があります。
データ サイエンティスト
データ サイエンティストは、データから価値を引き出すために高度な分析作業を行います。 その作業は、記述的分析から予測分析までさまざまです。 記述的分析では、探索的データ分析 (EDA) と呼ばれるプロセスを通してデータを評価します。 予測分析は、異常やパターンを検出できるモデリング手法を適用するために、機械学習で使用されます。 これらの分析は、予測モデルの重要な部分です。
記述的分析と予測分析は、データ サイエンティストの作業の一部の側面にすぎません。 一部のデータ サイエンティストは、ディープ ラーニングの領域に携わっており、カスタマイズされたアルゴリズムを使用して、反復的な実験を行い、複雑なデータ問題を解決しています。
事例証拠では、データ サイエンス プロジェクトでの作業の多くがデータ ラングリングと機能エンジニアリングに費やされることが示されます。 データ エンジニアがそのスキルを使用してデータを正常にラングリングすると、データ サイエンティストは実験プロセスの時間を短縮できます。
表面上は、データ サイエンティストとデータ アナリストの仕事はかけ離れているように見えますが、その憶測は事実ではありません。 データ サイエンティストは、データを調べて、答えを必要とする質問を特定し、多くの場合、仮説や実験を考案します。その後、データ アナリストに変わり、データの視覚化とレポート作成を支援します。
データベース管理者
データベース管理者は、Microsoft Azure データ サービスおよび Microsoft SQL Server 上に構築されたクラウドネイティブおよびハイブリッドのデータ プラットフォーム ソリューションの運用面を実装して管理します。 データベース管理者は、データベース ソリューションの全体的な可用性と一貫したパフォーマンス、および最適化を担当します。 また、利害関係者と協力して、データのバックアップと復旧の計画のためのポリシー、ツール、プロセスを特定して実装します。
データベース管理者のロールは、データベース エンジニアのロールとは異なります。 データベース管理者は、データベースとそれが配置されているハードウェアの全体的な正常性を監視し、管理します。一方、データ エンジニアは、データ ラングリングのプロセスに関与します。つまり、ビジネス ニーズや要件を満たすためにデータの取り込み、変換、検証、クリーニングを行います。
さらに、データベース管理者は、データの全体的なセキュリティの管理も担当します。また、ビジネス ニーズと要件によって決定される、データに対するユーザー アクセスと特権の付与と制限も担当します。