Share via


データ サイエンティスト向け Team Data Science Process

この記事では、Azureテクノロジを使用して包括的なデータサイエンスソリューションを実装するときに設定する目標についてのガイダンスを提供します。 ガイドは次のとおりです。

  • 分析ワークロードについて理解します。
  • Team Data Science Processを使用します。
  • Azure Machine Learningを使用します。
  • データ転送とストレージの基礎を理解します。
  • データソースドキュメントを提供します。
  • 分析処理にツールを使用します。

これらのトレーニング資料は、Team Data Science Process (TDSP) とMicrosoftのオープンソースソフトウェアとツールキットに関連しており、データサイエンスソリューションの構想、実行、および提供に役立ちます。

レッスンパス

次の表の各項目を使用して、ご自分で学習を進めることができます。 説明を読んでパスをたどり、トピックを選択して学習の参照を表示し、知識チェックを使用してスキルをチェックします。

目標 トピック 説明 知識チェック
分析プロジェクトの作成プロセスを理解する Team Data Science Process の概要 まず、TDSPの概要について説明します。 このプロセスでは、分析プロジェクトの各手順について説明します。 プロセスとその実装方法の詳細については、各セクションをご覧ください。 TDSPプロジェクト構造のアーティファクトを確認し、プロジェクトのローカルコンピューターにダウンロードします。
アジャイル開発 TDSPは、さまざまなプログラミング方法論で適切に動作します。 このラーニング パスでは、アジャイル ソフトウェア開発を使用します。 アジャイルを取り入れて作業することの基本について説明している「アジャイル開発とは」と「アジャイル カルチャの構築」の記事をお読みください。 こちらのサイトには、詳細を確認できるリファレンスが他にも掲載されています。 継続的インテグレーションと継続的配信について同僚に説明しましょう。
データサイエンスのためのDevOps 開発者運用 (DevOps) には、プロジェクトを通じて作業し、ソリューションを組織の標準ITに統合するために使用できる人、プロセス、およびプラットフォームが含まれます。 この統合は、導入、安全性、そしてセキュリティに不可欠となっています。 このオンラインコースでは、DevOpsプラクティスについて学習し、使用可能なツールチェーンオプションの一部を理解します。 DevOps が分析プロジェクトにとってどれほど欠かせないものかを説明する、専門家を対象とした 30 分のプレゼンテーションを作成します。
データストレージと処理のテクノロジを理解します Microsoftビジネス分析とAI このラーニング パスでは、分析ソリューションの作成に使用できるテクノロジをいくつか取り上げていますが、Microsoft にはそのほかにも多くのテクノロジがあります。 利用できるオプションを理解するには、Microsoft Azure、Azure Stack、およびオンプレミスのオプションで使用できるプラットフォームと機能を確認することが重要です。 こちらのリソースをご覧になり、分析の質問の回答に使用できる各種ツールを確認してください。 こちらのワークショップからプレゼンテーションの素材をダウンロードして確認します
トレーニング、開発、運用環境のセットアップと構成。 Microsoft Azure 次に、Microsoft Azure でトレーニング用のアカウントを作成して、開発とテストの各環境を作成する方法を学びましょう。 無料のトレーニング用リソースを使用して開始できます。 初級パスと中級パスを完了します。 Azureアカウントをお持ちでない場合は、作成してください。 Azure portalにサインインし、トレーニング用のリソースグループを1つ作成します。
Azureコマンドラインインターフェイス (CLI) Visual Studio CodeやVisual Studioなどのグラフィカルツールから、Azure portalなどのWebインターフェイス、Azure PowerShellのコマンドや関数などのコマンドラインまで、Azureを操作する方法は複数あります。 この記事では、ワークステーションのローカル、Windowsやその他のオペレーティングシステム、およびAzure portalで使用できるCLIについて説明します。 Azure CLI を使用して、既定のサブスクリプションを設定します
Azure ストレージ データを保存するには、場所が必要です。 この記事では、Azureストレージオプション、ストレージアカウントの作成方法、およびクラウドにデータをコピーまたは移動する方法について説明します。 詳細については、この概要をご覧ください。 トレーニングリソースグループにストレージアカウントを作成し、BLOBオブジェクトのコンテナーを作成して、データをアップロードおよびダウンロードします。
Microsoft Entra ID Microsoft Entra ID は、アプリケーションをセキュリティで保護するための基盤となります。 この記事では、アカウント、権限、およびアクセス許可について詳しく説明します。 Active Directoryとセキュリティは複雑なトピックであるため、このリソースを通じて基礎を理解してください。 Microsoft Entra ID にユーザーを 1 人追加します。 注意: サブスクリプションの管理者でない場合は、このアクションに対するアクセス許可がない可能性があります。 その場合は、このチュートリアルを確認して詳細を確認してください
Azure Data Science Virtual Machine for PyTorch データサイエンスを操作するためのツールは、複数のオペレーティングシステムにローカルにインストールできます。 ただし、Data Science Virtual Machine for PyTorchには、必要なすべてのツールと、操作するための多数のプロジェクトサンプルが含まれています。 この記事では、Data Science Virtual Machine for PyTorchの詳細と、その例を使用する方法について説明します。 このリソースでは、Data Science Virtual Machine for PyTorch、その作成方法、およびそれを使用してコードを開発するためのいくつかのオプションについて説明します。 また、このラーニングパスを完了するために必要なすべてのソフトウェアも含まれているため、このトピックのナレッジパスを完了してください。 Data Science Virtual Machine for PyTorchを作成し、少なくとも1つのラボで作業します。
データサイエンスソリューションを操作するためのツールとテクノロジをインストールして理解します Git の使用 TDSP で Microsoft の DevOps プロセスを実行するには、バージョン管理システムが必要です。 Machine Learningでは、人気のあるオープンソースの分散リポジトリシステムであるGitが使用されています。 この記事では、Gitと中央リポジトリであるGitHubをインストール、構成、操作する方法について詳しく説明します。 この GitHub プロジェクトをラーニング パスのプロジェクト構造用に複製します
Visual Studio Code Visual Studio Codeは、複数の言語とAzureツールで使用できるクロスプラットフォーム統合開発環境 (IDE) です。 この単一の環境を使用して、ソリューション全体を作成できます。 最初に、これらの入門ビデオをご覧ください。 Visual Studio Codeをインストールし、対話型エディタープレイグラウンドでVisual Studio Codeの機能を使用します。
Python を使用したプログラミング このソリューションでは、データサイエンスで最も一般的な言語の1つであるPythonを使用します。 この記事では、Python を使用して分析コードを作成する基本的な方法と、詳細を学べるリソースを紹介します。 このリファレンスの 1 から 9 のセクションに取り組んでから、ご自分の知識をチェックします。 Pythonを使用してAzureテーブルに1つのエンティティを追加します。
Jupyter Notebook の使用 Notebook は、同じドキュメント内にテキストとコードを導入する方法です。 Machine Learningはノートブックで動作するため、その使用方法を理解しておくと役立ちます。 このチュートリアルを読み、知識チェックセクションで試してみてください。 Jupyter Webページを開き、Welcome to Python.ipynbを選択します。 そのページの例に取り組みます。
機械学習 高度な分析ソリューションを作成するには、機械学習を使用してデータを操作する必要があります。これは、AIとディープラーニングを操作するための基礎でもあります。 このコースでは、機械学習について詳しく説明します。 データサイエンスの包括的なコースについては、この認定資格を参照してください。 機械学習アルゴリズムに関するリソースを見つけます。 (ヒント: "azure machine learning algorithm cheat sheet"を検索してください) 。
scikit-learn scikit-learn のツール セットを使用すると、Python でデータ サイエンス タスクを実行できます。 Microsoft のソリューションでは、このフレームワークを使用します。 この記事では、基本について説明すると共に、詳細に関する参照先を紹介しています。 Iris データセットを使用し、Pickle を使って SVM モデルを永続化します。
Docker の使用 Dockerは、アプリケーションの構築、配布、実行に使用される分散プラットフォームであり、機械学習で頻繁に使用されます。 この記事では、このテクノロジの基本について説明すると共に、詳細に関する参照先を紹介しています。 Visual Studio Codeを開き、Docker拡張機能をインストールします。 単純なノード Docker コンテナーを作成します
Azure HDInsight HDInsightはHadoopのオープンソースインフラストラクチャであり、Azureのサービスとして利用できます。 機械学習アルゴリズムには大量のデータセットが含まれる場合があり、HDInsightを使用して大規模なデータを格納、転送、処理できます。 この記事では、HDInsight の使用方法について説明します。 小規模な HDInsight クラスターを作成します。 HiveQL ステートメントを使用し、/example/data/sample.log ファイルに列を表示します。 または、お使いのローカル システムでこの知識チェックを完了することもできます
ビジネス要件からデータ処理フローを作成します TDSPに従って質問を決定します 開発環境をインストールおよび構成し、所定のテクノロジとプロセスを理解したら、TDSP を使用してすべてを 1 つにまとめて、分析を実行します。 まず、質問を定義し、データソースを選択し、TDSPの残りの手順を実行する必要があります。 このプロセスに取り組む際には、DevOps プロセスに留意します。 この記事では、組織から要件を取得し、アプリケーションでデータフローマップを作成して、TDSPを使用してソリューションを定義する方法について説明します。 データサイエンスに関する5つの質問」に関するリソースを探し、これらの分野で組織が抱えている可能性のある質問を一つ記述します。 その質問に対して、どのアルゴリズムに重点を置く必要があるか。
Machine Learningを使用して予測ソリューションを作成します Machine Learning Machine Learningは、データラングリングと特徴エンジニアリングにAIを使用し、実験を管理し、モデルの実行を追跡します。 単一の環境を使用し、ほとんどの関数はローカルまたはAzureで実行できます。 PyTorchフレームワーク、TensorFlowフレームワーク、またはその他のフレームワークを使用して、実験を作成できます。 この記事では、これまでに学習したすべてを使用して、このプロセスの完全な例に焦点を当てます。
Power BI を使用して結果を視覚化する Power BI Power BIはデータ視覚化ツールです。 Webデバイス、モバイルデバイス、デスクトップコンピューターなど、複数のプラットフォームで使用できます。 この記事では、Azure Storageから結果にアクセスし、Power BIを使用して視覚化を作成することで、作成したソリューションの出力を操作する方法について説明します。 Power BI についてのチュートリアルを完了します。 次に、実験の実行で作成したBLOB CSVにPower BIを接続します。
ソリューションを監視する Application Insights エンド ソリューションの監視に使用できるツールには、さまざまなものがあります。 Application Insightsを使用すると、組み込みの監視をソリューションに簡単に統合できます。 アプリケーションを監視するようにApplication Insightsを設定します
Azure Monitor ログ アプリケーションを監視するもう 1 つの方法は、DevOps プロセスに統合することです。 Azure Monitorログには、分析ソリューションをデプロイした後に監視するのに役立つ豊富な機能セットが用意されています。 Azure Monitorログの使用に関するこのチュートリアルを完了してください。
このラーニングパスを完了します。 お疲れさまでした。 このラーニングパスを完了しました。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

  • Mark Tabladillo | シニア クラウド ソリューション アーキテクト

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ

AI学習ハブでAI体験を続けます。