데이터 과학자를 위한 팀 데이터 과학 프로세스

이 문서에서는 Azure 기술을 사용하여 포괄적인 데이터 과학 솔루션을 구현할 때 설정한 목표에 대한 지침을 제공합니다. 다음을 안내합니다.

  • 분석 워크로드 이해
  • 팀 데이터 과학 프로세스 사용.
  • Azure Machine Learning 사용.
  • 데이터 전송 및 스토리지의 기초를 이해합니다.
  • 데이터 원본 설명서 제공
  • 분석 처리를 위한 도구 사용

이러한 교육 자료는 TDSP(Team 데이터 과학 Process) 및 Microsoft 오픈 소스 소프트웨어 및 도구 키트와 관련이 있으며 이는 데이터 과학 솔루션을 구상, 실행 및 제공하는 데 유용합니다.

단원 경로

다음 표에서 항목을 사용하여 고유한 자습을 안내할 수 있습니다. 설명을 읽어 경로를 따르고, 주제를 선택하여 연구 참조를 확인하고, 기술 검사 사용하여 기술을 검사.

Objective 항목 설명 지식 점검
분석 프로젝트를 개발하기 위한 프로세스 이해 팀 데이터 과학 프로세스에 대한 소개 먼저 TDSP의 개요를 다룹니다. 이 프로세스는 분석 프로젝트의 각 단계를 안내합니다. 이 섹션을 통해 프로세스 및 구현 방법에 대해 자세히 알아봅니다. TDSP 프로젝트 구조 아티팩트 검토 및 프로젝트의 로컬 컴퓨터에 다운로드합니다.
Agile 개발 TDSP는 다양한 프로그래밍 방법론에서 잘 작동합니다. 이 학습 경로에서 Agile Software Development를 사용합니다. Agile 작업의 기본을 다루는 "Agile Development이란?" 및 "Agile Culture 구축" 문서를 읽어보세요. 이 사이트에서 다른 참조도 자세히 알아볼 수 있습니다. 동료에게 연속 통합 및 지속적인 업데이트를 설명합니다.
데이터 과학용 DevOps DevOps(개발자 작업)에는 프로젝트를 통해 작업하고 솔루션을 조직의 표준 IT에 통합하는 데 사용할 수 있는 사람, 프로세스 및 플랫폼이 포함됩니다. 이러한 통합은 채택, 안전 및 보안에 필수적입니다. 이 온라인 과정에서는 DevOps 사례에 대해 알아보고 몇 가지 도구 체인 옵션을 이해합니다. 분석 프로젝트에 DevOps가 필수인 이유를 기술 대상 그룹에게 30분 동안 프레젠테이션하도록 준비합니다.
데이터 스토리지 및 처리를 위한 기술 이해 Microsoft 비즈니스 분석 및 AI 분석 솔루션을 만드는 데 사용할 수 있는 이 학습 경로에서 몇 가지 기술만을 살펴보지만 Microsoft에는 더 많은 기술이 있습니다. 보유한 옵션을 이해하려면 Microsoft Azure, Azure Stack 및 온-프레미스 옵션에서 사용할 수 있는 플랫폼 및 기능을 검토해야 합니다. 분석 질문에 대답하기 위해 사용할 수 있는 다양한 도구에 대해 알아보려면 이 리소스를 검토합니다. 워크샵에서 프레젠테이션 자료를 다운로드하고 검토합니다.
교육, 개발 및 프로덕션 환경 설정 및 구성 Microsoft Azure 이제 학습을 위해 Microsoft Azure에서 계정을 만들고 개발 및 테스트 환경을 만드는 방법을 알아보겠습니다. 이러한 무료 학습 리소스를 시작합니다. 초보자중간 경로를 완료합니다. Azure 계정이 없는 경우 계정을 만듭니다. Azure Portal에 로그인하고 학습을 위해 하나의 리소스 그룹을 만듭니다.
Azure CLI(명령줄 인터페이스) Visual Studio Code 및 Visual Studio와 같은 그래픽 도구에서 Azure Portal과 같은 웹 인터페이스 및 명령줄(예: Azure PowerShell 명령 및 함수)에 이르기까지 Azure를 사용하는 여러 가지 방법이 있습니다. 이 문서에서는 워크스테이션, Windows 및 기타 운영 체제 및 Azure Portal에서 로컬로 사용할 수 있는 CLI를 다룹니다. Azure CLI를 사용하여 기본 구독을 설정합니다.
Azure Storage 데이터를 저장할 공간이 필요합니다. 이 문서에서는 Azure Storage 옵션, 스토리지 계정을 만드는 방법 및 데이터를 클라우드로 복사하거나 이동하는 방법에 대해 알아봅니다. 자세한 내용을 보려면 이 소개를 참고하세요. 학습 리소스 그룹에 Storage 계정을 만들고, Blob 개체에 대한 컨테이너를 만들고, 데이터를 업로드하고 다운로드합니다.
Microsoft Entra ID Microsoft Entra ID는 애플리케이션 보안의 기초를 형성합니다. 이 문서에서 계정, 권한 및 사용 권한에 대해 자세히 알아봅니다. Active Directory 및 보안은 복잡한 항목이므로 이 리소스를 통해 기본 사항을 이해하세요. Microsoft Entra ID에 한 명의 사용자를 추가합니다. 참고: 구독에 대한 관리자가 아닌 경우 이 작업에 대한 권한이 없을 수 있습니다. 이 경우 이 자습서를 검토하여 자세히 알아보세요.
PyTorch용 Azure 데이터 과학 Virtual Machine 여러 운영 체제에서 로컬로 데이터 과학 작업을 위한 도구를 설치할 수 있습니다. 그러나 PyTorch용 데이터 과학 Virtual Machine에는 필요한 모든 도구와 작업할 수 있는 많은 프로젝트 샘플이 포함되어 있습니다. 이 문서에서는 PyTorch용 데이터 과학 Virtual Machine 및 예제를 통해 작업하는 방법에 대해 자세히 알아봅니다. 이 리소스는 PyTorch용 Virtual Machine에 데이터 과학, 가상 머신을 만드는 방법 및 이를 사용하여 코드를 개발하기 위한 몇 가지 옵션을 설명합니다. 또한 이 학습 경로를 완료하는 데 필요한 모든 소프트웨어가 포함되어 있으므로 이 항목에 대한 지식 경로를 완료해야 합니다. PyTorch용 데이터 과학 Virtual Machine을 만들고 하나 이상의 랩을 통해 작업합니다.
데이터 과학 솔루션 작업을 위한 도구 및 기술 설치 및 이해 Git 작업 TDSP를 사용하여 DevOps 프로세스를 수행하려면 버전 제어 시스템이 있어야 합니다. Machine Learning은 인기 있는 오픈 소스 분산 리포지토리 시스템인 Git을 사용합니다. 이 문서에서는 Git 및 중앙 리포지토리인 GitHub를 설치, 구성 및 사용하는 방법에 대해 자세히 알아봅니다. 학습 경로 프로젝트 구조에 대한 이 GitHub 프로젝트를 복제합니다.
Visual Studio Code Visual Studio Code는 여러 언어 및 Azure 도구에서 사용할 수 있는 플랫폼 간 IDE(통합 개발 환경)입니다. 이 단일 환경을 사용하여 전체 솔루션을 만들 수 있습니다. 시작하려면 이러한 소개 비디오를 시청합니다. Visual Studio Code를 설치하고 대화형 편집기 플레이그라운드에서 Visual Studio Code 기능을 통해 작업합니다.
Python을 사용하는 프로그래밍 이 솔루션에서는 데이터 과학에서 가장 인기 있는 언어 중 하나인 Python을 사용합니다. 이 문서에서는 Python을 사용하는 분석 코드 작성의 기본 사항 및 자세한 리소스를 설명합니다. 이 참조의 1~9단계를 수행한 다음 정보를 확인합니다. Python을 사용하여 Azure 테이블에 엔터티를 하나 추가합니다.
Jupyter Notebook 작업 Notebooks는 같은 문서에서 텍스트와 코드를 도입하는 방법입니다. Machine Learning은 Notebook에서 작동하므로 이를 사용하는 방법을 이해하는 것이 좋습니다. 이 자습서를 읽고 지식 검사 섹션에서 시도해 보세요. Jupyter 웹 페이지를 열고 Python.ipynb 시작 을 선택합니다. 해당 페이지에서 예제를 사용합니다.
기계 학습 고급 분석 솔루션을 만들 때는 기계 학습을 사용하여 데이터를 작업해야 하며, 이는 AI 및 딥 러닝 작업의 기초가 됩니다. 이 과정에서는 기계 학습에 대해 자세히 설명합니다. 데이터 과학에 대한 포괄적인 과정은 이 인증을 참조하세요. 기계 학습 알고리즘에서 리소스를 찾습니다. (힌트: "azure Machine Learning 알고리즘 치트 시트" 검색)
scikit-learn scikit-learn 도구 집합을 통해 Python에서 데이터 과학 작업을 수행할 수 있습니다. 솔루션에서 이 프레임워크를 사용합니다. 이 문서에서는 기본 사항을 다루고 자세히 알아볼 수 있는 위치를 설명합니다. 아이리스 데이터 세트를 사용하여 Pickle을 사용하는 SVM 모델을 유지합니다.
Docker 작업 Docker는 애플리케이션을 빌드, 배송 및 실행하는 데 사용되는 분산 플랫폼이며 기계 학습에서 자주 사용됩니다. 이 문서는 이 기술의 기본 사항을 다루고 자세히 알아볼 수 있는 위치를 설명합니다. Visual Studio Code를 열고 Docker 확장을 설치합니다. 간단한 노드 Docker 컨테이너를 만듭니다.
Azure HDInsight HDInsight는 Azure에서 서비스로 사용할 수 있는 Hadoop 오픈 소스 인프라입니다. 기계 학습 알고리즘에는 대규모 데이터 집합이 포함될 수 있으며, HDInsight를 사용하여 대규모 데이터를 저장, 전송 및 처리할 수 있습니다. 이 문서에서는 HDInsight 작업을 설명합니다. 소규모 HDInsight 클러스터를 만듭니다. HiveQL 문을 사용하여 /example/data/sample.log 파일에 열을 프로젝션합니다. 또는 로컬 시스템에서 이 기술 검사를 완료합니다.
비즈니스 요구 사항에서 데이터 처리 흐름 만들기 TDSP 다음 질문 확인 개발 환경을 설치하고 구성하며 기술 및 프로세스를 이해한 경우 분석을 수행하기 위해 TDSP을 사용하여 모든 기능을 통합합니다. 먼저 질문을 정의하고, 데이터 원본을 선택하고, TDSP의 나머지 단계를 선택해야 합니다. 이 프로세스를 설명할 때 DevOps 프로세스에 유의합니다. 이 문서에서는 조직의 요구 사항을 파악하고 애플리케이션을 통해 데이터 흐름 맵을 만들어 TDSP를 사용하여 솔루션을 정의하는 방법을 알아봅니다. "5가지 데이터 과학 질문"에 대한 리소스를 찾고 조직에서 이러한 영역에서 가질 수 있는 한 가지 질문을 설명합니다. 해당 질문에 대해 집중해야 하는 알고리즘은 무엇인가요?
Machine Learning을 사용하여 예측 솔루션 만들기 Machine Learning Machine Learning은 데이터 랭글링 및 기능 엔지니어링에 AI를 사용하고, 실험을 관리하고, 모델 실행을 추적합니다. 단일 환경을 사용하며 대부분의 함수는 로컬 또는 Azure에서 실행할 수 있습니다. PyTorch 프레임워크, TensorFlow 프레임워크 또는 기타 프레임워크를 사용하여 실험을 만들 수 있습니다. 이 문서에서는 지금까지 배운 모든 것을 사용하여 이 프로세스의 전체 예제를 집중합니다.
Power BI를 사용하여 결과 시각화 Power BI Power BI는 데이터 시각화 도구입니다. 웹 디바이스, 모바일 디바이스 및 데스크톱 컴퓨터와 같은 여러 플랫폼에서 사용할 수 있습니다. 이 문서에서는 Azure Storage의 결과에 액세스하고 Power BI를 사용하여 시각화를 만들어 만든 솔루션의 출력을 사용하는 방법을 알아봅니다. Power BI에서 이 자습서를 완료합니다. 그런 다음 실험 실행에서 만든 Blob CSV에 Power BI를 연결합니다.
솔루션 모니터링 Application Insights 최종 솔루션을 모니터링하는 데 사용할 수 있는 여러 도구가 있습니다. Application Insights를 사용하면 기본 제공 모니터링을 솔루션에 쉽게 통합할 수 있습니다. 애플리케이션을 모니터링하도록 Application Insights를 설정합니다.
Azure Monitor 로그 애플리케이션을 모니터링하는 다른 방법은 DevOps 프로세스에 통합하는 것입니다. Azure Monitor 로그는 배포 후 분석 솔루션을 모니터링하는 데 도움이 되는 다양한 기능 집합을 제공합니다. Azure Monitor 로그 사용에 대한 이 자습서 를 완료합니다.
이 학습 경로 완료 축하합니다! 이 학습 경로를 완료했습니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인하세요.

다음 단계

AI 학습 허브에서 AI 경험을 계속합니다.