TDSP(Team 데이터 과학 Process)는 예측 분석 솔루션 및 AI 애플리케이션을 효율적으로 제공하는 데 사용할 수 있는 민첩하고 반복적인 데이터 과학 방법론입니다. TDSP는 팀 역할이 함께 가장 잘 작동하는 방법을 제안하여 팀 공동 작업 및 학습을 개선하는 데 도움이 됩니다. TDSP에는 Microsoft 및 기타 업계 리더의 모범 사례 및 구조가 포함되어 팀이 데이터 과학 이니셔티브를 성공적으로 구현하고 분석 프로그램의 이점을 완전히 실현할 수 있도록 지원합니다.
이 문서에서는 TDSP 및 해당 기본 구성 요소에 대한 개요를 제공합니다. Microsoft 도구 및 인프라를 사용하여 TDSP를 구현하는 방법에 대한 지침을 제공합니다. 문서 전체에서 더 자세한 리소스를 찾을 수 있습니다.
TDSP의 주요 구성 요소
TDSP에는 다음과 같은 주요 구성 요소가 있습니다.
- 데이터 과학 수명 주기 정의
- 표준화된 프로젝트 구조
- 데이터 과학 프로젝트에 권장되는 인프라 및 리소스
- 프로젝트 실행에 권장되는 도구 및 유틸리티
데이터 과학 수명 주기
TDSP는 데이터 과학 프로젝트의 개발을 구성하는 데 사용할 수 있는 수명 주기를 제공합니다. 수명 주기는 성공적인 프로젝트가 따르는 전체 단계를 간략하게 설명합니다.
작업 기반 TDSP를 CRISP-DM(데이터 마이닝에 대한 업계 간 표준 프로세스), KDD(데이터베이스의 지식 검색) 프로세스 또는 다른 사용자 지정 프로세스와 같은 다른 데이터 과학 수명 주기와 결합할 수 있습니다. 높은 수준에서, 이러한 다른 방법론에는 많은 공통점이 있습니다.
지능형 애플리케이션의 일부인 데이터 과학 프로젝트가 있는 경우 이 수명 주기를 사용해야 합니다. 지능형 애플리케이션은 예측 분석을 위해 기계 학습 또는 AI 모델을 배포합니다. 예비 데이터 과학 프로젝트 및 즉석 분석 프로젝트에 이 프로세스를 사용할 수도 있습니다.
TDSP 수명 주기는 팀이 반복적으로 수행하는 5가지 주요 단계로 구성됩니다. 이러한 단계에는 다음이 포함됩니다.
TDSP 수명 주기의 시각적 표현은 다음과 같습니다.
각 단계의 목표, 작업 및 설명서 아티팩트에 대한 자세한 내용은 팀 데이터 과학 프로세스 수명 주기를 참조하세요.
이러한 작업 및 아티팩트가 프로젝트 역할과 연결됩니다. 예를 들면 다음과 같습니다.
- 솔루션 설계자입니다.
- 프로젝트 관리자.
- 데이터 엔지니어.
- 데이터 과학자,
- 애플리케이션 개발자.
- 프로젝트 리드입니다.
다음 다이어그램에서는 이러한 역할(세로 축)에 대한 수명 주기의 각 단계(가로 축)와 연결된 작업(파란색) 및 아티팩트(녹색)를 보여 줍니다.
표준화된 프로젝트 구조
팀은 Azure 인프라를 사용하여 데이터 과학 자산을 구성할 수 있습니다.
Azure Machine Learning은 오픈 소스 MLflow를 지원합니다. 데이터 과학 및 AI 프로젝트 관리에 MLflow를 사용하는 것이 좋습니다. MLflow는 전체 기계 학습 수명 주기를 관리하도록 설계되었습니다. 다양한 플랫폼에서 모델을 학습하고 제공하므로 실험 실행 위치에 관계없이 일관된 도구 집합을 사용할 수 있습니다. 컴퓨터, 원격 컴퓨팅 대상, 가상 머신 또는 Machine Learning 컴퓨팅 인스턴스에서 로컬로 MLflow를 사용할 수 있습니다.
MLflow는 다음과 같은 몇 가지 주요 기능으로 구성됩니다.
실험 추적: MLflow를 사용하면 매개 변수, 코드 버전, 메트릭 및 출력 파일을 비롯한 실험을 추적할 수 있습니다. 이 기능을 사용하면 다양한 실행을 비교하고 실험 프로세스를 효율적으로 관리할 수 있습니다.
패키지 코드: 종속성 및 구성을 포함하는 기계 학습 코드를 패키징하기 위한 표준화된 형식을 제공합니다. 이 패키징을 사용하면 실행을 보다 쉽게 재현하고 다른 사용자와 코드를 공유할 수 있습니다.
모델 관리: MLflow는 모델 관리 및 버전 관리를 위한 기능을 제공합니다. 다양한 기계 학습 프레임워크를 지원하므로 모델을 저장, 버전 관리 및 제공할 수 있습니다.
모델 제공 및 배포: MLflow는 모델 서비스 및 배포 기능을 통합하므로 다양한 환경에서 모델을 쉽게 배포할 수 있습니다.
모델 등록: 버전 관리, 스테이지 전환 및 주석을 포함하여 모델의 수명 주기를 관리할 수 있습니다. MLflow는 공동 작업 환경에서 중앙 집중식 모델 저장소를 기본 데 유용합니다.
API 및 UI 사용: Azure 내에서 MLflow는 Machine Learning API 버전 2 내에 번들로 제공되므로 프로그래밍 방식으로 시스템과 상호 작용할 수 있습니다. Azure Portal을 사용하여 UI와 상호 작용할 수 있습니다.
MLflow는 실험에서 배포에 이르기까지 기계 학습 개발 프로세스를 단순화하고 표준화하는 것을 목표로 합니다.
Machine Learning 은 Git 리포지토리와 통합되므로 GitHub, GitLab, Bitbucket, Azure DevOps 또는 다른 Git 호환 서비스를 사용할 수 있습니다. Machine Learning에서 이미 추적된 자산 외에도 팀은 Git 호환 서비스 내에서 고유한 분류를 개발하여 다음과 같은 다른 프로젝트 정보를 저장할 수 있습니다.
- 설명서
- 프로젝트(예: 최종 프로젝트 보고서)
- 데이터 보고서(예: 데이터 사전 또는 데이터 품질 보고서)
- 모델(예: 모델 보고서)
- 코드
- 데이터 준비
- 모델 개발
- 보안 및 규정 준수를 포함한 운영화
인프라 및 리소스
TDSP는 다음과 같은 공유 분석 및 스토리지 인프라를 관리하기 위한 권장 사항을 제공합니다.
- 데이터 세트를 저장하기 위한 클라우드 파일 시스템
- 데이터베이스
- 빅 데이터 클러스터(예: SQL 또는 Spark)
- 기계 학습 서비스
원시 및 처리된 데이터 세트가 저장되는 분석 및 스토리지 인프라를 클라우드 또는 온-프레미스에 배치할 수 있습니다. 이런 인프라로 인해 실제 확인할 수 있는 분석이 가능해집니다. 또한 중복을 방지하여 불일치 및 불필요한 인프라 비용을 초래할 수 있습니다. 인프라에는 공유 리소스를 프로비전하고, 추적하고, 각 팀 구성원이 해당 리소스에 안전하게 연결할 수 있도록 하는 도구가 있습니다. 또한 프로젝트 멤버가 일관된 컴퓨팅 환경을 만들도록 하는 것이 좋습니다. 그런 다음 다양한 팀 구성원이 실험을 복제본(replica) 확인하고 유효성을 검사할 수 있습니다.
다음은 여러 프로젝트에서 작업하고 다양한 클라우드 분석 인프라 구성 요소를 공유하는 팀의 예입니다.
도구 및 유틸리티
대부분의 조직에서는 프로세스를 도입하기가 어렵습니다. 인프라는 TDSP를 구현하는 도구와 수명 주기를 제공하여 채택의 장벽을 낮추고 일관성을 높이는 데 도움이 됩니다.
Machine Learning을 사용하면 데이터 과학자가 데이터 과학 파이프라인 또는 워크플로의 일부로 오픈 소스 도구를 적용할 수 있습니다. Machine Learning 내에서 Microsoft는 Microsoft의 책임 있는 AI 표준을 달성하는 데 도움이 되는 책임 있는 AI 도구를 홍보합니다.
피어 검토 인용
TDSP는 Microsoft 계약에서 사용되는 잘 확립된 방법론이므로 동료 검토 문헌에서 문서화되고 연구되었습니다. 이러한 인용은 TDSP 기능 및 애플리케이션을 조사할 수 있는 기회를 제공합니다. 인용 목록은 수명 주기 개요 페이지를 참조하세요.