Team Data Science Process란 무엇인가요?

Azure Machine Learning

TDSP(Team 데이터 과학 Process)는 예측 분석 솔루션 및 AI 애플리케이션을 효율적으로 제공하는 데 사용할 수 있는 민첩하고 반복적인 데이터 과학 방법론입니다. TDSP는 팀 역할이 함께 가장 잘 작동하는 방법을 제안하여 팀 공동 작업 및 학습을 개선하는 데 도움이 됩니다. TDSP에는 Microsoft 및 기타 업계 리더의 모범 사례 및 구조가 포함되어 팀이 데이터 과학 이니셔티브를 성공적으로 구현하고 분석 프로그램의 이점을 완전히 실현할 수 있도록 지원합니다.

이 문서에서는 TDSP 및 해당 기본 구성 요소에 대한 개요를 제공합니다. Microsoft 도구 및 인프라를 사용하여 TDSP를 구현하는 방법에 대한 지침을 제공합니다. 문서 전체에서 더 자세한 리소스를 찾을 수 있습니다.

TDSP의 주요 구성 요소

TDSP에는 다음과 같은 주요 구성 요소가 있습니다.

  • 데이터 과학 수명 주기 정의
  • 표준화된 프로젝트 구조
  • 데이터 과학 프로젝트에 권장되는 인프라 및 리소스
  • 프로젝트 실행에 권장되는 도구 및 유틸리티

데이터 과학 수명 주기

TDSP는 데이터 과학 프로젝트의 개발을 구성하는 데 사용할 수 있는 수명 주기를 제공합니다. 수명 주기는 성공적인 프로젝트가 따르는 전체 단계를 간략하게 설명합니다.

작업 기반 TDSP를 CRISP-DM(데이터 마이닝에 대한 업계 간 표준 프로세스), KDD(데이터베이스의 지식 검색) 프로세스 또는 다른 사용자 지정 프로세스와 같은 다른 데이터 과학 수명 주기와 결합할 수 있습니다. 높은 수준에서, 이러한 다른 방법론에는 많은 공통점이 있습니다.

지능형 애플리케이션의 일부인 데이터 과학 프로젝트가 있는 경우 이 수명 주기를 사용해야 합니다. 지능형 애플리케이션은 예측 분석을 위해 기계 학습 또는 AI 모델을 배포합니다. 예비 데이터 과학 프로젝트 및 즉석 분석 프로젝트에 이 프로세스를 사용할 수도 있습니다.

TDSP 수명 주기는 팀이 반복적으로 수행하는 5가지 주요 단계로 구성됩니다. 이러한 단계에는 다음이 포함됩니다.

TDSP 수명 주기의 시각적 표현은 다음과 같습니다.

Diagram that shows the stages of the TDSP lifecycle.

각 단계의 목표, 작업 및 설명서 아티팩트에 대한 자세한 내용은 팀 데이터 과학 프로세스 수명 주기를 참조하세요.

이러한 작업 및 아티팩트가 프로젝트 역할과 연결됩니다. 예를 들면 다음과 같습니다.

  • 솔루션 설계자입니다.
  • 프로젝트 관리자.
  • 데이터 엔지니어.
  • 데이터 과학자,
  • 애플리케이션 개발자.
  • 프로젝트 리드입니다.

다음 다이어그램에서는 이러한 역할(세로 축)에 대한 수명 주기의 각 단계(가로 축)와 연결된 작업(파란색) 및 아티팩트(녹색)를 보여 줍니다.

Diagram that shows the tasks and artifacts for each stage.

표준화된 프로젝트 구조

팀은 Azure 인프라를 사용하여 데이터 과학 자산을 구성할 수 있습니다.

Azure Machine Learning은 오픈 소스 MLflow를 지원합니다. 데이터 과학 및 AI 프로젝트 관리에 MLflow를 사용하는 것이 좋습니다. MLflow는 전체 기계 학습 수명 주기를 관리하도록 설계되었습니다. 다양한 플랫폼에서 모델을 학습하고 제공하므로 실험 실행 위치에 관계없이 일관된 도구 집합을 사용할 수 있습니다. 컴퓨터, 원격 컴퓨팅 대상, 가상 머신 또는 Machine Learning 컴퓨팅 인스턴스에서 로컬로 MLflow를 사용할 수 있습니다.

MLflow는 다음과 같은 몇 가지 주요 기능으로 구성됩니다.

  • 실험 추적: MLflow를 사용하면 매개 변수, 코드 버전, 메트릭 및 출력 파일을 비롯한 실험을 추적할 수 있습니다. 이 기능을 사용하면 다양한 실행을 비교하고 실험 프로세스를 효율적으로 관리할 수 있습니다.

  • 패키지 코드: 종속성 및 구성을 포함하는 기계 학습 코드를 패키징하기 위한 표준화된 형식을 제공합니다. 이 패키징을 사용하면 실행을 보다 쉽게 재현하고 다른 사용자와 코드를 공유할 수 있습니다.

  • 모델 관리: MLflow는 모델 관리 및 버전 관리를 위한 기능을 제공합니다. 다양한 기계 학습 프레임워크를 지원하므로 모델을 저장, 버전 관리 및 제공할 수 있습니다.

  • 모델 제공 및 배포: MLflow는 모델 서비스 및 배포 기능을 통합하므로 다양한 환경에서 모델을 쉽게 배포할 수 있습니다.

  • 모델 등록: 버전 관리, 스테이지 전환 및 주석을 포함하여 모델의 수명 주기를 관리할 수 있습니다. MLflow는 공동 작업 환경에서 중앙 집중식 모델 저장소를 기본 데 유용합니다.

  • API 및 UI 사용: Azure 내에서 MLflow는 Machine Learning API 버전 2 내에 번들로 제공되므로 프로그래밍 방식으로 시스템과 상호 작용할 수 있습니다. Azure Portal을 사용하여 UI와 상호 작용할 수 있습니다.

MLflow는 실험에서 배포에 이르기까지 기계 학습 개발 프로세스를 단순화하고 표준화하는 것을 목표로 합니다.

Machine Learning 은 Git 리포지토리와 통합되므로 GitHub, GitLab, Bitbucket, Azure DevOps 또는 다른 Git 호환 서비스를 사용할 수 있습니다. Machine Learning에서 이미 추적된 자산 외에도 팀은 Git 호환 서비스 내에서 고유한 분류를 개발하여 다음과 같은 다른 프로젝트 정보를 저장할 수 있습니다.

  • 설명서
    • 프로젝트(예: 최종 프로젝트 보고서)
    • 데이터 보고서(예: 데이터 사전 또는 데이터 품질 보고서)
    • 모델(예: 모델 보고서)
  • 코드
    • 데이터 준비
    • 모델 개발
    • 보안 및 규정 준수를 포함한 운영화

인프라 및 리소스

TDSP는 다음과 같은 공유 분석 및 스토리지 인프라를 관리하기 위한 권장 사항을 제공합니다.

  • 데이터 세트를 저장하기 위한 클라우드 파일 시스템
  • 데이터베이스
  • 빅 데이터 클러스터(예: SQL 또는 Spark)
  • 기계 학습 서비스

원시 및 처리된 데이터 세트가 저장되는 분석 및 스토리지 인프라를 클라우드 또는 온-프레미스에 배치할 수 있습니다. 이런 인프라로 인해 실제 확인할 수 있는 분석이 가능해집니다. 또한 중복을 방지하여 불일치 및 불필요한 인프라 비용을 초래할 수 있습니다. 인프라에는 공유 리소스를 프로비전하고, 추적하고, 각 팀 구성원이 해당 리소스에 안전하게 연결할 수 있도록 하는 도구가 있습니다. 또한 프로젝트 멤버가 일관된 컴퓨팅 환경을 만들도록 하는 것이 좋습니다. 그런 다음 다양한 팀 구성원이 실험을 복제본(replica) 확인하고 유효성을 검사할 수 있습니다.

다음은 여러 프로젝트에서 작업하고 다양한 클라우드 분석 인프라 구성 요소를 공유하는 팀의 예입니다.

Diagram that shows the infrastructure of a team.

도구 및 유틸리티

대부분의 조직에서는 프로세스를 도입하기가 어렵습니다. 인프라는 TDSP를 구현하는 도구와 수명 주기를 제공하여 채택의 장벽을 낮추고 일관성을 높이는 데 도움이 됩니다.

Machine Learning을 사용하면 데이터 과학자가 데이터 과학 파이프라인 또는 워크플로의 일부로 오픈 소스 도구를 적용할 수 있습니다. Machine Learning 내에서 Microsoft는 Microsoft의 책임 있는 AI 표준을 달성하는 데 도움이 되는 책임 있는 AI 도구를 홍보합니다.

피어 검토 인용

TDSP는 Microsoft 계약에서 사용되는 잘 확립된 방법론이므로 동료 검토 문헌에서 문서화되고 연구되었습니다. 이러한 인용은 TDSP 기능 및 애플리케이션을 조사할 수 있는 기회를 제공합니다. 인용 목록은 수명 주기 개요 페이지를 참조하세요.

팀 데이터 과학 프로세스의 역할 및 작업