Team Data Science Process란 무엇인가요?

Azure Machine Learning

TDSP는 예측 분석 솔루션 및 AI 애플리케이션을 효율적으로 제공하는 데 사용할 수 있는 민첩하고 반복적인 데이터 과학 방법론입니다. TDSP는 팀 역할이 함께 작동할 수 있는 최적의 방법을 권장하여 팀 공동 작업 및 학습을 향상시킵니다. TDSP는 Microsoft 및 기타 업계 리더의 모범 사례 및 프레임워크를 통합하여 팀이 데이터 과학 이니셔티브를 효과적으로 구현할 수 있도록 지원합니다. TDSP를 사용하면 분석 프로그램의 이점을 완전히 실현할 수 있습니다.

이 문서에서는 TDSP 및 주요 구성 요소에 대한 개요를 제공합니다. Microsoft 도구 및 인프라를 사용하여 TDSP를 구현하는 방법에 대한 지침을 제공합니다. 문서 전체에서 더 자세한 리소스를 찾을 수 있습니다.

TDSP의 주요 구성 요소

TDSP에는 다음과 같은 주요 구성 요소가 있습니다.

데이터 과학 수명 주기 정의
표준화된 프로젝트 구조
데이터 과학 프로젝트에 이상적인 인프라 및 리소스
책임 있는 AI: 그리고 윤리적 원칙에 따라 AI의 발전에 대한 헌신

데이터 과학 수명 주기

TDSP는 데이터 과학 프로젝트의 개발을 구성하는 데 사용할 수 있는 수명 주기를 제공합니다. 수명 주기는 성공적인 프로젝트가 따르는 전체 단계를 간략하게 설명합니다.

작업 기반 TDSP를 CRISP-DM(데이터 마이닝에 대한 업계 간 표준 프로세스), KDD(데이터베이스의 지식 검색) 프로세스 또는 다른 사용자 지정 프로세스와 같은 다른 데이터 과학 수명 주기와 결합할 수 있습니다. 높은 수준에서, 이러한 다른 방법론에는 많은 공통점이 있습니다.

지능형 애플리케이션의 일부인 데이터 과학 프로젝트가 있는 경우 이 수명 주기를 사용합니다. 지능형 애플리케이션은 예측 분석을 위해 기계 학습 또는 AI 모델을 배포합니다. 예비 데이터 과학 프로젝트 및 즉석 분석 프로젝트에 이 프로세스를 사용할 수도 있습니다.

TDSP 수명 주기는 팀이 반복적으로 수행하는 5가지 주요 단계로 구성됩니다. 이러한 단계에는 다음이 포함됩니다.

TDSP 수명 주기의 시각적 표현은 다음과 같습니다.

각 단계의 목표, 작업 및 설명서 아티팩트에 대한 자세한 내용은 TDSP 수명 주기를 참조 하세요.

이러한 작업 및 아티팩트가 다음과 같은 프로젝트 역할과 일치합니다.

솔루션 설계자
프로젝트 관리자
데이터 엔지니어
데이터 과학자
애플리케이션 개발자
프로젝트 책임자

다음 다이어그램에서는 가로 축에 표시된 수명 주기의 각 단계와 세로 축에 표시된 역할에 해당하는 작업(파란색) 및 아티팩트(녹색)를 보여 줍니다.

표준화된 프로젝트 구조

팀은 Azure 인프라를 사용하여 데이터 과학 자산을 구성할 수 있습니다.

Azure Machine Learning은 오픈 소스 MLflow를 지원합니다. 데이터 과학 및 AI 프로젝트 관리에 MLflow를 사용하는 것이 좋습니다. MLflow는 전체 기계 학습 수명 주기를 관리하도록 설계되었습니다. 실험이 실행되는 위치에 관계없이 일관된 도구 집합을 사용할 수 있도록 다양한 플랫폼에서 모델을 학습하고 제공합니다. 컴퓨터, 원격 컴퓨팅 대상, 가상 머신 또는 기계 학습 컴퓨팅 인스턴스에서 로컬로 MLflow를 사용할 수 있습니다.

MLflow는 다음과 같은 몇 가지 주요 기능으로 구성됩니다.

실험 추적: MLflow를 사용하여 매개 변수, 코드 버전, 메트릭 및 출력 파일을 비롯한 실험을 추적할 수 있습니다. 이 기능을 사용하면 다양한 실행을 비교하고 실험 프로세스를 효율적으로 관리할 수 있습니다.
패키지 코드: 종속성 및 구성을 포함하는 기계 학습 코드를 패키징하기 위한 표준화된 형식을 제공합니다. 이 패키징을 사용하면 실행을 보다 쉽게 재현하고 다른 사용자와 코드를 공유할 수 있습니다.
모델 관리: MLflow는 모델을 관리하고 버전화할 수 있는 기능을 제공합니다. 다양한 기계 학습 프레임워크를 지원하므로 모델을 저장, 버전 관리 및 제공할 수 있습니다.
모델 제공 및 배포: MLflow는 다양한 환경에서 모델을 쉽게 배포할 수 있도록 모델 서비스 및 배포 기능을 통합합니다.
모델 등록: 버전 관리, 스테이지 전환 및 주석을 포함하는 모델의 수명 주기를 관리할 수 있습니다. MLflow를 사용하여 공동 작업 환경에서 중앙 집중식 모델 저장소를 유지할 수 있습니다.
API 및 UI 사용: Azure 내에서 MLflow는 Machine Learning API 버전 2 내에 번들로 제공되므로 프로그래밍 방식으로 시스템과 상호 작용할 수 있습니다. Azure Portal을 사용하여 UI와 상호 작용할 수 있습니다.

MLflow는 실험에서 배포까지 기계 학습 개발 프로세스를 간소화하고 표준화합니다.

Machine Learning 은 Git 리포지토리와 통합되므로 GitHub, GitLab, Bitbucket, Azure DevOps 또는 다른 Git 호환 서비스와 같은 Git 호환 서비스를 사용할 수 있습니다. Machine Learning에서 이미 추적된 자산 외에도 팀은 Git 호환 서비스 내에서 고유한 분류를 개발하여 다음과 같은 다른 프로젝트 데이터를 저장할 수 있습니다.

설명서
- 프로젝트 데이터: 예: 최종 프로젝트 보고서
- 데이터 보고서: 예: 데이터 사전 또는 데이터 품질 보고서
- 모델: 예: 모델 보고서
코드
- 데이터 준비
- 모델 개발
- 보안 및 규정 준수를 포함하는 운영화

인프라 및 리소스

TDSP는 다음 범주에서 공유 분석 및 스토리지 인프라를 관리하는 방법에 대한 권장 사항을 제공합니다.

데이터 세트를 저장하는 클라우드 파일 시스템
클라우드 데이터베이스
SQL 또는 Spark를 사용하는 빅 데이터 클러스터
AI 및 기계 학습 서비스

데이터 세트를 저장하는 클라우드 파일 시스템

클라우드 파일 시스템은 여러 가지 이유로 TDSP에 매우 중요합니다.

중앙 집중식 데이터 스토리지: 클라우드 파일 시스템은 데이터 세트를 저장하는 중앙 집중식 위치를 제공하며, 이는 데이터 과학 팀 구성원 간의 협업에 필수적입니다. 중앙 집중화를 사용하면 모든 팀 구성원이 최신 데이터에 액세스할 수 있으며 오래되거나 일관되지 않은 데이터 세트로 작업할 위험이 줄어듭니다.
확장성: 클라우드 파일 시스템은 데이터 과학 프로젝트에서 흔히 볼 수 있는 대량의 데이터를 처리할 수 있습니다. 파일 시스템은 프로젝트의 요구 사항에 따라 증가하는 확장 가능한 스토리지 솔루션을 제공합니다. 이를 통해 팀은 하드웨어 제한에 대한 걱정 없이 대규모 데이터 세트를 저장하고 처리할 수 있습니다.
접근성: 클라우드 파일 시스템을 사용하면 인터넷 연결을 통해 어디서나 데이터에 액세스할 수 있습니다. 이 액세스는 분산된 팀 또는 팀 구성원이 원격으로 작업해야 하는 경우에 중요합니다. 클라우드 파일 시스템은 원활한 공동 작업을 용이하게 하고 데이터에 항상 액세스할 수 있도록 합니다.
보안 및 규정 준수: 클라우드 공급자는 암호화, 액세스 제어 및 업계 표준 및 규정 준수를 포함하는 강력한 보안 조치를 구현하는 경우가 많습니다. 강력한 보안 조치는 중요한 데이터를 보호하고 팀이 법률 및 규제 요구 사항을 충족하는 데 도움이 될 수 있습니다.
버전 제어: 클라우드 파일 시스템에는 종종 버전 제어 기능이 포함되며, 팀은 시간이 지남에 따라 데이터 세트의 변경 내용을 추적하는 데 사용할 수 있습니다. 버전 제어는 데이터의 무결성을 유지하고 데이터 과학 프로젝트에서 결과를 재현하는 데 중요합니다. 또한 발생하는 모든 문제를 감사하고 해결하는 데 도움이 됩니다.
도구와의 통합: 클라우드 파일 시스템은 다양한 데이터 과학 도구 및 플랫폼과 원활하게 통합할 수 있습니다. 도구 통합은 더 쉬운 데이터 수집, 데이터 처리 및 데이터 분석을 지원합니다. 예를 들어 Azure Storage는 Machine Learning, Azure Databricks 및 기타 데이터 과학 도구와 잘 통합됩니다.
공동 작업 및 공유: 클라우드 파일 시스템을 사용하면 다른 팀 구성원 또는 이해 관계자와 데이터 세트를 쉽게 공유할 수 있습니다. 이러한 시스템은 공유 폴더 및 권한 관리와 같은 공동 작업 기능을 지원합니다. 공동 작업 기능은 팀워크를 용이하게 하고 적절한 사용자가 필요한 데이터에 액세스할 수 있도록 합니다.
비용 효율성: 클라우드 파일 시스템은 온-프레미스 스토리지 솔루션을 유지 관리하는 것보다 비용 효율적일 수 있습니다. 클라우드 공급자에는 종량제 옵션이 포함된 유연한 가격 책정 모델이 있으며, 이는 데이터 과학 프로젝트의 실제 사용량 및 스토리지 요구 사항에 따라 비용을 관리하는 데 도움이 될 수 있습니다.
재해 복구: 클라우드 파일 시스템에는 일반적으로 데이터 백업 및 재해 복구 기능이 포함됩니다. 이러한 기능은 하드웨어 오류, 실수로 인한 삭제 및 기타 재해로부터 데이터를 보호하는 데 도움이 됩니다. 안심하고 데이터 과학 작업의 연속성을 지원합니다.
자동화 및 워크플로 통합: 클라우드 스토리지 시스템은 자동화된 워크플로에 통합되어 데이터 과학 프로세스의 여러 단계 간에 원활한 데이터 전송을 가능하게 할 수 있습니다. 자동화는 효율성을 개선하고 데이터를 관리하는 데 필요한 수동 노력을 줄이는 데 도움이 될 수 있습니다.

클라우드 파일 시스템에 권장되는 Azure 리소스

Azure Blob Storage - 비정형 데이터에 대한 확장 가능한 개체 스토리지 서비스인 Azure Blob Storage에 대한 포괄적인 설명서입니다.
Azure Data Lake Storage - 빅 데이터 분석을 위해 디자인되고 대규모 데이터 세트를 지원하는 Azure Data Lake Storage Gen2에 대한 정보입니다.
Azure Files - 클라우드에서 완전히 관리되는 파일 공유를 제공하는 Azure Files에 대한 세부 정보입니다.

요약하자면, 클라우드 파일 시스템은 전체 데이터 수명 주기를 지원하는 확장 가능하고 안전하며 액세스할 수 있는 스토리지 솔루션을 제공하기 때문에 TDSP에 매우 중요합니다. 클라우드 파일 시스템은 포괄적인 데이터 획득 및 이해를 지원하는 다양한 원본에서 원활한 데이터 통합을 지원합니다. 데이터 과학자는 클라우드 파일 시스템을 사용하여 대규모 데이터 세트를 효율적으로 저장, 관리 및 액세스할 수 있습니다. 이 기능은 기계 학습 모델을 학습하고 배포하는 데 필수적입니다. 또한 이러한 시스템은 팀 구성원이 통합 환경에서 동시에 데이터를 공유하고 작업할 수 있도록 하여 공동 작업을 향상시킵니다. 클라우드 파일 시스템은 데이터를 보호하고 규정 요구 사항을 준수하는 데 도움이 되는 강력한 보안 기능을 제공하며 이는 데이터 무결성 및 신뢰를 유지하는 데 매우 중요합니다.

클라우드 데이터베이스

클라우드 데이터베이스는 여러 가지 이유로 TDSP에서 중요한 역할을 합니다.

확장성: 클라우드 데이터베이스는 프로젝트의 증가하는 데이터 요구 사항에 맞게 쉽게 확장할 수 있는 확장 가능한 솔루션을 제공합니다. 확장성은 크고 복잡한 데이터 세트를 자주 처리하는 데이터 과학 프로젝트에 매우 중요합니다. 클라우드 데이터베이스는 수동 개입 또는 하드웨어 업그레이드 없이도 다양한 워크로드를 처리할 수 있습니다.
성능 최적화: 개발자는 자동 인덱싱, 쿼리 최적화 및 부하 분산과 같은 기능을 사용하여 성능을 위해 클라우드 데이터베이스를 최적화합니다. 이러한 기능은 데이터 검색 및 처리가 빠르고 효율적으로 수행되도록 하는 데 도움이 되며, 이는 실시간 또는 거의 실시간 데이터 액세스가 필요한 데이터 과학 작업에 매우 중요합니다.
접근성 및 공동 작업: Teams는 모든 위치에서 클라우드 데이터베이스에 저장된 데이터에 액세스할 수 있습니다. 이러한 접근성은 지리적으로 분산될 수 있는 팀 구성원 간의 협업을 촉진합니다. 분산된 팀 또는 원격으로 작업하는 사람들에게는 접근성 및 공동 작업이 중요합니다. 클라우드 데이터베이스는 동시 액세스 및 협업을 가능하게 하는 다중 사용자 환경을 지원합니다.
데이터 과학 도구와의 통합: 클라우드 데이터베이스는 다양한 데이터 과학 도구 및 플랫폼과 원활하게 통합됩니다. 예를 들어 Azure 클라우드 데이터베이스는 Machine Learning, Power BI 및 기타 데이터 분석 도구와 잘 통합됩니다. 이 통합은 수집 및 스토리지에서 분석 및 시각화에 이르기까지 데이터 파이프라인을 간소화합니다.
보안 및 규정 준수: 클라우드 공급자는 데이터 암호화, 액세스 제어 및 업계 표준 및 규정 준수를 포함하는 강력한 보안 조치를 구현합니다. 보안 조치는 중요한 데이터를 보호하고 팀이 법률 및 규제 요구 사항을 충족하는 데 도움이 됩니다. 보안 기능은 데이터 무결성 및 개인 정보를 유지하는 데 매우 중요합니다.
비용 효율성: 클라우드 데이터베이스는 종종 종량제 모델에서 작동하므로 온-프레미스 데이터베이스 시스템을 유지 관리하는 것보다 비용 효율적일 수 있습니다. 이러한 가격 책정 유연성을 통해 조직은 예산을 효과적으로 관리하고 사용하는 스토리지 및 컴퓨팅 리소스에 대해서만 비용을 지불할 수 있습니다.
자동 백업 및 재해 복구: 클라우드 데이터베이스는 자동 백업 및 재해 복구 솔루션을 제공합니다. 이러한 솔루션은 하드웨어 오류, 실수로 인한 삭제 또는 기타 재해가 있는 경우 데이터 손실을 방지하는 데 도움이 됩니다. 안정성은 데이터 과학 프로젝트에서 데이터 연속성 및 무결성을 유지하는 데 매우 중요합니다.
실시간 데이터 처리: 많은 클라우드 데이터베이스는 최신 정보가 필요한 데이터 과학 작업에 필수적인 실시간 데이터 처리 및 분석을 지원합니다. 이 기능은 데이터 과학자가 가장 최근에 사용 가능한 데이터를 기반으로 적시에 결정을 내리는 데 도움이 됩니다.
데이터 통합: 클라우드 데이터베이스는 다른 데이터 원본, 데이터베이스, 데이터 레이크 및 외부 데이터 피드와 쉽게 통합할 수 있습니다. 통합은 데이터 과학자가 여러 원본의 데이터를 결합하는 데 도움이 되며 포괄적인 뷰와 보다 정교한 분석을 제공합니다.
유연성 및 다양성: 클라우드 데이터베이스는 관계형 데이터베이스, NoSQL 데이터베이스 및 데이터 웨어하우스와 같은 다양한 형태로 제공됩니다. 이러한 다양성을 통해 데이터 과학 팀은 구조적 데이터 스토리지, 구조화되지 않은 데이터 처리 또는 대규모 데이터 분석이 필요한지 여부에 관계없이 특정 요구 사항에 가장 적합한 유형의 데이터베이스를 선택할 수 있습니다.
고급 분석 지원: 클라우드 데이터베이스에는 고급 분석 및 기계 학습에 대한 기본 제공 지원이 제공되는 경우가 많습니다. 예를 들어 Azure SQL Database는 기본 제공 기계 학습 서비스를 제공합니다. 이러한 서비스는 데이터 과학자가 데이터베이스 환경 내에서 직접 고급 분석을 수행하는 데 도움이 됩니다.

클라우드 데이터베이스에 권장되는 Azure 리소스

Azure SQL Database - 완전히 관리되는 관계형 데이터베이스 서비스인 Azure SQL Database에 대한 설명서입니다.
Azure Cosmos DB - 전역적으로 분산된 다중 모델 데이터베이스 서비스인 Azure Cosmos DB에 대한 정보입니다.
Azure Database for PostgreSQL - 앱 개발 및 배포를 위한 관리되는 데이터베이스 서비스인 Azure Database for PostgreSQL 가이드입니다.
Azure Database for MySQL - MySQL 데이터베이스용 관리 서비스인 Azure Database for MySQL에 대한 세부 정보입니다.

요약하자면, 클라우드 데이터베이스는 데이터 기반 프로젝트를 지원하는 확장 가능하고 안정적이며 효율적인 데이터 스토리지 및 관리 솔루션을 제공하기 때문에 TDSP에 매우 중요합니다. 데이터 과학자가 다양한 원본에서 큰 데이터 세트를 수집, 전처리 및 분석하는 데 도움이 되는 원활한 데이터 통합을 지원합니다. 클라우드 데이터베이스는 신속한 쿼리 및 데이터 처리를 가능하게 하며 기계 학습 모델을 개발, 테스트 및 배포하는 데 필수적입니다. 또한 클라우드 데이터베이스는 팀 구성원이 데이터에 동시에 액세스하고 작업할 수 있는 중앙 집중식 플랫폼을 제공하여 공동 작업을 향상시킵니다. 마지막으로, 클라우드 데이터베이스는 데이터 무결성 및 신뢰를 유지하는 데 중요한 규정 표준을 준수하고 데이터를 보호하기 위한 고급 보안 기능 및 규정 준수 지원을 제공합니다.

SQL 또는 Spark를 사용하는 빅 데이터 클러스터

SQL 또는 Spark를 사용하는 것과 같은 빅 데이터 클러스터는 여러 가지 이유로 TDSP의 기본 사항입니다.

대량의 데이터 처리: 빅 데이터 클러스터는 대량의 데이터를 효율적으로 처리하도록 설계되었습니다. 데이터 과학 프로젝트에는 기존 데이터베이스의 용량을 초과하는 대규모 데이터 세트가 포함되는 경우가 많습니다. SQL 기반 빅 데이터 클러스터와 Spark는 대규모로 이 데이터를 관리하고 처리할 수 있습니다.

분산 컴퓨팅: 빅 데이터 클러스터는 분산 컴퓨팅을 사용하여 여러 노드에 데이터 및 계산 작업을 분산합니다. 병렬 처리 기능은 데이터 처리 및 분석 작업을 크게 가속화하며, 이는 데이터 과학 프로젝트에서 적시에 인사이트를 얻는 데 필수적입니다.

확장성: 빅 데이터 클러스터는 노드를 더 추가하고 기존 노드의 성능을 향상시켜 수평적으로 높은 확장성을 제공합니다. 확장성은 증가하는 데이터 크기 및 복잡성을 처리하여 프로젝트의 요구 사항에 따라 데이터 인프라가 확장되도록 하는 데 도움이 됩니다.

데이터 과학 도구와의 통합: 빅 데이터 클러스터는 다양한 데이터 과학 도구 및 플랫폼과 잘 통합됩니다. 예를 들어 Spark는 Hadoop과 원활하게 통합되고 SQL 클러스터는 다양한 데이터 분석 도구와 함께 작동합니다. 통합은 데이터 수집에서 분석 및 시각화에 이르는 원활한 워크플로를 용이하게 합니다.

고급 분석: 빅 데이터 클러스터는 고급 분석 및 기계 학습을 지원합니다. 예를 들어 Spark는 다음과 같은 기본 제공 라이브러리를 제공합니다.

기계 학습, MLlib
그래프 처리, GraphX
스트림 처리, Spark 스트리밍

이러한 기능은 데이터 과학자가 클러스터 내에서 직접 복잡한 분석을 수행하는 데 도움이 됩니다.

실시간 데이터 처리: 빅 데이터 클러스터, 특히 Spark를 사용하는 클러스터는 실시간 데이터 처리를 지원합니다. 이 기능은 최대 분 데이터 분석 및 의사 결정이 필요한 프로젝트에 매우 중요합니다. 실시간 처리는 사기 감지, 실시간 권장 사항 및 동적 가격 책정과 같은 시나리오에서 도움이 됩니다.

데이터 변환 및 ETL(추출, 변환, 로드): 빅 데이터 클러스터는 데이터 변환 및 ETL 프로세스에 적합합니다. 데이터를 분석하기 전에 종종 필요한 복잡한 데이터 변환, 정리 및 집계 작업을 효율적으로 처리할 수 있습니다.

비용 효율성: 특히 Azure Databricks 및 기타 클라우드 서비스와 같은 클라우드 기반 솔루션을 사용하는 경우 빅 데이터 클러스터는 비용 효율적일 수 있습니다. 이러한 서비스는 종량제가 포함된 유연한 가격 책정 모델을 제공하며, 이는 온-프레미스 빅 데이터 인프라를 유지하는 것보다 더 경제적일 수 있습니다.

내결함성: 빅 데이터 클러스터는 내결함성을 염두에 두고 설계되었습니다. 노드 간에 데이터를 복제하여 일부 노드가 실패하더라도 시스템이 계속 작동하도록 합니다. 이 안정성은 데이터 과학 프로젝트에서 데이터 무결성 및 가용성을 유지하는 데 중요합니다.

데이터 레이크 통합: 빅 데이터 클러스터는 데이터 레이크와 원활하게 통합되는 경우가 많으며, 이를 통해 데이터 과학자는 다양한 데이터 원본에 통합된 방식으로 액세스하고 분석할 수 있습니다. 통합은 구조화된 데이터와 구조화되지 않은 데이터의 조합을 지원하여 보다 포괄적인 분석을 촉진합니다.

SQL 기반 처리: SQL에 익숙한 데이터 과학자의 경우 Spark SQL 또는 Hadoop의 SQL과 같은 SQL 쿼리를 사용하는 빅 데이터 클러스터는 빅 데이터를 쿼리하고 분석하는 친숙한 인터페이스를 제공합니다. 이러한 사용 편의성은 분석 프로세스를 가속화하고 더 광범위한 사용자가 더 쉽게 액세스할 수 있도록 할 수 있습니다.

공동 작업 및 공유: 빅 데이터 클러스터는 여러 데이터 과학자와 분석가가 동일한 데이터 세트에 대해 함께 작업할 수 있는 공동 작업 환경을 지원합니다. 팀워크와 지식 공유를 촉진하는 코드, 전자 필기장 및 결과를 공유하는 기능을 제공합니다.

보안 및 규정 준수: 빅 데이터 클러스터는 데이터 암호화, 액세스 제어 및 업계 표준 준수와 같은 강력한 보안 기능을 제공합니다. 보안 기능은 중요한 데이터를 보호하고 팀이 규정 요구 사항을 충족하는 데 도움이 됩니다.

빅 데이터 클러스터에 권장되는 Azure 리소스

Machine Learning의 Apache Spark: Azure Synapse Analytics와 Machine Learning 통합은 Apache Spark 프레임워크를 통해 분산 계산 리소스에 쉽게 액세스할 수 있도록 합니다.
Synapse Analytics: 빅 데이터 및 데이터 웨어하우징을 통합하는 Synapse Analytics에 대한 포괄적인 설명서입니다.

요약하자면, SQL 또는 Spark와 같은 빅 데이터 클러스터는 방대한 양의 데이터를 효율적으로 처리하는 데 필요한 계산 능력과 확장성을 제공하기 때문에 TDSP에 매우 중요합니다. 빅 데이터 클러스터를 사용하면 데이터 과학자가 심층 인사이트와 정확한 모델 개발을 용이하게 하는 대규모 데이터 세트에 대해 복잡한 쿼리 및 고급 분석을 수행할 수 있습니다. 분산 컴퓨팅을 사용하는 경우 이러한 클러스터는 신속한 데이터 처리 및 분석을 가능하게 하여 전체 데이터 과학 워크플로를 가속화합니다. 또한 빅 데이터 클러스터는 다양한 데이터 원본 및 도구와의 원활한 통합을 지원하여 여러 환경에서 데이터를 수집, 처리 및 분석하는 기능을 향상시킵니다. 또한 빅 데이터 클러스터는 팀이 리소스, 워크플로 및 결과를 효과적으로 공유할 수 있는 통합 플랫폼을 제공하여 공동 작업 및 재현성을 촉진합니다.

AI 및 기계 학습 서비스

AI 및 ML(기계 학습) 서비스는 다음과 같은 여러 가지 이유로 TDSP에 필수적입니다.

고급 분석: AI 및 ML 서비스를 통해 고급 분석을 사용할 수 있습니다. 데이터 과학자는 고급 분석을 사용하여 복잡한 패턴을 파악하고, 예측을 수행하고, 기존의 분석 방법으로는 불가능한 인사이트를 생성할 수 있습니다. 이러한 고급 기능은 강력한 데이터 과학 솔루션을 만드는 데 매우 중요합니다.

반복 작업의 자동화: AI 및 ML 서비스는 데이터 정리, 기능 엔지니어링 및 모델 학습과 같은 반복적인 작업을 자동화할 수 있습니다. 자동화는 시간을 절약하고 데이터 과학자가 프로젝트의 보다 전략적인 측면에 집중하여 전반적인 생산성을 향상시키는 데 도움이 됩니다.

정확도 및 성능 향상: ML 모델은 데이터에서 학습하여 예측 및 분석의 정확도와 성능을 향상시킬 수 있습니다. 이러한 모델은 더 많은 데이터에 노출될 때 지속적으로 개선될 수 있으며, 이로 인해 의사 결정이 향상되고 더 안정적인 결과가 생성됩니다.

확장성: Machine Learning과 같은 클라우드 플랫폼에서 제공하는 AI 및 ML 서비스는 확장성이 높습니다. 대량의 데이터와 복잡한 계산을 처리할 수 있으므로 데이터 과학 팀은 기본 인프라 제한에 대해 걱정하지 않고 증가하는 요구를 충족하도록 솔루션을 확장할 수 있습니다.

다른 도구와의 통합: AI 및 ML 서비스는 Azure Data Lake, Azure Databricks 및 Power BI와 같은 Microsoft 에코시스템 내의 다른 도구 및 서비스와 원활하게 통합됩니다. 통합은 데이터 수집 및 처리에서 모델 배포 및 시각화에 이르는 간소화된 워크플로를 지원합니다.

모델 배포 및 관리: AI 및 ML 서비스는 프로덕션 환경에서 기계 학습 모델을 배포하고 관리하기 위한 강력한 도구를 제공합니다. 버전 제어, 모니터링 및 자동화된 재학습과 같은 기능은 모델이 시간이 지남에 따라 정확하고 효과적으로 유지되도록 하는 데 도움이 됩니다. 이 방법은 ML 솔루션의 유지 관리를 간소화합니다.

실시간 처리: AI 및 ML 서비스는 실시간 데이터 처리 및 의사 결정을 지원합니다. 실시간 처리는 사기 감지, 동적 가격 책정 및 권장 사항 시스템과 같은 즉각적인 인사이트 및 작업이 필요한 애플리케이션에 필수적입니다.

사용자 지정 가능성 및 유연성: AI 및 ML 서비스는 미리 빌드된 모델 및 API부터 사용자 지정 모델을 처음부터 빌드하기 위한 프레임워크에 이르기까지 다양한 사용자 지정 가능한 옵션을 제공합니다. 이러한 유연성은 데이터 과학 팀이 특정 비즈니스 요구 사항 및 사용 사례에 맞게 솔루션을 조정하는 데 도움이 됩니다.

최첨단 알고리즘에 대한 액세스: AI 및 ML 서비스는 데이터 과학자에게 선도적인 연구원이 개발한 최첨단 알고리즘 및 기술에 액세스할 수 있도록 합니다. Access를 통해 팀은 프로젝트에 AI 및 ML의 최신 발전을 사용할 수 있습니다.

공동 작업 및 공유: AI 및 ML 플랫폼은 여러 팀 구성원이 동일한 프로젝트에서 함께 작업하고, 코드를 공유하고, 실험을 재현할 수 있는 공동 작업 개발 환경을 지원합니다. 협업은 팀워크를 향상시키고 모델 개발의 일관성을 보장하는 데 도움이 됩니다.

비용 효율성: 클라우드의 AI 및 ML 서비스는 온-프레미스 솔루션을 빌드하고 유지 관리하는 것보다 비용 효율적일 수 있습니다. 클라우드 공급자에는 비용을 절감하고 리소스 사용량을 최적화할 수 있는 종량제 옵션이 포함된 유연한 가격 책정 모델이 있습니다.

향상된 보안 및 규정 준수: AI 및 ML 서비스는 데이터 암호화, 보안 액세스 제어 및 업계 표준 및 규정 준수를 포함한 강력한 보안 기능을 제공합니다. 이러한 기능은 데이터 및 모델을 보호하고 법률 및 규제 요구 사항을 충족하는 데 도움이 됩니다.

미리 빌드된 모델 및 API: 많은 AI 및 ML 서비스는 자연어 처리, 이미지 인식 및 변칙 검색과 같은 일반적인 작업을 위해 미리 빌드된 모델 및 API를 제공합니다. 미리 빌드된 솔루션은 개발 및 배포를 가속화하고 팀이 AI 기능을 애플리케이션에 신속하게 통합하는 데 도움이 될 수 있습니다.

실험 및 프로토타입 작성: AI 및 ML 플랫폼은 신속한 실험 및 프로토타입 생성을 위한 환경을 제공합니다. 데이터 과학자는 다양한 알고리즘, 매개 변수 및 데이터 세트를 신속하게 테스트하여 최상의 솔루션을 찾을 수 있습니다. 실험 및 프로토타입 생성은 모델 개발에 대한 반복적인 접근 방식을 지원합니다.

AI 및 ML 서비스에 권장되는 Azure 리소스

Machine Learning은 데이터 과학 애플리케이션 및 TDSP에 권장되는 주요 리소스입니다. 또한 Azure는 특정 애플리케이션에 사용할 준비가 된 AI 모델을 포함하는 AI 서비스를 제공합니다.

Machine Learning: 설치, 모델 학습, 배포 등을 다루는 Machine Learning의 기본 설명서 페이지입니다.
Azure AI 서비스: 비전, 음성, 언어 및 의사 결정 작업을 위해 미리 빌드된 AI 모델을 제공하는 AI 서비스에 대한 정보입니다.

요약하자면, AI 및 ML 서비스는 기계 학습 모델의 개발, 학습 및 배포를 간소화하는 강력한 도구와 프레임워크를 제공하기 때문에 TDSP에 매우 중요합니다. 이러한 서비스는 알고리즘 선택 및 하이퍼 매개 변수 튜닝과 같은 복잡한 작업을 자동화하여 모델 개발 프로세스를 크게 가속화합니다. 또한 이러한 서비스는 데이터 과학자가 대규모 데이터 세트와 계산 집약적인 작업을 효율적으로 처리하는 데 도움이 되는 확장 가능한 인프라를 제공합니다. AI 및 ML 도구는 다른 Azure 서비스와 원활하게 통합되고 데이터 수집, 전처리 및 모델 배포를 향상시킵니다. 통합은 원활한 엔드 투 엔드 워크플로를 보장하는 데 도움이 됩니다. 또한 이러한 서비스는 공동 작업 및 재현성을 촉진합니다. 팀은 높은 수준의 보안 및 규정 준수를 유지하면서 인사이트를 공유하고 결과 및 모델을 효과적으로 실험할 수 있습니다.

책임 있는 AI

Microsoft는 AI 또는 ML 솔루션을 사용하여 AI 및 ML 솔루션 내에서 책임 있는 AI 도구를 홍보합니다. 이러한 도구는 Microsoft 책임 AI 표준을 지원합니다. 워크로드는 여전히 AI 관련 피해를 개별적으로 해결해야 합니다.

피어 검토 인용

TDSP는 팀이 Microsoft 계약 전반에 걸쳐 사용하는 잘 설정된 방법론입니다. TDSP는 동료 검토 문헌에서 문서화되고 연구됩니다. 인용은 TDSP 기능 및 애플리케이션을 조사할 수 있는 기회를 제공합니다. 자세한 내용 및 인용 목록은 TDSP 수명 주기를 참조 하세요.

TDSP의 역할 및 작업

다음을 통해 공유

Team Data Science Process란 무엇인가요?

TDSP의 주요 구성 요소

데이터 과학 수명 주기

표준화된 프로젝트 구조

인프라 및 리소스

데이터 세트를 저장하는 클라우드 파일 시스템

클라우드 파일 시스템에 권장되는 Azure 리소스

클라우드 데이터베이스

클라우드 데이터베이스에 권장되는 Azure 리소스

SQL 또는 Spark를 사용하는 빅 데이터 클러스터

빅 데이터 클러스터에 권장되는 Azure 리소스

AI 및 기계 학습 서비스

AI 및 ML 서비스에 권장되는 Azure 리소스

책임 있는 AI

피어 검토 인용

피드백

피드백

추가 리소스

다음을 통해 공유

Team Data Science Process란 무엇인가요?

TDSP의 주요 구성 요소

데이터 과학 수명 주기

표준화된 프로젝트 구조

인프라 및 리소스

데이터 세트를 저장하는 클라우드 파일 시스템

클라우드 파일 시스템에 권장되는 Azure 리소스

클라우드 데이터베이스

클라우드 데이터베이스에 권장되는 Azure 리소스

SQL 또는 Spark를 사용하는 빅 데이터 클러스터

빅 데이터 클러스터에 권장되는 Azure 리소스

AI 및 기계 학습 서비스

AI 및 ML 서비스에 권장되는 Azure 리소스

책임 있는 AI

피어 검토 인용

관련 참고 자료

피드백

피드백

추가 리소스