Azure Databricks 워크로드 식별
Azure Databricks는 많은 데이터 처리 기능을 제공하는 포괄적인 플랫폼입니다. 서비스를 사용하여 확장성 있는 데이터 처리가 필요한 어떤 워크로드든 지원할 수 있지만, Azure Databricks는 특히 다음과 같은 유형의 데이터 워크로드를 지원합니다.
- 데이터 과학 및 엔지니어링
- Machine Learning
- SQL*
*SQL 워크로드는 프리미엄 계층 작업 영역에서만 사용할 수 있습니다.
데이터 과학 및 엔지니어링
Azure Databricks는 데이터 레이크하우스의 대량 데이터에 대한 Apache Spark 기반 수집, 처리, 분석 기능을 제공합니다. 데이터 엔지니어, 데이터 과학자 및 데이터 분석가는 대화형 Notebook을 사용하여 Python, Scala, SparkSQL 또는 기타 언어로 코드를 실행하여 데이터를 정리, 변환, 집계 및 분석할 수 있습니다.
Machine Learning
Azure Databricks는 데이터 탐색 및 준비, 기계 학습 모델의 학습 및 평가, 애플리케이션 및 분석에 대한 예측을 생성하는 모델 제공을 포함하는 기계 학습 워크로드를 지원합니다. 데이터 과학자 및 ML 엔지니어는 AutoML을 사용하여 예측 모델을 신속하게 학습시키거나 SparkML, Scikit-Learn, PyTorch 및 Tensorflow와 같은 일반적인 기계 학습 프레임워크에 자신의 기술을 적용할 수 있습니다. 또한 MLFlow를 사용하여 엔드투엔드 기계 학습 수명 주기를 관리할 수도 있습니다.
데이터 웨어하우징
Azure Databricks는 SQL 웨어하우스 테이블에 저장된 데이터에 대한 SQL 기반 쿼리를 지원합니다. 이 기능을 사용하면 데이터 분석가가 친숙한 SQL 구문과 다양한 SQL 기반 데이터 분석 및 시각화 도구를 사용하여 데이터를 쿼리, 집계, 요약, 시각화할 수 있습니다.
참고
SQL 웨어하우스는 프리미엄 Azure Databricks 작업 영역에서만 사용할 수 있습니다.