Azure Open Datasets란 무엇이며 사용하려면 어떻게 해야 하나요?

Azure Open Datasets는 기계 학습 솔루션에 시나리오별 기능을 추가하여 보다 정확한 모델을 만들 수 있는 큐레이팅된 공개 데이터 세트입니다. Open Datasets는 Microsoft Azure의 클라우드에 있고 Azure Machine Learning에 통합되어 있으며, Azure Databricks 및 Machine Learning Studio(클래식)에서 즉시 사용할 수 있습니다. API를 통해 데이터 세트에 액세스하고 Power BI나 Azure Data Factory 같은 다른 제품에서 데이터 세트를 사용할 수도 있습니다.

데이터 세트에는 기계 학습 모델을 학습시키고 예측 솔루션을 보강할 수 있는 날씨, 인구, 휴일, 공공 안전 및 위치에 대한 공개 도메인 데이터가 포함되어 있습니다. 또한 공개 데이터 세트를 Azure Open Datasets에 공유할 수 있습니다.

Azure Open Datasets components

큐레이팅 및 준비를 마친 데이터 세트

Azure Open Datasets의 큐레이팅된 공개 데이터 세트는 기계 학습 워크플로에 사용하도록 최적화되었습니다.

사용 가능한 모든 데이터 세트를 확인하려면 Assure Open Datasets 카탈로그로 이동합니다.

데이터 과학자들은 종종 고급 분석을 위해 데이터를 정리하고 준비하는 일에 대부분의 시간을 보냅니다. Open Datasets는 Azure 클라우드에 복사되어 미리 처리되므로 시간을 절약할 수 있습니다. 정기적인 간격으로 데이터를 원본에서 가져옵니다. 예를 들어 NOAA(National Oceanic 및 Atmospheric Administration)에 대한 FTP 연결 등이 있습니다. 다음으로, 데이터는 구조화된 형식으로 구문 분석된 다음, 우편 번호 또는 가장 가까운 기상 관측소의 위치와 같은 기능으로 적절하게 보강됩니다.

데이터 세트는 클라우드 컴퓨팅을 통해 Azure에 공동으로 호스트되므로 쉽게 액세스하여 조작할 수 있습니다.

다음은 사용 가능한 데이터 세트의 예입니다.

날씨 데이터

데이터 세트 Notebooks 설명
NOAA ISD(Integrated Surface Data) Azure 노트
Azure Databricks
NOAA에서 제공하는 전 세계의 시간별 날씨 데이터로 북아메리카, 유럽, 오스트레일리아 및 아시아 일부 지역을 아우릅니다. 매일 업데이트됩니다.
NOAA GFS(Global Forecast System) Azure 노트
Azure Databricks
NOAA에서 제공하는 15일 미국 시간별 일기 예보 데이터입니다. 매일 업데이트됩니다.

달력 데이터

데이터 세트 Notebooks 설명
공휴일 Azure 노트
Azure Databricks
전 세계 41개 국가 또는 지역의 1970-2099년 공유일 데이터입니다. 국가/지역 및 대부분의 사람들이 휴가를 받았는지 여부가 포함됩니다.

데이터 세트 액세스

Azure 계정이 있으면 코드를 사용하여 또는 Azure 서비스 인터페이스를 통해 공개 데이터 세트에 액세스할 수 있습니다. 데이터는 기계 학습 솔루션에 사용할 수 있도록 Azure 클라우드 컴퓨팅 리소스와 함께 배치됩니다.

Open Datasets는 Azure Machine Learning UI 및 SDK를 통해 제공됩니다. Open Datasets는 또한 Azure Machine Learning 및 Azure Databricks에 데이터를 연결하기 위해 사용할 수 있는 Azure Notebooks 및 Azure Databricks 노트북을 제공합니다. Python SDK를 통해 데이터 세트에 액세스할 수도 있습니다.

그러나 Open Datasets에 액세스하기 위한 Azure 계정이 필요하지 않습니다. Spark와 상관없이 모든 Python 환경에서 액세스할 수 있습니다.

데이터 세트 요청 또는 기여

원하는 데이터를 찾을 수 없는 경우 이메일로 데이터 세트를 요청하거나 데이터 세트에 기여해주세요.

다음 단계