Azure Open Datasets란 무엇이며 사용하려면 어떻게 해야 하나요?
Azure Open Datasets는 기계 학습 솔루션에 시나리오별 기능을 추가하여 보다 정확한 모델을 만들 수 있는 큐레이팅된 공개 데이터 세트입니다. 개방형 데이터 세트는 Microsoft Azure의 클라우드에서 사용할 수 있습니다. Azure Machine Learning에 통합되며 Azure Databricks 및 Machine Learning Studio(클래식)에서 쉽게 사용할 수 있습니다. API를 통해 데이터 세트에 액세스하고 Power BI나 Azure Data Factory 같은 다른 제품에서 데이터 세트를 사용할 수도 있습니다.
데이터 세트에는 기계 학습 모델을 학습시키고 예측 솔루션을 보강할 수 있는 날씨, 인구, 휴일, 공공 안전 및 위치에 대한 공개 도메인 데이터가 포함되어 있습니다. Azure Open Datasets를 통해 공용 데이터 세트를 공유할 수도 있습니다.
큐레이팅 및 준비를 마친 데이터 세트
Azure Open Datasets의 큐레이팅된 공개 데이터 세트는 기계 학습 워크플로에 사용하도록 최적화되었습니다.
사용 가능한 데이터 세트에 대한 자세한 내용은 Azure Open Datasets 카탈로그 리소스를 참조하세요.
데이터 과학자들은 종종 고급 분석을 위해 데이터를 정리하고 준비하는 일에 대부분의 시간을 보냅니다. 시간을 절약하기 위해 Open Datasets가 Azure 클라우드에 복사된 다음, 전처리됩니다. 정기적인 간격으로 데이터를 원본에서 가져옵니다. 예를 들어 NOAA(National Oceanic 및 Atmospheric Administration)에 대한 FTP 연결 등이 있습니다. 다음으로, 데이터를 구조화된 형식으로 구문 분석한 다음 우편 번호 또는 가장 가까운 기상 관측소의 위치와 같은 기능을 사용하여 필요에 따라 보강합니다.
데이터 세트는 클라우드 컴퓨팅을 통해 Azure에 공동으로 호스트되므로 쉽게 액세스하여 조작할 수 있습니다.
사용 가능한 데이터 세트의 예는 다음과 같습니다.
날씨 데이터
데이터 세트 | Notebooks | 설명 |
---|---|---|
NOAA ISD(Integrated Surface Data) | Azure 노트 Azure Databricks |
NOAA에서 제공하는 전 세계의 시간별 날씨 데이터로 북아메리카, 유럽, 오스트레일리아 및 아시아 일부 지역을 아우릅니다. 매일 업데이트됩니다. |
NOAA GFS(Global Forecast System) | Azure 노트 Azure Databricks |
NOAA에서 제공하는 15일 미국 시간별 일기 예보 데이터입니다. 매일 업데이트됩니다. |
달력 데이터
데이터 세트 | Notebooks | 설명 |
---|---|---|
공휴일 | Azure 노트 Azure Databricks |
전 세계 41개 국가 또는 지역의 1970-2099년 공휴일 데이터입니다. 국가/지역 및 대부분의 사람들이 휴가를 받았는지 여부가 포함됩니다. |
데이터 세트 액세스
Azure 계정이 있으면 코드를 통해 또는 Azure 서비스 인터페이스를 통해 공개 데이터 세트에 액세스할 수 있습니다. 데이터는 기계 학습 솔루션에 사용할 수 있도록 Azure 클라우드 컴퓨팅 리소스와 함께 배치됩니다.
Open Datasets는 Azure Machine Learning UI 및 SDK를 통해 제공됩니다. Open Datasets는 또한 Azure Machine Learning 및 Azure Databricks에 데이터를 연결할 수 있는 Azure Notebooks 및 Azure Databricks 노트북을 제공합니다. Python SDK를 통해 데이터 세트에 액세스할 수도 있습니다.
그러나 Open Datasets에 액세스하기 위한 Azure 계정이 필요하지 않습니다. Spark와 상관없이 모든 Python 환경에서 액세스할 수 있습니다.
데이터 세트 요청 또는 기여
원하는 데이터를 찾을 수 없는 경우 이메일로 데이터 세트를 요청하거나 데이터 세트에 기여해주세요.