opendatasets 패키지
Azure Open Datasets를 데이터 프레임으로 이용하고 고객 데이터를 보강하기 위한 기능이 포함되어 있습니다.
Azure Open Datasets는 기계 학습 솔루션에 시나리오별 기능을 추가하여 보다 정확한 모델을 만들 수 있는 큐레이팅된 공개 데이터 세트입니다. 이러한 공용 데이터 집합을 필터가 적용된 Spark 및 Pandas 데이터 프레임으로 변환할 수 있습니다. 일부 데이터 집합의 경우 보강자를 사용하여 공용 데이터를 데이터와 조인할 수 있습니다. 예를 들어 경도와 위도 또는 우편 번호와 시간을 기준으로 데이터를 날씨 데이터와 결합할 수 있습니다.
Azure Open Datasets에는 기계 학습 모델을 학습시키고 예측 솔루션을 보강할 수 있도록 하는 날씨, 인구 조사, 휴일, 공공 안전 및 위치에 대한 공용 도메인 데이터가 포함되어 있습니다. Open Datasets는 Microsoft Azure의 클라우드에 있으며 Azure Machine Learning에 통합됩니다. Azure Open Datasets 작업에 대한 자세한 내용은 Create datasets with Azure Open Datasets(Azure Open Datasets로 데이터 집합 생성하기)를 참조하세요.
Azure Open Datasets에 대한 일반 정보는 Azure Open Datasets 설명서를 참조하세요.
패키지
accessories |
위도/경도, 우편 번호 및 시간을 포함하여 데이터의 열 형식을 식별하는 데 도움이 되는 기능을 포함합니다. |
aggregators |
조인된 데이터를 집계하는 방법을 정의하기 위한 기능을 포함합니다. 집계는 두 데이터 세트의 데이터를 조인한 결과에서 수행할 수 있는 작업을 정의합니다. 예를 들어, enrichers의 클래스 중 하나를 사용하는 경우 작업의 일부로 집계를 지정할 수 있습니다. 집계가 필요하지 않은 경우 AggregatorAll을 사용합니다. |
data |
publicholidays 모듈의 데이터 리소스에 대한 init 파일이 포함되어 있습니다. |
dataaccess |
Blob 파일 액세스 메서드를 제공하는 기능이 포함되어 있습니다. ChicagoSafety 클래스와 같은 opendatasets 패키지의 클래스를 사용하면 이 패키지의 데이터 액세스 클래스와 함수가 내부적으로 사용됩니다. 일반적으로 dataaccess 패키지의 기능을 직접 사용할 필요는 없습니다. |
enrichers |
두 데이터 세트의 데이터를 보강하고 함께 조인하기 위한 기능을 포함합니다. 일반적으로 보강자는 서로 다른 원본의 데이터를 함께 조인합니다. 특히 보강자를 사용하면 데이터(고객 데이터)를 Azure Open Datasets 또는 기타 퍼블릭 데이터 세트의 데이터와 조인할 수 있습니다. |
granularities |
보강자에서 사용하는 시간 및 거리 측정값을 정의하는 기능이 포함되어 있습니다. 세분성은 데이터를 보강(조인)할 때 enrichers에서 사용하는 시간 또는 거리의 측정값입니다. 매시간 또는 매일 등의 시간 세분성과 가장 가까운 거리 등의 위치 세분성이 있습니다. |
selectors |
고객 데이터 세트의 데이터를 선택하고 공용 데이터 세트의 데이터와 결합하는 기능이 포함되어 있습니다. 선택기는 시간 및 거리 측정을 기반으로 공용 데이터 세트로 데이터를 보강할 수 있는 논리를 정의합니다. 예를 들어 선택기를 사용하면 가장 가까운 위치를 기반으로 하거나 동일한 시간 세분성으로 반올림하여 데이터와 결합할 공용 데이터를 찾을 수 있습니다. enrichers 패키지의 클래스 중 하나로 작업할 때 선택기를 지정합니다. |
모듈
environ |
Azure Open Datasets가 사용되는 런타임 환경 클래스를 정의합니다. 이 모듈의 클래스는 Azure Open Datasets 기능이 다양한 환경에 최적화되어 있는지 확인합니다.
일반적으로 이러한 환경 클래스를 인스턴스화하거나 구현에 대해 걱정할 필요가 없습니다.
대신 |
클래스
BingCOVID19Data |
Bing 코로나19 데이터 세트를 나타냅니다. 이 데이터 세트에는 WHO(세계 보건 기구), CDC(미국 질병통제예방센터), 국가 및 주 공중 위생 관련 부서, BNO News, 24/7 Wall St., Wikipedia 등을 포함하여 신뢰할 수 있는 여러 출처의 Bing 코로나19 데이터가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 Bing 코로나19 데이터를 참조하세요. 필터링 필드를 초기화합니다. |
BostonSafety |
보스턴 안전 퍼블릭 데이터 세트를 나타냅니다. 이 데이터 세트에는 보스턴 시에 보고된 311개 통화가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 보스턴 안전 데이터를 참조하세요. 필터링 필드를 초기화합니다. |
COVID19OpenResearch |
코로나19 공개 연구 데이터 세트를 나타냅니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 코로나19 공개 연구 데이터 세트를 참조하세요. |
COVIDTrackingProject |
코로나 추적 프로젝트 데이터 세트를 나타냅니다. 이 데이터 세트에는 미국의 모든 주 및 지역에서 테스트, 확인된 사례, 입원 및 환자 결과에 대한 최신 숫자를 제공하는 COVID 추적 프로젝트 데이터 세트가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그에서 COVID 추적 프로젝트 데이터 세트를 참조하세요. 필터링 필드를 초기화합니다. |
ChicagoSafety |
시카고 안전 퍼블릭 데이터 세트를 나타냅니다. 이 데이터 세트에는 위생 관리 코드 불만 사항 기록, 보고된 포트홀, 가로등 문제 등을 포함하여 시카고 시의 311개 서비스 요청이 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 시카고 안전 데이터를 참조하세요. 필터링 필드를 초기화합니다. |
CitySafety |
도시 안전 클래스 - 각 개별 도시에서 상속할 수 있는 부모 클래스입니다. 필터링 필드를 초기화합니다. |
Diabetes |
샘플 당뇨병 퍼블릭 데이터 세트를 나타냅니다. Diabetes 데이터 세트에는 10개 특성이 포함된 442개 샘플이 있으며, 이는 기계 학습 알고리즘을 시작하는 데 적합합니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 샘플: 당뇨병을 참조하세요. |
EcdcCOVIDCases |
ECDC(European Centre for Disease Prevention and Control) 코로나19 사례를 나타냅니다. 이 데이터 세트에는 ECDC(유럽 질병 예방 및 제어 센터)의 데이터가 포함됩니다. 각 행/항목에는 일별 및 국가/지역별로 보고되는 신규 사례 건수가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 ECDC(European Centre for Disease Prevention and Control) 코로나19 사례를 참조하세요. 필터링 필드를 초기화합니다. |
MNIST |
필기체 숫자의 MNIST 데이터 세트를 나타냅니다. 필기 숫자 MNIST 데이터베이스에는 예제 60,000개가 있는 학습 세트와 예제 10,000개가 있는 테스트 세트가 포함됩니다. 이 숫자는 크기를 표준화하였고 고정 크기 이미지로 중앙에 배치됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 필기체 숫자의 MNIST 데이터 세트를 참조하세요. MNIST 데이터 세트를 사용하는 예제는 Azure Machine Learning에서 MNIST 데이터와 scikit-learn을 사용하여 이미지 분류 모델 학습 자습서를 참조하세요. |
NoParameterOpenDatasetBase |
미국 노동 기본 클래스입니다. 초기화. |
NoaaGfsWeather |
NOAA(National Oceanic and Atmospheric Administration) GFS(글로벌 예측 시스템) 데이터 세트를 나타냅니다. 이 데이터 세트에는 NOAA(National Oceanic and Atmospheric Administration)의 GFS(글로벌 예측 시스템)에서 생성한 15일 미국 시간별 일기 예보 데이터(예: 기온, 강수량, 바람)가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예를 포함하여 이 데이터 세트에 대한 정보는 Microsoft Azure Open Datasets 카탈로그의 NOAA 글로벌 예측 시스템을 참조하세요. 필터링 필드를 초기화합니다. |
NoaaIsdWeather |
NOAA(미국해양대기관리처) ISD(통합 표면 데이터 집합)를 나타냅니다. 이 데이터 집합에는 NOAA(미국해양대기관리처)에서 가져온 전 세계 시간별 기상 기록 데이터(예: 온도, 강수량, 바람)가 포함되어 있습니다. 열 설명, 데이터 집합에 액세스하는 다양한 방법, 예를 포함하여 이 데이터 집합에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 NOAA Integrated Surface Data(NOAA 통합 표면 데이터)를 참조하세요. 필터링 필드를 초기화합니다. |
NycSafety |
뉴욕시 안전 퍼블릭 데이터 세트를 나타냅니다. 이 데이터 세트는 2010년부터 현재까지의 모든 뉴욕시 311 서비스 요청을 포함하며, 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 뉴욕시 안전 데이터를 참조하세요. 필터링 필드를 초기화합니다. |
NycTaxiBase |
뉴욕 택시 클래스 - 상속할 수 있는 부모 클래스입니다. 필터링 필드를 초기화합니다. |
NycTlcFhv |
NYC Taxi & Limousine Commission 공용 데이터 세트를 나타냅니다. 이 데이터 세트에는 배차 기준 라이선스 번호 및 픽업 날짜, 시간, 택시 승차 구역 위치 ID(아래의 도형 파일)를 캡처하는 필드를 포함하는 FHV(For-Hire Vehicle) 이동 레코드가 포함됩니다. 이러한 레코드는 기준에 따라 제출된 FHV 이동 레코드에서 생성됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 NYC Taxi & Limousine Commission - For-Hire Vehicle(FHV) 여정 레코드 를 참조하세요. 필터링 필드를 초기화합니다. |
NycTlcGreen |
NYC Taxi & 리무진 커미션 그린 택시 여행 공용 데이터 세트를 나타냅니다. 녹색 택시 이동 레코드에는 승차 및 하차 날짜/시간, 승차 및 하단 위치, 이동 거리, 항목별 요금, 요율 종류, 지불 유형 및 운전자가 보고한 승객 수를 캡처하는 필드가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 MICROSOFT Azure Open Datasets 카탈로그의 NYC Taxi & Limousine Commission - 녹색 택시 여행 레코드 를 참조하세요. NycTlcGreen 클래스를 사용하는 예제는 자동화된 Machine Learning을 사용하여 택시 요금 예측 자습서를 참조하세요. 필터링 필드를 초기화합니다. |
NycTlcYellow |
NYC Taxi & 리무진 커미션 노란색 택시 여행 공용 데이터 세트를 나타냅니다. 노란색 택시 이동 레코드에는 승차 및 하차 날짜/시간, 승차 및 하단 위치, 이동 거리, 항목별 요금, 요율 종류, 지불 유형 및 운전자가 보고한 승객 수를 캡처하는 필드가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 MICROSOFT Azure Open Datasets 카탈로그의 NYC Taxi & Limousine Commission - 노란색 택시 여행 레코드 를 참조하세요. 필터링 필드를 초기화합니다. |
OjSalesSimulated |
샘플 Orange Juice Sales Simulated 데이터 데이터 세트를 나타냅니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 샘플: OJ 판매 시뮬레이션 데이터를 참조하세요. |
PublicHolidays |
공휴일 퍼블릭 데이터 세트를 나타냅니다. 이 데이터 세트에는 PyPI 휴일 패키지 및 Wikipedia에서 가져온 1970년부터 2099년까지 38개 국가 및 지역에 대한 전 세계 공휴일 데이터가 포함됩니다. 각 행은 특정 날짜, 국가 또는 지역 및 대부분의 사람이 유급 휴가를 사용하는지 여부에 대한 휴일 정보를 나타냅니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 공휴일을 참조하세요. 필터링 필드를 초기화합니다. |
PublicHolidaysOffline |
공휴일 오프라인 공용 데이터 세트를 나타냅니다. 행에 대한 설명은 Microsoft Azure Open Datasets 카탈로그의 공휴일을 참조하세요. 필터링 필드를 초기화합니다. |
SampleDatasetBase |
샘플 데이터 세트 기본 클래스를 나타냅니다. |
SanFranciscoSafety |
샌프란시스코 안전 공개 데이터 세트를 나타냅니다. 이 데이터 집합에는 샌프란시스코의 소방서 서비스 요청 및 311 건의 사례가 포함되어 있습니다. 열 설명, 데이터 집합에 액세스하는 다양한 방법, 예를 포함하여 이 데이터 집합에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 San Francisco Safety Data(샌프란시스코 안전 데이터)를 참조하세요. 필터링 필드를 초기화합니다. |
SeattleSafety |
시애틀 안전 퍼블릭 데이터 세트를 나타냅니다. 이 데이터 세트에는 시애틀 소방서 911 출동 데이터가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 시애틀 안전 데이터를 참조하세요. 필터링 필드를 초기화합니다. |
UsLaborCPI |
미국 소비자 물가 지수 퍼블릭 데이터 세트를 나타냅니다. CPI(소비자 물가 지수)는 도시 소비자가 장바구니 소비재 및 서비스에 지불한 가격의 시간에 따른 평균 변동을 측정한 값입니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 미국 소비자 물가 지수를 참조하세요. 초기화. |
UsLaborEHENational |
미국 국가 고용 시간 및 소득 퍼블릭 데이터 세트를 나타냅니다. 이 데이터 세트에는 미국의 급여 대장에 있는 노동자의 농장 이외 고용, 시간 및 소득에 대한 산업 예상치가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 미국 국가 고용 시간 및 소득을 참조하세요. 초기화. |
UsLaborEHEState |
미국 주 고용 시간 및 소득 퍼블릭 데이터 세트를 나타냅니다. 이 데이터 세트에는 미국의 급여 대장에 있는 노동자의 농장 이외 고용, 시간 및 소득에 대한 산업 예상치가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 미국 주 고용 시간 및 소득을 참조하세요. 초기화. |
UsLaborLAUS |
미국 지역 실업 통계 퍼블릭 데이터 세트를 나타냅니다. 이 데이터 세트에는 미국의 인구 조사 지역/구역, 주, 카운티, 대도시 지역, 여러 도시 등에 대한 월별/연간 고용, 실업 및 노동력 데이터가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 미국 지역 실업 통계를 참조하세요. 초기화. |
UsLaborLFS |
미국 노동력 통계 공용 데이터 세트를 나타냅니다. 이 데이터 세트에는 노동력 참여율 및 연령, 성별, 인종, 민족 그룹별 민간인 비제도 인구를 포함하여 미국의 노동력에 대한 데이터가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 미국 노동력 통계를 참조하세요. 초기화. |
UsLaborPPICommodity |
미국 PPI(생산자 물가 지수) - 상품 공용 데이터 집합을 나타냅니다. PPI(생산자 물가 지수)는 국내 생산자가 얻는 산출물 판매 가격의 시간에 따른 평균 변동을 측정한 값입니다. PPI에 포함된 가격은 해당 제품 및 서비스의 첫 번째 상거래에서 나온 것입니다. 이 데이터 집합에는 매월 릴리스되는 개별 제품 및 제품 그룹에 대한 PPI가 포함되어 있습니다. 열 설명, 데이터 집합에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 집합에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 US Producer Price Index - Commodities(미국 생산자 가격 지수 - 상품)을 참조하세요. 초기화. |
UsLaborPPIIndustry |
미국 PPI(생산자 물가 지수) - 업계 공용 데이터 세트를 나타냅니다. PPI(생산자 물가 지수)는 국내 생산자가 얻는 산출물 판매 가격의 시간에 따른 평균 변동을 측정한 값입니다. PPI에 포함된 가격은 해당 제품 및 서비스의 첫 번째 상거래에서 나온 것입니다. 이 데이터 세트에는 미국 경제의 다양한 업계 부문에 대한 PPI가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 미국 생산자 가격 지수 - 업계를 참조하세요. Azure Open Datasets에 대한 일반 정보는 Azure Open Datasets 설명서를 참조하세요. 초기화. |
UsPopulationCounty |
카운티 공용 데이터 집합별 미국 인구를 나타냅니다. 이 데이터 집합에는 2000~2010년의 10년 단위 인구 조사에서 제공된 각 미국 카운티의 성별 및 인종별 미국 인구가 포함되어 있습니다. 열 설명, 데이터 집합에 액세스하는 다양한 방법, 예를 포함하여 이 데이터 집합에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 US Population by County(카운티별 미국 인구)를 참조하세요. 초기화. |
UsPopulationZip |
우편 번호별 미국 인구 퍼블릭 데이터 세트를 나타냅니다. 이 데이터 세트에는 2010년의 10년 단위 인구 조사에서 제공된 각 미국 우편 번호의 성별 및 인종별 미국 인구가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법, 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 우편 번호별 미국 인구를 참조하세요. 초기화. |