Azure Open Datasets
이 문서의 내용
공개적으로 사용 가능한 데이터 세트를 사용하여 기계 학습 모델의 정확도를 향상시킵니다. 데이터 검색 및 준비 시간을 절약하려면 기계 학습 프로젝트에 사용할 준비가 된 큐레이팅된 데이터 세트를 사용합니다.
운송
데이터 세트
설명
TartanAir: AirSim Simulation 데이터 세트
SLAM(Simultaneous Localization and Mapping)을 해결하기 위해 생성된 AirSim 자율주행차 데이터
NYC 택시 및 리무진 협회 - 노란색 택시 이동 레코드
노란색 택시 이동 레코드에는 승차 및 하차 날짜/시간, 승차 및 하단 위치, 이동 거리, 항목별 요금, 요율 종류, 지불 유형 및 운전자가 보고한 승객 수가 포함됩니다.
NYC 택시 및 리무진 협회 - 녹색 택시 이동 레코드
녹색 택시 이동 레코드에는 승차 및 하차 날짜/시간, 승차 및 하단 위치, 이동 거리, 항목별 요금, 요율 종류, 지불 유형 및 운전자가 보고한 승객 수가 포함됩니다.
NYC 택시 및 리무진 협회 - FHV(임대 차량) 여행 기록
For-Hire Vehicle 이동 레코드는 배차 기준 면허증 번호 및 픽업 날짜/시간, 택시 승차 구역 위치 ID를 포함합니다.
상태 및 유전체학
데이터 세트
설명
코로나19 Data Lake
코로나19 데이터 레이크 컬렉션은 검사 및 환자 결과 추적 데이터, 사회적 거리두기 정책, 병원 수용 능력, 이동성 등 다양한 원본의 코로나19 관련 데이터 세트 컬렉션입니다.
코로나19 공개 연구 데이터 세트
COVID-19 및 코로나바이러스 관련 학술 논문의 전문 및 메타데이터 데이터 세트로, 컴퓨터 가독성을 위해 최적화되어 전 세계 연구 커뮤니티에서 사용할 수 있도록 제공됩니다.
Genomics Data Lake
Genomics Data Lake는 유전체학 분석 워크플로와 애플리케이션에 바로 통합할 수 있는 다양한 공개 데이터 세트를 무료로 제공합니다. 이 데이터 세트는 BAM, FASTA, VCF, CSV 파일 형식의 게놈 시퀀스, 변이 정보 및 주제/샘플 메타데이터를 포함합니다.
노동 및 경제
데이터 세트
설명
미국 노동력 통계
미국 노동력 통계는 미국의 연령, 성별, 인종, 민족 그룹별 노동력 통계, 노동력 참여율, 민간 비제도권 인구에 대한 정보를 제공합니다.
미국 국가 고용 시간 및 소득
CES(Current Employment Statistics) 프로그램은 미국의 급여 대장에 있는 노동자의 농장 이외 고용, 시간 및 소득의 자세한 산업 예상치를 생성합니다.
미국 주 고용 시간 및 소득
CES(Current Employment Statistics) 프로그램은 미국의 급여 대장에 있는 노동자의 농장 이외 고용, 시간 및 소득의 자세한 산업 예상치를 생성합니다.
미국 지역 실업 통계
미국 지역 실업 통계 데이터 세트는 미국의 인구 조사 지역 및 구역, 주, 카운티, 대도시 지역 및 여러 도시에 대한 월별 및 연간 고용, 실업 및 노동력 데이터를 제공합니다.
미국 소비자 물가 지수
CPI(소비자 물가 지수)는 도시 소비자들이 소비재 및 서비스 시장 바구니에 대해 지불하는 가격의 시간 경과에 따른 평균 변화를 측정합니다.
미국 생산자 물가 지수 - 산업
PPI(생산자 물가 지수)는 국내 생산자가 생산물에 대해 받는 판매 가격의 시간 경과에 따른 평균 변화를 측정합니다.
미국 생산자 물가 지수 - 상품
PPI(생산자 물가 지수)는 국내 생산자가 상품에 대해 받는 판매 가격의 시간 경과에 따른 평균 변화를 측정합니다.
인구 및 안전
데이터 세트
설명
자치주별 미국 인구
2000년 및 2010년 10년 단위 인구 조사에서 제공된 미국 각 자치주의 성별 및 인종별 미국 인구입니다. 이 데이터 세트의 출처는 미국 인구 조사국입니다.
미국 우편 번호별 미국 인구
2010 Decennial Census에서 제공된 각 미국 우편 번호에 대한 성별 및 인종별 미국 인구입니다. 이 데이터 세트의 출처는 미국 인구 조사국입니다.
보스턴 안전 데이터
보스턴시에 신고된 311 통화에 대한 데이터를 읽어보세요. 이 데이터 세트는 Parquet 형식으로 저장되며 매일 업데이트를 받습니다.
시카고 안전 데이터
시카고시에 신고된 311 통화에 대한 데이터를 읽어보세요. 이 데이터 세트는 Parquet 형식으로 저장되며 매일 업데이트를 받습니다.
뉴욕시 안전 데이터
이 데이터 세트는 2010년부터 현재까지의 모든 뉴욕시 311 서비스 요청을 포함하며, 이 데이터 세트는 Parquet 형식으로 저장되며 매일 업데이트를 받습니다.
샌프란시스코 안전 데이터
샌프란시스코 소방서에서 서비스 및 311 사례를 요청합니다. 이 데이터 세트는 2015년부터 현재까지 누적된 기록 레코드를 포함합니다.
시애틀 안전 데이터
시애틀 소방서 911 파견입니다. 이 데이터 세트는 매일 업데이트되며 2010년부터 현재까지 누적된 기록 레코드를 포함합니다.
추가 및 공통 데이터 세트
데이터 세트
설명
당뇨병
Diabetes 데이터 세트에는 10개 특성이 포함된 442개 샘플이 있으며, 이는 기계 학습 알고리즘을 시작하는 데 적합합니다.
OJ 판매 시뮬레이션 데이터
이 데이터 세트는 Dominick의 OJ 데이터 세트에서 파생된 것이며, Azure Machine Learning에서 수천 개의 모델을 동시에 쉽게 학습시킬 수 있는 데이터 세트를 제공할 목표로 시뮬레이션된 추가 데이터를 포함합니다.
필기 숫자의 MNIST 데이터베이스
필기 숫자 MNIST 데이터베이스에는 예제 60,000개가 있는 학습 세트와 예제 10,000개가 있는 테스트 세트가 포함됩니다. 이 숫자는 크기를 표준화하였고 고정 크기 이미지로 중앙에 배치됩니다.
Microsoft 뉴스 권장 사항 데이터 세트
MIND(Microsoft 뉴스 데이터 세트)는 뉴스 권장 사항 연구를 위한 대규모 데이터 세트입니다. 뉴스 추천의 벤치마크 데이터 세트 역할을 하고 뉴스 추천 및 추천 시스템을 쉽게 연구할 수 있도록 합니다.
공휴일
전 세계 공휴일 데이터는 PyPI 휴일 패키지 및 Wikipedia에서 가져왔으며 1970년부터 2099까지 38개 국가 및 지역을 포함합니다.
러시아어 음성 텍스트로 열기
러시아어 Open STT는 러시아어용 대규모 오픈 음성 텍스트 변환 데이터 세트입니다.