Поделиться через


Общедоступные наборы данных для тестирования и создания прототипов

Применимо к:База данных SQL Azure Управляемый экземпляр SQL Azure SQL Server в базе данных SQL виртуальной машины Azure в Microsoft Fabric

Просмотрите список общедоступных наборов данных, которые можно использовать для тестирования или создания прототипов служб для хранения, аналитики и аналитических решений.

Данные правительства США и агентств

Источник данных О данных О файлах
Данные US Gov Более 250 000 наборов данных, содержащих сведения о сельском хозяйстве, климате, потребителях, экосистемах, образовании, энергии, финансах, сфере здравоохранения, органах местного самоуправления, производстве, морской и общественной безопасности, а также о науке и исследованиях в США. Файлы различных размеров и форматов, включая HTML, XML, CSV, JSON, Excel и многие другие. Вы можете фильтровать доступные наборы данных по формату файла.
Данные переписи населения США Статистические данные о населении США. Наборы данных доступны в различных форматах.
Геонаучные данные от НАСА Более 32 000 наборов данных, содержащих сведения о сельском хозяйстве, атмосфере, биосфере, климате, криосфере, человеческих измерениях, гидросфере, поверхности земли, океанах, взаимодействии Солнца и Земли и многое другое. Наборы данных доступны в различных форматах.
Задержки рейсов авиакомпаний и другие данные о транспортировках Министерство транспорта и Бюро транспортной статистики США контролируют соблюдение расписания внутренних рейсов крупными авиакомпаниями. Сводные данные о числе рейсов по графику, задержанных, отмененных и измененных рейсов отображаются в сводных таблицах, размещенных на этом веб-сайте". Файлы доступны в формате CSV.
Транспортные происшествия со смертельным исходом. Система отчетности по анализу смертности в США (FARS) "FARS — это система всеобщей переписи населения, ежегодно предоставляющая Национальной администрации безопасности дорожного движения (NHTSA), конгрессу США и американской общественности годовые данные о смертельных травмах, полученных в результате дорожно-транспортных происшествий". "Создайте собственные данные о смертности в сети с помощью системы запросов FARS или скачайте все данные FARS с 1975 года по настоящее время на сайте FTP".
Данные о токсичности химических веществ. Данные EPA ForeCaster о токсичности (ToxCast™) "Самые актуальные общедоступные данные EPA с высокой пропускной способностью о токсичности тысяч химических веществ. Эти данные создаются в рамках научно-исследовательской работы EPA ToxCast". Наборы данных доступны в различных форматах, включая электронные таблицы, пакеты R и файлы базы данных MySQL.
Данные о геномах и биотехнологии. Национальный центр биотехнологической информации Несколько наборов данных, содержащих сведения о генах, геномах и белках. Наборы данных доступны в текстовом формате, формате XML, BLAST и других. Доступно приложение BLAST.

Другие статистические и научные данные

Источник данных О данных О файлах
Данные о поездках в такси по Нью-Йорку "Записи поездок в такси включают такие поля, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, расстояние поездки, детализированные пассажирские тарифы, виды тарифа, виды оплаты и отчет водителя о количестве пассажиров." Наборы данных доступны в CSV-файлах за каждый месяц.
Наборы данных Microsoft Research. Data Science for Research Несколько наборов данных, содержащих сведения о взаимодействии человека с компьютером, аудио и видео, анализе данных и извлечении информации, геопространственных данных или расположениях, обработке естественного языка, а также о машинном зрении и роботизированном зрении. Наборы данных доступны в различных форматах, сжатых для скачивания.
Данные Open Science Data Cloud "С помощью Open Science Data Cloud научному сообществу предоставляются ресурсы для хранения, совместного использования и анализа научных наборов данных, измеряемых в терабайтах и ​​петабайтах". Наборы данных доступны в различных форматах.
Глобальные климатические данные WorldClim "WorldClim — это набор глобальных климатических слоев (климатические данные с координатной привязкой) с пространственным разрешением около 1 кв. км. Эти данные можно использовать для картографирования и пространственного моделирования". Эти файлы содержат геопространственные данные.
Данные о человеческом обществе. Проект GDELT "Проект GDELT — это самая крупная и наиболее полная открытая база данных с высоким разрешением, посвященная человеческому обществу". Файлы необработанных данных доступны в формате CSV.
Данные для прогнозирования переходов по рекламным объявлениям для машинного обучения от Criteo "Самый большой из когда-либо публично опубликованных наборов данных Машинного обучения Azure". Дополнительную информацию см. в е.

Данные веб-службы

Источник данных О данных О файлах
Архив GitHub "Архив GitHub — это проект для записи общедоступной временной шкалы событий GitHub, ее архивирования и облегчения доступа к ней для дальнейшего анализа". Скачайте архивы событий с кодировкой JSON в формате GZIP из веб-клиента.
Дамп данных Stack Overflow "Это анонимный дамп всего содержимого, предоставленного пользователями в сети Stack Exchange (включая сайт сети Stack Overflow)". "Каждый сайт (например, Stack Overflow) отформатирован в виде отдельного архива, состоящего из файлов XML, сжатых с помощью файлового архиватора 7-Zip и технологии сжатия BZIP2. Каждый архив сайта включает в себя сведения о сообщениях, пользователях, голосах, комментариях, журнале публикаций и ссылках публикаций".