Поделиться через


Использование примеров наборов данных в Студии машинного обучения (классической)

ОБЛАСТЬ ПРИМЕНЕНИЯ:применимо к:.Студия машинного обучения (классическая версия) не применяется к.Машинное обучение Azure

Внимание

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классической) можно будет использовать до 31 августа 2024 г.

Прекращается поддержка документации по Студии машинного обучения (классической). В будущем она может не обновляться.

При создании рабочей области в Студии машинного обучения (классической) в нее по умолчанию добавляются примеры наборов данных и эксперименты. Многие из этих примеров наборов данных используются примерами моделей в коллекции ИИ Azure. Остальные примеры включают примеры различных типов данных, обычно используемых в машинном обучении.

Некоторые из этих наборов данных доступны в хранилище BLOB-объектов Azure. В следующей таблице указаны прямые ссылки на эти наборы данных. Эти наборы данных можно использовать в экспериментах с помощью модуля импорта данных .

Остальные эти примеры наборов данных доступны в рабочей области в разделе "Сохраненные наборы данных". Вы можете найти этот раздел в палитре модуля в Студии машинного обучения (классической) слева от холста эксперимента. Любой из этих наборов данных можно использовать в собственных экспериментах, перетащив его на холст эксперимента.

Наборы данных

Имя набора данных Описание набора данных
набор данных Adult Census Income Binary Classification; Подмножество данных из базы данных переписи 1994 года с информацией о работающих взрослых старше 16 лет с индексом скорректированного дохода > 100.

Употребление: Классифицируйте людей, использующих демографические данные, чтобы предсказать, зарабатывает ли человек более 50K в год.

Связанные исследования: Кохави, Р., Бэкер, Б., (1996). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Набор данных кодов аэропортов Коды аэропортов США.

Этот набор данных содержит по одной строке для каждого аэропорта США, где указывается идентификационный номер аэропорта, его название, а также город и штат, в котором он находится.
Данные о ценах на автомобили (необработанные) Информация об автомобилях по изготовителю и модели, включая цену, особенности, например, число цилиндров и MPG, а также оценки страховых рисков.

Оценка риска изначально связывается с ценой автомобиля. Затем производится корректировка с учетом фактического риска. Актуарии именуют этот процесс symboling. Значение "+3" указывает, что автомобиль является опасным, а значение "-3" — что, вероятно, он безопасен.

Употребление: Прогнозирование оценки риска по функциям с помощью регрессии или многовариантной классификации.

Связанные исследования: Шлиммер, J.C. (1987). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Набор данных по прокату велосипедов UCI Набор данных по прокату велосипедов UCI, основанный на реальных данных компании Capital Bikeshare, которая обслуживает сеть проката велосипедов в Вашингтоне, округ Колумбия.

Набор данных имеет по одной строке на каждый час каждого дня за 2011 и 2012 гг., что в результате дает 17 379 строк. Диапазон количества прокатов велосипедов в час составляет от 1 до 977.
Изображение RGB Билла Гейтса Общедоступный файл изображения, преобразованный в данные в формате CSV.

Код для преобразования изображения представлен на странице деталей модели кластеризации K-средних.
Данные о донорах крови Подмножество данных из базы данных доноров Центра переливания крови в Синьчжу-Сити, Тайвань.

Данные о донорах включают в себя число месяцев после последней дачи крови, частота или общее количество дач крови, время, прошедшее с даты последней дачи крови, и объем сданной (донорской) крови.

Употребление: Цель заключается в прогнозировании путем классификации того, пожертвовал ли донор кровь в марте 2007 года, где 1 указывает донора в течение целевого периода и 0 не-донора.

Связанные исследования: Йе, I.C., (2008). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки

Yeh, I-Cheng, Yang, King-Jang и Ting, Tao-Ming, Knowledge discovery on RFM model using Bernoulli sequence, Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Данные о раке молочной железы Один из трех наборов данных, связанных с раком, предоставленных Институтом онкологии, который часто используется в литературе о машинном обучении. Объединяет диагностическую информацию с функциями из лабораторных анализов приблизительно с 300 образцами ткани.

Употребление: Классифицируйте тип рака на основе 9 атрибутов, некоторые из которых являются линейными и некоторые являются категориальными.

Связанные исследования: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Признаки рака молочной железы Набор данных содержит сведения о 102 тыс. подозрительных областях (кандидатов) на рентгеновских снимках с описаниями 117 признаков для каждого. Признаки являются конфиденциальной информацией и их содержание не раскрывается создателями набора данных (Siemens Healthcare).
Информация о раке молочной железы Набор данных содержит дополнительные сведения о каждой подозрительной области рентгеновского снимка. В каждом примере содержится информация (например, метка, идентификатор пациента, координаты участка относительно всего изображения) о строке с соответствующим номером из набора данных "Признаки рака молочной железы". Каждый пациент имеет ряд примеров. Для пациентов, больных раком, часть примеров — положительные, а часть — отрицательные. Для пациентов, не больных раком, все примеры — отрицательные. Набор данных включает 102 тыс. примеров. Набор является односторонним: 0,6 % баллов положительные, остальные — отрицательные. Набор данных предоставлен Siemens Healthcare.
Общие метки стремления CRM Метки из кубка KDD 2009 конкурса по предсказанию отношений с клиентами (orange_small_train_appetency.labels).
Общие метки оттока CRM Метки из конкурса прогноза отношений с клиентами KDD Cup 2009 (orange_small_train_churn.labels).
Общий набор данных CRM Эти данные взяты из конкурса KDD Cup 2009 по прогнозированию отношений с клиентами (orange_small_train.data.zip).

Набор данных включает в себя сведения о 50 000 клиентов французской телекоммуникационной компании Orange. У каждого клиента есть 230 обезличенных характеристик, из которых 190 — числовые, а 40 — категорийные. Характеристики являются очень разреженными.
Общие метки увеличения суммы покупок CRM Метки из соревнования KDD Cup 2009 по прогнозированию взаимоотношений с клиентами (orange_large_train_upselling.labels).
Регрессионные данные об эффективности энергопотребления Набор смоделированных профилей энергии, основанных на 12 различных формах здания. Здания различаются по восьми характеристикам. Сюда входят площадь, распределение и ориентация остекления.

Употребление: Используйте регрессию или классификацию для прогнозирования оценки эффективности энергии на основе одного из двух реальных ответов. Для многоклассовой классификации переменная ответа округляется до ближайшего целого числа.

Связанные исследования: Кифара, А. и Тсанас, А. (2012). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Данные о задержках рейсов Данные о своевременности выполнения пассажирских рейсов, полученные из сбора данных TranStats Министерства транспорта США (Своевременно).

Набор данных охватывает период времени с апреля по октябрь 2013 г. Перед отправкой в Машинное обучение Studio (классическая версия) набор данных был обработан следующим образом:
  • Набор данных был отфильтрован, чтобы охватывать только 70 самых загруженных аэропортов в континентальной части США.
  • Отмененные рейсы были отмечены как задержанные более, чем на 15 минут.
  • Рейсы с отклонением были удалены.
  • Были выбраны следующие столбцы: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Cancelled.
Данные о соблюдении графиков рейсов (необработанные) Записи о прибытии и отправлении авиарейсов в США, начиная с октября 2011 г.

Употребление: Прогнозирование задержек рейсов.

Связанные исследования: От Министерства транспорта США https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Данные о лесных пожарах Содержит сведения о погоде, например индексы температуры и влажности, а также скорость ветра. Данные получены для северо-восточной области Португалии и объединены со сведениями о лесных пожарах.

Употребление: Это сложная задача регрессии, где цель заключается в прогнозировании сожженной зоны лесных пожаров.

Связанные исследования: Кортес, P., & Морайс, А. (2008). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки

[Cortez и Morais, 2007] P. Cortez и A. Morais. Подход интеллектуального анализа данных для прогнозирования лесных пожаров с помощью метеорологических данных. In J. Neves, M. F. Santos и J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 — Portuguese Conference on Artificial Intelligence, декабрь, Гимарайнш, Португалия, с. 512–523, 2007 г. APPIA, ISBN-13 978-989-95618-0-9. Доступно по адресу: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Набор данных German Credit Card UCI Набор данных UCI Statlog (немецкая кредитная карта) (Statlog+German+Credit+Data) с помощью файла german.data.

Набор данных классифицирует людей, описываемых набором атрибутов, как заемщиков с низким или высоким уровнем риска. Каждый пример представляет собой физическое лицо. Имеется 20 показателей, как числовых, так и категорийных, и двоичная метка (уровень кредитного риска). Записи с высоким уровнем риска имеют метку со значением 2, записи с низким уровнем риска имеют метку со значением 1. Стоимость ошибочной классификации низкого уровня риска как высокого — 1, а стоимость ошибочной классификации высокого уровня риска как низкого — 5.
Названия фильмов на сайте IMDB Набор данных содержит сведения о фильмах, оцененных в твитах Twitter: идентификатор фильма IMDB, название и жанр фильма, год выхода. В наборе данных содержится 17 тыс. фильмов. Набор данных был представлен в документе S. Dooms, T. De Pessemier и L. Martens. MovieTweetings: набор данных о рейтинге фильмов, собранный из Twitter. Семинар по краудсорсингу и человеческим вычислениям для систем рекомендаций, CrowdRec в RecSys 2013".
Двухклассовые данные об ирисе Возможно, это наиболее известная база данных, которую можно найти в литературе по распознаванию образов. Набор данных относительно небольшой и содержит 50 примеров измерения лепестков из трех разновидностей ириса.

Употребление: Прогнозирование типа ириса из измерений.

Связанные исследования: Фишер, Р.А. (1988). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Твиты о фильмах Набор данных является расширенной версией набора данных Movie Tweeting. Набор данных содержит 170 тыс. оценок фильмов, извлеченных из хорошо структурированных твитов в Twitter. Каждый экземпляр представляет собой твит и является кортежем: идентификатор пользователя, идентификатор фильма IMDB, оценка, метка времени, число добавлений в избранное для твита и число ретвитов. Набор данных предоставлен A. Said, S. Dooms, B. Loni и D. Tikk для Recommender Systems Challenge 2014.
Данные о расходе топлива для разных автомобилей Этот набор данных является слегка модифицированной версией набора данных, предоставленного библиотекой StatLib университета Карнеги-Меллон. Набор данных использовался на выставке Американской статистической ассоциации 1983 г.

Здесь указан расход топлива для разных автомобилей (в милях на галлон). Также в наборе содержатся дополнительные сведения, например число цилиндров, объем двигателя, мощность в лошадиных силах, общий вес и динамика разгона.

Употребление: Прогнозирование экономии топлива на основе трех многозначных дискретных атрибутов и пяти непрерывных атрибутов.

Связанные исследования: StatLib, Карнеги Меллон университет, (1993). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Набор данных Pima Indians Diabetes Binary Classification Подмножество данных из базы данных национального института диабета, болезней пищеварительного тракта и почек. Набор данных был подвержен фильтрации для отбора пациенток из индейского племени пима. Сведения включают в себя медицинские данные, например, уровни глюкоза и инсулина, а также факторы образа жизни.

Употребление: Прогнозирование того, имеет ли субъект диабет (двоичная классификация).

Связанные исследования: Сигиллито, V. (1990). Репозиторий https://archive.ics.uci.edu/mlмашинного обучения UCI ". Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки
Данные о клиентах ресторанов Набор метаданных о клиентах, включая демографические сведения и предпочтения.

Употребление: Используйте этот набор данных в сочетании с другими двумя наборами данных ресторана для обучения и тестирования системы рекомендаций.

Связанные исследования: Баче, К. и Личман, М. (2013). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин: Калифорнийский университет, школа информационных и компьютерных наук.
Данные об услугах ресторанов Набор метаданных о ресторанах и их услугах, например о типе пищи, стиле ресторанов и местоположении.

Употребление: Используйте этот набор данных в сочетании с другими двумя наборами данных ресторана для обучения и тестирования системы рекомендаций.

Связанные исследования: Баче, К. и Личман, М. (2013). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин: Калифорнийский университет, школа информационных и компьютерных наук.
Оценки ресторанов Содержит оценки, данные ресторанам пользователями по шкале от 0 до 2.

Употребление: Используйте этот набор данных в сочетании с другими двумя наборами данных ресторана для обучения и тестирования системы рекомендаций.

Связанные исследования: Баче, К. и Личман, М. (2013). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин: Калифорнийский университет, школа информационных и компьютерных наук.
Многоклассовый набор данных об отжиге стали Это набор сведений об экспериментах по отжигу стали. Здесь есть физические атрибуты полученных типов стали, например ширина, толщина и форма (катушка, лист, и т. д.).

Употребление: Прогнозирование любого из двух числовых атрибутов класса; жесткость или сила. Вы также можете анализировать корреляции между атрибутами.

Марка стали соответствует заданному стандарту, определенному ассоциацией SAE и другими организациями. Для конкретной марки стали (переменной класса) вы хотите определить необходимые значения.

Связанные исследования: Sterling, D. и Buntine, W. (NA). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информационной и компьютерной науки

Руководство по сортам стали см. здесь: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Данные телескопов Набор данных о пучках высокоэнергетических гамма-частиц вместе с фоновым шумом, которые моделируются с помощью метода Монте-Карло.

Моделирование выполнялось для повышения точности наземных гамма-телескопов, отслеживающих излучение Черенкова. Использовались статистические методы для разделения полезного сигнала (потоки излучения Черенкова) и фонового шума (адронные потоки, инициируемые космическими лучами в верхней части атмосферы).

Данные были предварительно обработаны для создания удлиненного кластера с продольной осью, ориентированной в центр камеры. Характеристики этого эллипса (часто называемые параметрами Hillas) относятся к параметрам изображения, которые могут использоваться для распознавания.

Употребление: Прогнозирование того, представляет ли изображение душа сигнал или фоновый шум.

Примечания: Простая точность классификации не имеет значения для этих данных, так как классификация фонового события как сигнала хуже, чем классификация события сигнала в качестве фона. Для сравнения различных классификаторов следует использовать график ROC. Вероятность классификации фонового события в качестве сигнала должна быть меньше одного из следующих пороговых значений: 0,01, 0,02, 0,05, 0,1 или 0,2.

Также учитывайте, что здесь недооценено число фоновых событий (h для адронных потоков). В реальных измерения значение h (класс шума) представляет большую часть событий.

Связанные исследования: Бок, R.K. (1995). UCI репозитория машинного обучения https://archive.ics.uci.edu/ml. Ирвин, ЦС: Калифорнийский университет, школа информации
Набор погодных данных Почасовые наземные наблюдения за погодой от NOAA (объединённые данные за период с 201304 по 201310).

Данные представляют собой наблюдения за погодой, осуществленные с метеорологических станций аэропортов, которые охватывают период времени с апреля по октябрь 2013 г. Перед отправкой в Машинное обучение Studio (классическая версия) набор данных был обработан следующим образом:
  • Идентификаторы метеорологических станций были сопоставлены с соответствующими идентификаторами аэропортов.
  • Метеорологические станции, не связанные с 70 самыми загруженными аэропортами, были удалены.
  • Столбец «Date» (Дата) был разделен на отдельные столбцы «Year» (Год), «Month» (Месяц) и «Day» (День).
  • Были выбраны следующие столбцы: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter.
набор данных Wikipedia SP 500 Данные взяты из Википедии (https://www.wikipedia.org/) и основаны на статьях о каждой из компаний, включенной в фондовый индекс S&P 500. Они сохранены в формате XML.

Перед отправкой в Машинное обучение Studio (классическая версия) набор данных был обработан следующим образом:
  • Был извлечен текст по каждой конкретной компании
  • Удалено форматирование Википедии
  • Удалены символы, не являющиеся буквами или цифрами
  • Весь текст преобразован в нижний регистр
  • Были добавлены известные категории компаний

Обратите внимание, что удалось найти статьи не для всех компаний, поэтому число записей меньше, чем 500.
direct_marketing.csv Набор данных содержит данные клиентов и их реакцию на кампанию прямой рассылки. В каждой строке представлен один клиент. Набор данных содержит девять признаков с демографическими данными и предыдущим поведением пользователя и три столбца с метками (посещение, конверсия и расходы). Столбец "Посещение" содержит двоичные данные, обозначающие визит клиента после маркетинговой кампании. Параметр "Конверсия" обозначает, что клиент что-то приобрел. "Расходы" обозначают сумму, потраченную клиентом. Набор данных предоставлен Кевином Хиллстромом (Kevin Hillstrom) для MineThatData E-Mail Analytics And Data Mining Challenge.
lyrl2004_tokens_test.csv Характеристики тестовых примеров в наборе данных новостей RCV1-V2 Reuters. Набор данных содержит 781 тыс. новостных статей с идентификаторами (первый столбец набора данных). Для каждой статьи выполнен анализ по лексемам, стоп-словам и однокоренным словам. Набор данных предоставлен Дэвидом Д. Д. Lewis).
lyrl2004_tokens_train.csv Характеристики учебных примеров в наборе данных новостей RCV1-V2 Reuters. Набор данных содержит 23 тыс. новостных статей с идентификаторами (первый столбец набора данных). Для каждой статьи выполнен анализ по лексемам, стоп-словам и однокоренным словам. Набор данных предоставлен Дэвидом Д. Д. Lewis).
network_intrusion_detection.csv
Набор данных из Кубка KDD 1999 по интеллектуальному анализу данных и средствам для обнаружения знаний (kddcup99.html).

Набор данных был скачан и сохранен в хранилище BLOB-объектов Azure (network_intrusion_detection.csv) и включает как обучающие, так и тестовые наборы данных. Набор данных для обучения имеет приблизительно 126 000 строк и 43 столбца, включая метки. 3 столбца являются частью сведений меток, а 40 столбцов, состоящие из числовых и строчных (категорийных) характеристик, доступны для обучения модели. Тестовые данные содержат приблизительно 22 500 тестовых примеров (с теми же 43 столбцами, что и данные для обучения).
rcv1-v2.topics.qrels.csv Назначения разделов для новостных статей в наборе данных новостей RCV1-V2 Reuters. Новостная статья может быть назначена нескольким разделам. Каждая строка имеет формат "<имя раздела><идентификатор документа> 1". Набор данных содержит 2,6 млн назначений разделов. Набор данных предоставлен Дэвидом Д. Д. Lewis).
student_performance.txt Эти данные исходят из задачи оценки производительности учащихся кубка KDD 2010 (оценка производительности учащихся). Использованные данные: обучающий набор данных Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Алгебра 2008-2009. Опробуйте набор данных из состязания KDD Cup 2010: интеллектуальный анализ образовательных данных. Найдите его в downloads.jsp.

Набор данных был скачан и сохранен в хранилище BLOB-объектов Azure (student_performance.txt) и содержит файлы журналов из системы обучения учащихся. Задаваемыми характеристиками являются идентификатор проблемы и ее краткое описание, идентификатор учащегося, метка времени, а также количество попыток, которые сделал учащийся перед правильным решением проблемы. Исходный набор данных содержит 8,9 млн записей. Количество строк в этом наборе данных уменьшено до первых 100 тысяч строк. Набор данных содержит 23 столбца с разделителем-табуляцией различных типов: числа, категории и метки времени.

Следующие шаги