Основы обработки и анализа данных для машинного обучения

Начальный уровень
Средний уровень
Инженер по искусственному интеллекту
Специалист по обработке и анализу данных
Разработка
Учащийся
Azure

Microsoft Learn предоставляет несколько интерактивных способов знакомства с классическим машинным обучением. Эти схемы обучения помогут вам самостоятельно изучить соответствующие вопросы. Кроме того, они являются отличной базой для перехода к темам, посвященным глубокому обучению.

Рассматривая самые базовые классические модели машинного обучения и выполняя исследовательский анализ данных и настройку архитектур, вы будете руководствоваться легко усваиваемым концептуальным содержимым и работать с интерактивными записными книжками Jupyter, не выходя из браузера.

Выберите собственную схему, соответствующую вашему образованию и интересам.

✔ Вариант 1. Полный курс: основы обработки и анализа данных для машинного обучения

Это рекомендуемый вариант для большинства пользователей. Он состоит из тех же модулей, что и две других схемы обучения, с индивидуальным изложением материала, которое позволяет максимально закрепить полученные знания. Выберите этот вариант, если вы хотите узнать об основных понятиях, а также о том, как приступить к созданию моделей с помощью наиболее распространенных средств машинного обучения. Это также отличное решение, если вы планируете выйти за рамки классического машинного обучения и получить образование в области глубокого обучения и нейронных сетей, которые представлены здесь лишь поверхностно.

✔ Сейчас вы уже выбрали эту схему. Прокрутите вниз, чтобы начать.

Вариант 2. Схема обучения Общие сведения о обработке и анализе данных для машинного обучения

Если вы хотите понять, как работает машинное обучение, но у вас нет достаточного математического образования, — эта схема для вас. В ней отсутствуют требования к предыдущему образованию (нужны лишь минимальные знания принципов программирования), а обучение ведется с помощью примеров кода, метафор и визуализаций, которые в итоге приводят к моменту, когда изучаемый вопрос становится ясным. Она представляет собой практическое руководство, ориентированным в большей мере на понимание основ и в меньшей — на доступные средства и библиотеки.

Вариант 3. Схема обучения Создание моделей машинного обучения

Если вы уже имеете некоторое представление о том, что такое машинное обучение, или имеете серьезное математическое образование, вы можете сразу перейти к схеме обучения Создание моделей машинного обучения. В этих модулях представлены краткие сведения о некоторых основных понятиях машинного обучения, поэтому вы сможете быстро перейти к изучению таких средств, как scikit-learn, TensorFlow и PyTorch. Эта схема обучения также является наилучшим вариантом, если вам нужны знания, достаточные для понимания примеров машинного обучения для таких продуктов, как Azure ML или Azure Databricks.

Предварительные требования

нет

Модули, включенные в эту схему обучения

Общие сведения о машинном обучении для лиц с минимальными знаниями в области информатики и статистики или вообще без них. Вы узнаете о некоторых основных понятиях, изучите данные и интерактивно проходите жизненный цикл машинного обучения с помощью Python для обучения, сохранения и использования модели машинного обучения, как в реальном мире.

Контролируемое обучение — это форма машинного обучения, при которой обучение алгоритма проводится на примерах данных. Мы поэтапно рассмотрим, как с помощью контролируемого обучения можно автоматически создать модель, способную готовить прогнозы для реального мира. Также мы коснемся тестирования этих моделей и проблем, которые могут возникнуть в процессе их обучения.

Возможности моделей машинного обучения содержатся в данных, которые используются для обучения моделей. С помощью содержимого и упражнений мы рассмотрим, как понять, как закодировать данные, чтобы компьютер интерпретировать его правильно, как очистить все ошибки и советы, которые помогут вам создать высокопроизводительные модели.

Изучение данных является основным аспектом обработки и анализа данных. Специалисты по обработке и анализу данных требуют навыков на языках программирования, таких как Python, для изучения, визуализации и управления данными.

Регрессия, возможно, является наиболее широко используемым методом машинного обучения, обычно лежащим в основе научных открытий, бизнес-планирования и аналитики фондового рынка. В этом учебном материале рассматриваются некоторые общие регрессионные анализы, как простые, так и более сложные, и дается некоторое представление о том, как оценить производительность модели.

Когда мы думаем о машинном обучении, мы зачастую делаем упор на процесс обучения. Небольшое количество подготовки перед этим процессом может не только ускорить и улучшить обучение, но и дать нам некоторую уверенность в том, насколько хорошо наши модели будут работать, когда сталкиваются с данными, которые мы никогда раньше не видели.

Регрессия — это широко распространенный тип машинного обучения для прогнозирования числовых значений.

Классификация означает распределение элементов по категориям, а также является средством автоматического принятия решений. Здесь мы рассматриваем модели классификации на базе логистической регрессии и закладываем основы для знакомства с более сложными и интересными методами классификации.

Более сложные модели часто можно настроить вручную для улучшения их эффективности. С помощью упражнений и пояснительных заметок мы рассмотрим, как изменение архитектуры более сложных моделей может привести к более эффективным результатам.

Как узнать, является ли модель качественной или некачественной при классификации данных? Способ, которым компьютеры оценивают производительность модели, иногда может быть трудно понять или же он излишне упрощает поведение модели в реальном мире. Чтобы добиться удовлетворительной работы модели, нам нужно найти интуитивно понятные способы их оценки и понять, как эти метрики могут повлиять на наше восприятие.

ROC-кривые — это мощный способ оценки и тонкой настройки обученных моделей классификации. Мы рассмотрим применение этих кривых в теории и на практике.

Классификация — это форма машинного обучения, используемая для категоризации элементов по классам.

Кластеризация — это тип машинного обучения, который используется для группировки похожих элементов в кластеры.

Глубокое обучение — это сложная форма машинного обучения, которая эмулирует обучение человека с помощью сетей связанных нейронов.