Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описываются средства и методы для анализа аналитических данных (EDA) в Azure Databricks.
Что такое EDA и почему это полезно?
Анализ аналитических данных (EDA) включает методы для изучения наборов данных для суммирования их основных характеристик и выявления проблем с данными. С помощью статистических методов и визуализаций можно узнать о наборе данных, чтобы определить готовность к анализу и сообщить, какие методы следует применять к подготовке данных. EDA также может влиять на алгоритмы, которые вы выбираете для обучения моделей машинного обучения.
Что такое средства EDA в Azure Databricks?
Azure Databricks имеет встроенные средства анализа и визуализации как в Databricks SQL, так и в Databricks Runtime. Список иллюстрированных типов визуализаций, доступных в Azure Databricks, см. в разделе "Записная книжка" и "Типы визуализаций редактора SQL".
EDA в Databricks SQL
Ниже приведены некоторые полезные статьи о средствах визуализации и исследования данных в Databricks SQL:
- визуализировать запросы и создать панель мониторинга
- Создание визуализаций данных
Исследовательский анализ данных (EDA) в среде выполнения Databricks
Databricks Runtime предоставляет предварительно созданную среду, в которой уже установлены популярные библиотеки исследования данных. Список встроенных библиотек можно просмотреть в заметках о выпуске .
Кроме того, в следующих статьях показаны примеры средств визуализации в Databricks Runtime:
- Создайте визуализации данных в записных книжках Databricks
- Руководство: методы EDA (Exploratory Data Analysis) с помощью ноутбуков Databricks
В записной книжке Databricks Python можно объединить SQL и Python для изучения данных. При запуске кода в ячейке языка SQL в записной книжке Python результаты таблицы автоматически становятся доступными в виде кадра данных Python. Для получения дополнительных сведений см. изучение результатов SQL-ячеек в записных книжках Python.