Анализ аналитических данных в Azure Databricks: инструменты и методы
В этой статье описываются средства и методы для анализа аналитических данных (EDA) в Azure Databricks.
Что такое EDA и почему это полезно?
Анализ аналитических данных (EDA) включает методы для изучения наборов данных для суммирования их основных характеристик и выявления проблем с данными. С помощью статистических методов и визуализаций можно узнать о наборе данных, чтобы определить готовность к анализу и сообщить, какие методы следует применять к подготовке данных. EDA также может влиять на алгоритмы, которые вы выбираете для обучения моделей машинного обучения.
Что такое средства EDA в Azure Databricks?
Azure Databricks имеет встроенные средства анализа и визуализации как в Databricks SQL, так и в Databricks Runtime. Список иллюстрированных типов визуализаций, доступных в Azure Databricks, см. в разделе "Типы визуализаций".
EDA в Databricks SQL
Ниже приведены некоторые полезные статьи о средствах визуализации и исследования данных в Databricks SQL:
Среда выполнения Databricks
Databricks Runtime предоставляет предварительно созданную среду, в которой уже установлены популярные библиотеки исследования данных. Список встроенных библиотек можно просмотреть в заметках о выпуске.
Кроме того, в следующих статьях показаны примеры средств визуализации в Databricks Runtime:
В записной книжке Databricks Python можно объединить SQL и Python для изучения данных. При запуске кода в ячейке языка SQL в записной книжке Python результаты таблицы автоматически становятся доступными в виде кадра данных Python. Дополнительные сведения см. в статье "Изучение ячеек SQL" в записных книжках Python.