Поделиться через


Использование Wrangler данных в кадрах данных Spark

Data Wrangler, инструмент на основе записной книжки для анализа данных, теперь поддерживает как кадры данных Spark, так и кадры данных pandas. Он создает код PySpark в дополнение к коду Python. Общие сведения о Data Wrangler, посвященные изучению и преобразованию кадров данных pandas, см . в основном руководстве. В этом руководстве показано, как использовать Data Wrangler для изучения и преобразования кадров данных Spark.

Необходимые компоненты

  • Получение подписки Microsoft Fabric. Или зарегистрируйте бесплатную пробную версию Microsoft Fabric.

  • Войдите в Microsoft Fabric.

  • Используйте переключатель интерфейса в левой части домашней страницы, чтобы перейти на интерфейс Synapse Обработка и анализ данных.

    Снимок экрана: меню переключателя интерфейса, в котором показано, где выбрать Обработка и анализ данных.

Ограничения

  • Пользовательские операции кода в настоящее время поддерживаются только для pandas DataFrames.
  • Отображение Wrangler данных лучше всего работает на больших мониторах, хотя можно свести к минимуму или скрыть различные части интерфейса, чтобы разместить небольшие экраны.

Запуск Wrangler с помощью кадра данных Spark

Пользователи могут открывать кадры данных Spark в Data Wrangler непосредственно из записной книжки Microsoft Fabric, перейдя к той же раскрывающейся строке, где отображаются кадры данных pandas. Список активных кадров данных Spark отображается в раскрывающемся списке активных переменных pandas.

Этот фрагмент кода создает кадр данных Spark с теми же примерами данных, которые используются в руководстве по data Wrangler pandas:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

На вкладке "Главная" на ленте записной книжки используйте раскрывающийся список Data Wrangler, чтобы просмотреть активные кадры данных, доступные для редактирования. Выберите тот, который вы хотите открыть в Data Wrangler.

Совет

Не удается открыть Wrangler, пока ядро записной книжки занято. Выполнение ячейки должно завершиться до запуска Wrangler данных, как показано на снимке экрана:

Снимок экрана: записная книжка Fabric с раскрывающимся списком Data Wrangler.

Выбор пользовательских примеров

Wrangler автоматически преобразует кадры данных Spark в примеры pandas по соображениям производительности. Однако весь код, создаваемый средством, в конечном счете преобразуется в PySpark при экспорте обратно в записную книжку. Как и в случае с любым кадром данных Pandas, можно настроить пример по умолчанию. Чтобы открыть пользовательский образец любого активного кадра данных с помощью Wrangler, выберите "Выбрать пользовательский пример" в раскрывающемся списке, как показано на снимке экрана:

Снимок экрана: раскрывающийся запрос Data Wrangler с указанным настраиваемым вариантом примера.

Откроется всплывающее окно с параметрами, чтобы указать размер требуемого образца (количество строк) и метод выборки (первые записи, последние записи или случайный набор), как показано на снимке экрана:

Снимок экрана: запрос пользовательского примера Data Wrangler.

Просмотр сводной статистики

При загрузке Wrangler данных отображается информационный баннер над сеткой предварительного просмотра. Этот баннер объясняет, что кадры данных Spark временно преобразуются в примеры pandas, но все созданные коды в конечном итоге преобразуются в PySpark. В прошлом использование Data Wrangler в Spark DataFrames отличается от использования в пандах DataFrames. В описательном обзоре на панели "Сводка" отображаются сведения о измерениях примера, отсутствующих значениях и т. д. Выбор любого столбца в сетке Data Wrangler предложит панели "Сводка" обновить и отобразить описательную статистику о конкретном столбце. Краткие сведения о каждом столбце также доступны в заголовке.

Совет

Статистика и визуальные элементы для столбцов (как на панели "Сводка", так и в заголовках столбцов) зависят от типа данных столбца. Например, гистограмма с ячейками числового столбца будет отображаться в заголовке столбца только в том случае, если столбец приведение в виде числового типа, как показано на снимке экрана:

Снимок экрана: панель

Просмотр операций очистки данных

Список действий по очистке данных можно найти на панели "Операции". На панели "Операции" выбор шага очистки данных запрашивает указать целевой столбец или столбцы, а также все необходимые параметры для выполнения шага. Например, запрос на числовое масштабирование столбца требует нового диапазона значений, как показано на снимке экрана:

Снимок экрана: панель операций Data Wrangler.

Совет

Вы можете применить меньший выбор операций из меню каждого заголовка столбца, как показано на снимке экрана:

Снимок экрана: операция Data Wrangler, которую можно применить в меню заголовка столбца.

Предварительный просмотр и применение операций

Сетка отображения данных Wrangler автоматически просматривает результаты выбранной операции, а соответствующий код автоматически отображается на панели под сеткой. Чтобы зафиксировать предварительный просмотр кода, выберите "Применить" в любом месте. Чтобы удалить предварительный просмотр кода и попробовать новую операцию, нажмите кнопку "Отменить", как показано на снимке экрана:

Снимок экрана: операция Data Wrangler выполняется.

После применения операции сетка отображения данных Wrangler и обновление сводной статистики для отражения результатов. Код отображается в запущенном списке зафиксированных операций, расположенных на панели "Очистка шагов", как показано на этом снимке экрана:

Снимок экрана: примененная операция Data Wrangler.

Совет

Вы всегда можете отменить последний примененный шаг. На панели "Очистка шагов" появится значок корзины, если наведите указатель мыши на последний примененный шаг, как показано на этом снимке экрана:

Снимок экрана: операция Data Wrangler, которую можно отменить.

В этой таблице перечислены операции, поддерживаемые Wrangler data:

Операция Description
Сортировать Сортировка столбца по возрастанию или убыванию
Фильтр Фильтрация строк на основе одного или нескольких условий
Одно горячее кодирование Создание новых столбцов для каждого уникального значения в существующем столбце, указывающее на наличие или отсутствие этих значений на строку
Одно горячее кодирование с разделителем Разделение и одно горячее кодирование категориальных данных с помощью разделителя
Изменение типа столбца Изменение типа данных столбца
Удаление столбца Удаление одного или нескольких столбцов
Выбор столбца Выберите один или несколько столбцов, чтобы сохранить и удалить остальные
Переименование столбца Переименование столбца
Удаление отсутствующих значений Удаление строк с отсутствующими значениями
Удаление повторяющихся строк Удаление всех строк с повторяющимися значениями в одном или нескольких столбцах
Заполнение отсутствующих значений Замените ячейки отсутствующими значениями новым значением
Поиск и замена Замените ячейки точным шаблоном сопоставления
Группировка по столбцам и статистическим выражениям Группировать по значениям столбцов и агрегированным результатам
Пробелы в полосе Удаление пробелов из начала и конца текста
Разделение текста Разделение столбца на несколько столбцов на основе определяемого пользователем разделителя
Преобразование текста в строчные буквы Преобразование текста в строчные буквы
Преобразование текста в верхний регистр Преобразование текста в ВЕРХНИЙ РЕГИСТР
Минимальное или максимальное масштабирование значений Масштабирование числового столбца между минимальным и максимальным значением
Заливка флэш-памяти Автоматическое создание нового столбца на основе примеров, производных от существующего столбца

Изменение дисплея

В любое время вы можете настроить интерфейс с помощью вкладки "Представления" на панели инструментов, расположенной над сеткой отображения Data Wrangler. Это может скрыть или отобразить различные панели на основе ваших настроек и размера экрана, как показано на этом снимке экрана:

Снимок экрана: меню Data Wrangler для настройки представления отображения.

Сохранение и экспорт кода

Панель инструментов над сеткой отображения данных Wrangler предоставляет параметры для сохранения созданного кода. Вы можете скопировать код в буфер обмена или экспортировать его в записную книжку в виде функции. Для Кадров данных Spark весь код, созданный на примере pandas, преобразуется в PySpark, прежде чем он приземляется обратно в записную книжку. Перед закрытием Data Wrangler средство отображает предварительную версию переведенного кода PySpark, а также предоставляет возможность экспортировать промежуточный код pandas.

Совет

Wrangler создает код, который применяется только при ручном запуске новой ячейки, и он не перезаписывает исходный кадр данных, как показано на этом снимке экрана:

Снимок экрана: параметры экспорта кода в Data Wrangler.

Код преобразуется в PySpark, как показано на снимке экрана:

Снимок экрана: предварительная версия PySpark в командной строке кода экспорта в Data Wrangler.

Затем можно запустить экспортируемый код, как показано на снимке экрана:

Снимок экрана: код, созданный Wrangler в записной книжке.