Ускорение подготовки данных с помощью Data Wrangler в Microsoft Fabric

Wrangler ускоряет рабочий процесс подготовки данных, предоставляя иммерсивный визуальный интерфейс для анализа аналитических данных. В этой статье вы узнаете, как:

  • Запустите Data Wrangler из Notebook Fabric
  • Изучение данных с помощью интерактивных визуализаций и сводной статистики
  • Применение общих операций очистки данных с помощью автоматического создания кода
  • Экспортируйте многократно используемые функции Pandas или PySpark обратно в тетрадь.

В этой статье рассматриваются DataFrame pandas. Сведения о DataFrame в Spark см. в этом ресурсе.

Предварительные условия

Ограничения

  • Пользовательский код в настоящее время поддерживает только pandas DataFrame.
  • Экран Data Wrangler лучше всего работает на больших мониторах. Однако можно свести к минимуму или скрыть различные части интерфейса, чтобы разместить небольшие экраны.

Запуск данных Wrangler

Вы можете запустить Data Wrangler непосредственно из записной книжки Microsoft Fabric для изучения и преобразования любых pandas или Spark DataFrame.

Чтобы приступить к работе с примерами данных, выполните приведенные ниже действия.

В этом фрагменте кода показано, как считывать образцы данных в DataFrame pandas.

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

На вкладке "Главная" на ленте записной книжки используйте выпадающее меню Data Wrangler, чтобы просмотреть активные DataFrames, доступные для редактирования. Выберите нужный объект в Data Wrangler.

Совет

Не удается открыть Data Wrangler, пока ядро записной книжки занято. Перед запуском Data Wrangler выполнение ячейки должно быть завершено, как показано на снимке экрана.

Скриншот, на котором показана записная книжка Fabric с выпадающим меню Data Wrangler.

Выбор пользовательских примеров

Чтобы открыть пользовательский образец любого активного кадра данных с помощью Data Wrangler, выберите Выбрать пользовательский образец в раскрывающемся списке, как показано на снимке экрана.

Снимок экрана: раскрывающийся список Data Wrangler с указанным примером параметра.

Это действие открывает диалоговое окно с параметрами, чтобы указать размер требуемого образца (количество строк) и метод выборки (первые записи, последние записи или случайный набор). Первые 5000 строк кадра данных служат размером выборки по умолчанию, как показано на снимке экрана:

Снимок экрана: запрос пользовательского примера Data Wrangler.

Просмотр сводной статистики

При загрузке Data Wrangler отображается описательный обзор выбранного кадра данных на панели «Сводка». Обзор включает информацию о размерах DataFrame, пропущенных значениях и прочем. При выборе любого столбца в сетке Data Wrangler панель Сводка обновляется для отображения описательной статистики конкретного столбца. Краткие сведения о каждом столбце также доступны в заголовке.

Совет

Статистика столбцов и визуальные элементы (как на панели сводки , так и в заголовках столбцов) зависят от типа данных столбца. Например, в заголовке столбца отображается гистограмма с бинированием по числовому столбцу только если столбец приведен к числовому типу, как показано на снимке экрана.

Снимок экрана, показывающий сетку отображения Data Wrangler и панель

Просмотр операций очистки данных

Панель Операции предоставляет список операций очистки данных с возможностью поиска. При выборе операции очистки данных на панели управления необходимо указать целевой столбец или столбцы, а также все необходимые параметры для выполнения операции. Например, запрос на числовое масштабирование столбца требует нового диапазона значений, как показано на снимке экрана:

Снимок экрана: панель операций Data Wrangler.

Совет

Вы можете применить меньший выбор операций из меню каждого заголовка столбца, как показано на снимке экрана:

Снимок экрана, показывающий операцию Data Wrangler, которую можно выполнить из меню заголовка столбца.

Предварительный просмотр и применение операций

Сетка отображения данных Wrangler автоматически просматривает результаты выбранной операции, а соответствующий код автоматически отображается на панели под сеткой. Чтобы зафиксировать предварительно просмотренный код, выберите "Применить" в любом расположении. Чтобы удалить предварительный код и попробовать новую операцию, нажмите кнопку "Отменить ", как показано на снимке экрана:

Снимок экрана, показывающий операцию Data Wrangler в ходе выполнения.

После применения операции сетка отображения данных Data Wrangler и сводная статистика обновляются для отражения результатов. Код отображается в текущем списке зафиксированных операций на панели действий очистки, как показано на следующем скриншоте.

Снимок экрана: примененная операция Data Wrangler.

Совет

Вы всегда можете отменить последний примененный шаг. На панели "Очистка" значок корзины отображается при наведении курсора на последний примененный шаг, как показано на этом снимке экрана:

Снимок экрана: операция Data Wrangler, которую можно отменить.

В этой таблице перечислены операции, поддерживаемые Data Wrangler:

Операция Description
Сортировать Сортировка столбца по возрастанию или убыванию
Фильтр Фильтрация строк на основе одного или нескольких условий
Одно горячее кодирование Создание новых столбцов для каждого уникального значения в существующем столбце, указывающее на наличие или отсутствие этих значений на строку
Многоярлыковый бинаризатор Разделите данные, используя разделитель, и создайте новые столбцы для каждой категории, помечая 1, если строка содержит категорию, и 0, если не содержит.
Изменение типа столбца Изменение типа данных столбца
Удаление столбца Удаление одного или нескольких столбцов
Выбор столбца Выберите один или несколько столбцов, чтобы сохранить и удалить остальные
Переименование столбца Переименование столбца
Удаление отсутствующих значений Удаление строк с отсутствующими значениями
Удаление повторяющихся строк Удаление всех строк с повторяющимися значениями в одном или нескольких столбцах
Заполнение отсутствующих значений Замените значения, отсутствующие в ячейках, новым значением.
Поиск и замена Замените ячейки точным шаблоном сопоставления
Группировка по столбцу и агрегация Группировать по значениям столбцов и агрегированным результатам
Удалить пробелы Удаление пробелов из начала и конца текста
Разделение текста Разделение столбца на несколько столбцов на основе определяемого пользователем разделителя
Преобразование текста в строчные буквы Преобразуйте текст в строчные буквы
Преобразование текста в верхний регистр Преобразование текста в ВЕРХНИЙ РЕГИСТР
Минимальное или максимальное масштабирование значений Масштабирование числового столбца между минимальным и максимальным значением
Заливка флэш-памяти Автоматическое создание нового столбца на основе примеров, производных от существующего столбца

Настройка дисплея

В любое время интерфейс можно настроить с помощью вкладки "Представления" на панели инструментов над сеткой отображения Data Wrangler. Этот параметр может скрывать или отображать различные панели на основе настроек и размера экрана, как показано на снимке экрана:

Снимок экрана: меню Data Wrangler для настройки представления отображения.

Сохранение и экспорт кода

Панель инструментов над сеткой отображения данных Wrangler предоставляет параметры для сохранения созданного кода. Вы можете скопировать код в буфер обмена или экспортировать его в записную книжку в виде функции. Экспорт кода закрывает Data Wrangler и добавляет новую функцию в ячейку кода в записной книжке. Вы также можете скачать очищенный кадр данных в виде CSV-файла.

Совет

Data Wrangler создает код, который выполняется только при ручном запуске новой ячейки, и он не перезаписывает исходный кадр данных, как показано на этом снимке экрана:

Снимок экрана: параметры экспорта кода в Data Wrangler.

Затем можно запустить экспортируемый код, как показано на снимке экрана:

Снимок экрана с кодом, созданным Data Wrangler в записной книжке.

Дальнейшие шаги

Теперь, когда вы знаете, как использовать Data Wrangler с пандами DataFrames, изучите следующие ресурсы:

Есть отзывы? Поделитесь своими идеями на форуме "Идеи структуры".