Использование Wrangler данных в кадрах данных Spark
Data Wrangler, инструмент на основе записной книжки для анализа данных, теперь поддерживает как кадры данных Spark, так и кадры данных pandas. Он создает код PySpark в дополнение к коду Python. Общие сведения о Data Wrangler, посвященные изучению и преобразованию кадров данных pandas, см . в основном руководстве. В этом руководстве показано, как использовать Data Wrangler для изучения и преобразования кадров данных Spark.
Необходимые компоненты
Получение подписки Microsoft Fabric. Или зарегистрируйте бесплатную пробную версию Microsoft Fabric.
Войдите в Microsoft Fabric.
Используйте переключатель интерфейса в левой части домашней страницы, чтобы перейти на интерфейс Synapse Обработка и анализ данных.
Ограничения
- Пользовательские операции кода в настоящее время поддерживаются только для pandas DataFrames.
- Отображение Wrangler данных лучше всего работает на больших мониторах, хотя можно свести к минимуму или скрыть различные части интерфейса, чтобы разместить небольшие экраны.
Запуск Wrangler с помощью кадра данных Spark
Пользователи могут открывать кадры данных Spark в Data Wrangler непосредственно из записной книжки Microsoft Fabric, перейдя к той же раскрывающейся строке, где отображаются кадры данных pandas. Список активных кадров данных Spark отображается в раскрывающемся списке активных переменных pandas.
Этот фрагмент кода создает кадр данных Spark с теми же примерами данных, которые используются в руководстве по data Wrangler pandas:
import pandas as pd
# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)
На вкладке "Главная" на ленте записной книжки используйте раскрывающийся список Data Wrangler, чтобы просмотреть активные кадры данных, доступные для редактирования. Выберите тот, который вы хотите открыть в Data Wrangler.
Совет
Не удается открыть Wrangler, пока ядро записной книжки занято. Выполнение ячейки должно завершиться до запуска Wrangler данных, как показано на снимке экрана:
Выбор пользовательских примеров
Wrangler автоматически преобразует кадры данных Spark в примеры pandas по соображениям производительности. Однако весь код, создаваемый средством, в конечном счете преобразуется в PySpark при экспорте обратно в записную книжку. Как и в случае с любым кадром данных Pandas, можно настроить пример по умолчанию. Чтобы открыть пользовательский образец любого активного кадра данных с помощью Wrangler, выберите "Выбрать пользовательский пример" в раскрывающемся списке, как показано на снимке экрана:
Откроется всплывающее окно с параметрами, чтобы указать размер требуемого образца (количество строк) и метод выборки (первые записи, последние записи или случайный набор), как показано на снимке экрана:
Просмотр сводной статистики
При загрузке Wrangler данных отображается информационный баннер над сеткой предварительного просмотра. Этот баннер объясняет, что кадры данных Spark временно преобразуются в примеры pandas, но все созданные коды в конечном итоге преобразуются в PySpark. В прошлом использование Data Wrangler в Spark DataFrames отличается от использования в пандах DataFrames. В описательном обзоре на панели "Сводка" отображаются сведения о измерениях примера, отсутствующих значениях и т. д. Выбор любого столбца в сетке Data Wrangler предложит панели "Сводка" обновить и отобразить описательную статистику о конкретном столбце. Краткие сведения о каждом столбце также доступны в заголовке.
Совет
Статистика и визуальные элементы для столбцов (как на панели "Сводка", так и в заголовках столбцов) зависят от типа данных столбца. Например, гистограмма с ячейками числового столбца будет отображаться в заголовке столбца только в том случае, если столбец приведение в виде числового типа, как показано на снимке экрана:
Просмотр операций очистки данных
Список действий по очистке данных можно найти на панели "Операции". На панели "Операции" выбор шага очистки данных запрашивает указать целевой столбец или столбцы, а также все необходимые параметры для выполнения шага. Например, запрос на числовое масштабирование столбца требует нового диапазона значений, как показано на снимке экрана:
Совет
Вы можете применить меньший выбор операций из меню каждого заголовка столбца, как показано на снимке экрана:
Предварительный просмотр и применение операций
Сетка отображения данных Wrangler автоматически просматривает результаты выбранной операции, а соответствующий код автоматически отображается на панели под сеткой. Чтобы зафиксировать предварительный просмотр кода, выберите "Применить" в любом месте. Чтобы удалить предварительный просмотр кода и попробовать новую операцию, нажмите кнопку "Отменить", как показано на снимке экрана:
После применения операции сетка отображения данных Wrangler и обновление сводной статистики для отражения результатов. Код отображается в запущенном списке зафиксированных операций, расположенных на панели "Очистка шагов", как показано на этом снимке экрана:
Совет
Вы всегда можете отменить последний примененный шаг. На панели "Очистка шагов" появится значок корзины, если наведите указатель мыши на последний примененный шаг, как показано на этом снимке экрана:
В этой таблице перечислены операции, поддерживаемые Wrangler data:
Операция | Description |
---|---|
Сортировать | Сортировка столбца по возрастанию или убыванию |
Фильтр | Фильтрация строк на основе одного или нескольких условий |
Одно горячее кодирование | Создание новых столбцов для каждого уникального значения в существующем столбце, указывающее на наличие или отсутствие этих значений на строку |
Одно горячее кодирование с разделителем | Разделение и одно горячее кодирование категориальных данных с помощью разделителя |
Изменение типа столбца | Изменение типа данных столбца |
Удаление столбца | Удаление одного или нескольких столбцов |
Выбор столбца | Выберите один или несколько столбцов, чтобы сохранить и удалить остальные |
Переименование столбца | Переименование столбца |
Удаление отсутствующих значений | Удаление строк с отсутствующими значениями |
Удаление повторяющихся строк | Удаление всех строк с повторяющимися значениями в одном или нескольких столбцах |
Заполнение отсутствующих значений | Замените ячейки отсутствующими значениями новым значением |
Поиск и замена | Замените ячейки точным шаблоном сопоставления |
Группировка по столбцам и статистическим выражениям | Группировать по значениям столбцов и агрегированным результатам |
Пробелы в полосе | Удаление пробелов из начала и конца текста |
Разделение текста | Разделение столбца на несколько столбцов на основе определяемого пользователем разделителя |
Преобразование текста в строчные буквы | Преобразование текста в строчные буквы |
Преобразование текста в верхний регистр | Преобразование текста в ВЕРХНИЙ РЕГИСТР |
Минимальное или максимальное масштабирование значений | Масштабирование числового столбца между минимальным и максимальным значением |
Заливка флэш-памяти | Автоматическое создание нового столбца на основе примеров, производных от существующего столбца |
Изменение дисплея
В любое время вы можете настроить интерфейс с помощью вкладки "Представления" на панели инструментов, расположенной над сеткой отображения Data Wrangler. Это может скрыть или отобразить различные панели на основе ваших настроек и размера экрана, как показано на этом снимке экрана:
Сохранение и экспорт кода
Панель инструментов над сеткой отображения данных Wrangler предоставляет параметры для сохранения созданного кода. Вы можете скопировать код в буфер обмена или экспортировать его в записную книжку в виде функции. Для Кадров данных Spark весь код, созданный на примере pandas, преобразуется в PySpark, прежде чем он приземляется обратно в записную книжку. Перед закрытием Data Wrangler средство отображает предварительную версию переведенного кода PySpark, а также предоставляет возможность экспортировать промежуточный код pandas.
Совет
Wrangler создает код, который применяется только при ручном запуске новой ячейки, и он не перезаписывает исходный кадр данных, как показано на этом снимке экрана:
Код преобразуется в PySpark, как показано на снимке экрана:
Затем можно запустить экспортируемый код, как показано на снимке экрана:
Связанный контент
- Общие сведения о Data Wrangler см . в этой статье- компаньоне
- Чтобы попробовать Data Wrangler в Visual Studio Code, перейдите к Data Wrangler в VS Code
- Упустили ли у вас функцию? Поделитесь с нами. Предложить его на форуме "Идеи структуры"