Ускорение подготовки данных с помощью Data Wrangler в Microsoft Fabric
Data Wrangler — это средство на основе записных книжек, которое предоставляет пользователям иммерсивный интерфейс для анализа аналитических данных. Эта функция объединяет отображение данных, например сетку, с динамической сводной статистикой, встроенными визуализациями и библиотекой общих операций очистки данных. Каждая операция может применяться в случае щелчков, обновляя отображение данных в режиме реального времени и создавая код в pandas или PySpark, которые можно сохранить обратно в записную книжку в качестве повторной функции. В этой статье рассматриваются и преобразуются кадры данных pandas. Инструкции по использованию Data Wrangler в кадрах данных Spark см . здесь.
Необходимые компоненты
Получение подписки Microsoft Fabric. Или зарегистрируйте бесплатную пробную версию Microsoft Fabric.
Войдите в Microsoft Fabric.
Используйте переключатель интерфейса в левой части домашней страницы, чтобы перейти на интерфейс Synapse Обработка и анализ данных.
Ограничения
- Data Wrangler в настоящее время поддерживает создание кода pandas в общедоступной предварительной версии и создание кода Spark.
- Пользовательские операции кода в настоящее время поддерживаются только для pandas DataFrames.
- Отображение Wrangler данных лучше всего работает на больших мониторах, хотя различные части интерфейса можно свести к минимуму или скрыть для размещения небольших экранов.
Запуск Wrangler данных
Вы можете запустить Data Wrangler непосредственно из записной книжки Microsoft Fabric для изучения и преобразования любых pandas или Spark DataFrame. Общие сведения об использовании Data Wrangler с кадрами данных Spark см . в этой статье. В приведенном ниже фрагменте кода показано, как считывать примеры данных в кадр данных pandas:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
На вкладке "Данные" на ленте записной книжки используйте раскрывающийся список Data Wrangler, чтобы просмотреть активные кадры данных, доступные для редактирования. Выберите тот, который вы хотите открыть в Data Wrangler.
Совет
Не удается открыть Wrangler, пока ядро записной книжки занято. Выполнение ячейки должно завершиться до запуска Wrangler данных.
Выбор пользовательских примеров
Wrangler позволяет открыть пользовательский пример любого активного кадра данных, выбрав в раскрывающемся списке пункт "Выбор пользовательского примера". Это позволяет запустить всплывающее окно с параметрами, чтобы указать размер требуемого образца (количество строк) и метод выборки (первые записи, последние записи или случайный набор).
Просмотр сводной статистики
При загрузке Wrangler данных отображается описательный обзор выбранного кадра данных на панели "Сводка". В этом обзоре содержатся сведения о измерениях кадра данных, отсутствующих значениях и т. д. При выборе любого столбца в сетке Data Wrangler появится панель сводки для обновления и отображения описательной статистики о конкретном столбце. Краткие сведения о каждом столбце также доступны в заголовке.
Совет
Статистика и визуальные элементы для столбцов (как на панели сводки, так и в заголовках столбцов) зависят от типа данных столбца. Например, в заголовке столбца появится бинно-гистограмма числового столбца, только если столбец является числовым типом. Используйте панель управления для переадресовки типов столбцов для наиболее точного отображения.
Просмотр операций очистки данных
Список действий по очистке данных можно найти на панели управления. (Меньший выбор одинаковых операций доступен в меню каждого заголовка столбца.) На панели управления выбор шага очистки данных предложит предоставить целевой столбец или столбцы, а также все необходимые параметры для выполнения шага. Например, запрос на масштабирование столбца числовым образом требует нового диапазона значений.
Предварительный просмотр и применение операций
Результаты выбранной операции будут автоматически отображаться в сетке отображения Data Wrangler, а соответствующий код автоматически появится на панели под сеткой. Чтобы зафиксировать предварительный просмотр кода, выберите "Применить" в любом месте. Чтобы избавиться от предварительного кода и попробовать новую операцию, выберите "Dis карта".
После применения операции сетка отображения данных Wrangler и обновление сводной статистики для отражения результатов. Код отображается в запущенном списке зафиксированных операций, расположенных на панели "Очистка".
Совет
Вы всегда можете отменить последний примененный шаг с значком корзины рядом с ним, который отображается при наведении курсора на этот шаг на панели шагов очистки.
В следующей таблице перечислены операции, поддерживаемые Wrangler data:
Операция | Description |
---|---|
Сортировать | Сортировка столбца по возрастанию или убыванию |
Фильтр | Фильтрация строк на основе одного или нескольких условий |
Одно горячее кодирование | Создание новых столбцов для каждого уникального значения в существующем столбце, указывающее на наличие или отсутствие этих значений на строку |
Одно горячее кодирование с разделителем | Разделение и одно горячее кодирование категориальных данных с помощью разделителя |
Изменение типа столбца | Изменение типа данных столбца |
Удаление столбца | Удаление одного или нескольких столбцов |
Выбор столбца | Выберите один или несколько столбцов, чтобы сохранить и удалить остальные |
Переименование столбца | Переименование столбца |
Удаление отсутствующих значений | Удаление строк с отсутствующими значениями |
Удаление повторяющихся строк | Удаление всех строк с повторяющимися значениями в одном или нескольких столбцах |
Заполнение отсутствующих значений | Замените ячейки отсутствующими значениями новым значением |
Поиск и замена | Замените ячейки точным шаблоном сопоставления |
Группировка по столбцам и статистическим выражениям | Группировать по значениям столбцов и агрегированным результатам |
Пробелы в полосе | Удаление пробелов из начала и конца текста |
Разделение текста | Разделение столбца на несколько столбцов на основе определяемого пользователем разделителя |
Преобразование текста в строчные буквы | Преобразование текста в строчные буквы |
Преобразование текста в верхний регистр | Преобразование текста в ВЕРХНИЙ РЕГИСТР |
Минимальное или максимальное масштабирование значений | Масштабирование числового столбца между минимальным и максимальным значением |
Заливка флэш-памяти | Автоматическое создание нового столбца на основе примеров, производных от существующего столбца |
Сохранение и экспорт кода
Панель инструментов над сеткой отображения данных Wrangler предоставляет параметры для сохранения созданного кода. Вы можете скопировать код в буфер обмена или экспортировать его в записную книжку в виде функции. Экспорт кода закрывает Data Wrangler и добавляет новую функцию в ячейку кода в записной книжке. Вы также можете скачать очищенный кадр данных в виде CSV-файла.
Совет
Код, созданный Wrangler Data Wrangler, не будет применяться, пока не будет вручную запущена новая ячейка, и она не перезаписывает исходный кадр данных.
Связанный контент
- Сведения о том, как попробовать Data Wrangler в Кадрах данных Spark, см . в этой статье.
- Сведения о том, как попробовать Data Wrangler в VS Code, см. в разделе "Данные Wrangler" в VS Code.
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по