Преобразование в TSV

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Преобразовывает входные данные в формат с разделением табуляциями.

Категория: преобразования форматов данных

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль convert to TSV в Машинное обучение Studio (классическая модель) для преобразования любого набора данных из внутреннего формата, используемого всеми модулями Машинное обучение Studio (классическая модель), в неструктурированный файл в формате с разделителями-табуляторами.

Файлы, разделенные табуляцией, (TSV) совместимы со многими внешними средствами, включая:

  • R и Python

  • Excel и PowerPivot

  • Все реляционные базы данных

Например, если в эксперименте есть промежуточный набор данных, который вы хотите сохранить для повторного использования в другом инструменте или вызвать из кода, его можно преобразовать в формат TSV, а затем щелкнуть правой кнопкой мыши преобразованный набор данных, чтобы получить код Python, необходимый для доступа к набору данных.

Использование Convert to TSV

Используйте модуль Convert to TSV каждый раз, когда необходимо скачать набор данных в формате с разделителями-символами табуляции.

  1. Добавьте в свой эксперимент преобразуйте преобразование в TSV . этот модуль можно найти в категории преобразования форматов данных в Машинное обучение Studio (классическая модель).

  2. Подключение модуль в другой датсет или в модуль, который выводит табличный набор данных.

  3. Запустите эксперимент или щелкните правой кнопкой мыши только модуль преобразовать в TSV и выберите пункт Выполнить выбранное.

Результаты

После завершения преобразования можно открыть набор данных, вызвать его из кода R или Python, использовать его в записной книжке Jupyter или сохранить в локальном файле.

Если вы хотите загрузить набор данных, дважды щелкните его и укажите, нужно ли открыть или сохранить датсет.

  • Если выбран вариант Открыть, набор данных загружается с помощью любого инструмента, используемого компьютером по умолчанию для открытия. TSV файлов. Обычно это Microsoft Excel.

  • При выборе параметра скачать набор данныхпо умолчанию файл сохраняется с именем модуля и идентификатором GUID, представляющим идентификатор рабочей области. Однако можно выбрать параметр Сохранить как во время загрузки и изменить имя файла или расположение.

Примеры

Хотя нет примеров, относящихся к этому формату, вы можете увидеть примеры использования преобразования формата, изучив эти эксперименты в Коллекция решений ии Azure:

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

Требования к формату TSV

TSV (значения, разделенные табуляцией) — это текстовый формат, используемый для хранения данных в виде таблицы. Это очень похоже на формат CSV, но разделителем является табуляция, а не запятая.

Формат TSV — это полезная альтернатива распространенному формату CSV, если данные содержат запятые. Запятые очень распространены в текстовых данных и используются в европейском числовом формате.

Одна из проблем формата TSV заключается в том, что табуляцию часто считают пустым пространством в неструктурированном тексте. Помимо этого стандарт IANA для TSV способствует чистому и точному синтаксического анализу файлов TSV с помощью запрета на табуляцию внутри полей.

обратите внимание на следующие требования для TSV-файлов в Машинное обучение Studio (классическая модель):

  • Модуль Преобразование в TSV поддерживает вывод одной строки заголовка, если набор данных содержит имена столбцов.

  • Поставщик TSV поддерживает только кодировку символов UTF-8.

  • При чтении или записи файлов TSV производительность может быть ниже, чем для других форматов (например, CSV).

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Входной набор данных

Выходные данные

Имя Тип Описание
Набор данных результатов GenericTsv Выходной набор данных

См. также раздел

Преобразование формата данных
Список модулей в алфавитном порядке