Поделиться через


Создание или изменение таблицы с помощью отправки файла

Страница создания или изменения таблицы с помощью страницы отправки файлов позволяет отправлять файлы CSV, TSV или JSON, Avro, Parquet или текстовые файлы для создания или перезаписи управляемой таблицы Delta Lake.

Управляемые таблицы Delta можно создать в каталоге Unity или в хранилище метаданных Hive.

Примечание.

Кроме того, можно использовать пользовательский интерфейс добавления данных или COPY INTO для загрузки файлов из облачного хранилища.

Внимание

С помощью пользовательского интерфейса можно создать таблицу Delta, импортируя небольшие CSV-файлы, TSV, JSON, Avro, Parquet или текстовые файлы с локального компьютера.

  • Страница "Создание или изменение таблицы с помощью отправки файлов " поддерживает отправку до 10 файлов за раз.
  • Общий размер отправленных файлов должен составлять 2 гигабайта.
  • Файл должен быть CSV,TSV, JSON, Avro, Parquet или текстовый файл и иметь расширение ".csv", "tsv" (или ".tab"), ".json", ".avro", ".parquet" или ".txt".
  • Сжатые файлы, например в форматах zip и tar, не поддерживаются.

Отправка файла

  1. Нажмите кнопку Значок "Добавить > данные".
  2. Нажмите кнопку "Создать" или изменить таблицу.
  3. Нажмите кнопку браузера файлов или перетащите файлы непосредственно в зоне удаления.

Примечание.

Импортированные файлы отправляются в безопасное внутреннее расположение в вашей учетной записи, в котором ежедневно очищаются ненужные файлы.

Предварительный просмотр, настройка и создание таблицы

Вы можете передать данные в промежуточную область без подключения к вычислительным ресурсам, но для предварительного просмотра и настройки таблицы необходимо выбрать активный вычислительный ресурс.

При настройке параметров отправленной таблицы можно предварительно просмотреть 50 строк данных. Щелкните сетку или кнопки списка под именем файла, чтобы переключить представление данных.

Azure Databricks хранит файлы данных для управляемых таблиц в расположениях, настроенных для содержащей схемы. Для создания таблицы в схеме требуются необходимые разрешения.

Выберите нужную схему, в которой нужно создать таблицу, выполнив следующие действия:

  1. (Только для рабочих областей с поддержкой каталога Unity) Вы можете выбрать каталог или устаревшую версию hive_metastore.
  2. Выберите схему.
  3. (Необязательно) Измените имя таблицы.

Примечание.

В раскрывающемся списке можно выбрать перезаписать существующую таблицу или создать новую таблицу. Операции, пытающиеся создать таблицы с конфликтами имен, отображают сообщение об ошибке.

Перед созданием таблицы можно настроить параметры или столбцы .

Чтобы создать таблицу, щелкните Создать в нижней части страницы.

Параметры форматирования

Параметры форматирования зависят от формата отправленного файла. Общие параметры форматирования отображаются в строке заголовка, а в диалоговом окне "Расширенные атрибуты" доступны менее часто используемые параметры.

  • Для CSV доступны следующие параметры:
    • Первая строка содержит заголовок (включено по умолчанию): этот параметр указывает, содержит ли CSV- или TSV-файл заголовок.
    • Разделитель столбцов: символ разделения между столбцами. Допускается только один символ, обратная косая черта не поддерживается. Разделителем по умолчанию для CSV-файлов является запятая.
    • Автоматическое определение типов столбцов (включено по умолчанию): автоматическое определение типов столбцов по содержимому файла. Типы можно изменить в таблице предварительного просмотра. Если для этого параметра задано значение false, все типы столбцов выводятся в формат STRING.
    • Поддержка нескольких строк (отключено по умолчанию): может ли значение столбца состоять из нескольких строк в файле.
    • Слияние схемы между несколькими файлами: следует ли выводить схему между несколькими файлами и объединять схему каждого файла. При отключении используется схема из одного файла.
  • Для JSON доступны следующие параметры:
    • Автоматическое определение типов столбцов (включено по умолчанию): автоматическое определение типов столбцов по содержимому файла. Типы можно изменить в таблице предварительного просмотра. Если для этого параметра задано значение false, все типы столбцов выводятся в формат STRING.
    • Строки охватывают несколько строк (включено по умолчанию): может ли значение столбца охватывать несколько строк в файле.
    • Разрешить комментарии (включено по умолчанию): разрешены ли комментарии в файле.
    • Разрешить одинарные кавычки (включено по умолчанию): разрешены ли в файле одинарные кавычки.
    • Метка времени вывода (включена по умолчанию): следует ли пытаться выводить строки метки времени как TimestampType.
  • Для JSON доступны следующие параметры:
    • Автоматическое определение типов столбцов (включено по умолчанию): автоматическое определение типов столбцов по содержимому файла. Типы можно изменить в таблице предварительного просмотра. Если для этого параметра задано значение false, все типы столбцов выводятся в формат STRING.
    • Поддержка нескольких строк (отключено по умолчанию): может ли значение столбца состоять из нескольких строк в файле.
    • Разрешить комментарии , разрешены ли комментарии в файле.
    • Разрешить одинарные кавычки: разрешены ли в файле одиночные кавычки.
    • Метка времени вывода: следует ли пытаться выводить строки метки времени как TimestampType.

При изменении параметров форматирования предварительный просмотр данных обновляется автоматически.

Примечание.

При отправке нескольких файлов применяются следующие правила:

  • Параметры заголовка применяются ко всем файлам. Убедитесь, что заголовки постоянно отсутствуют или присутствуют во всех отправленных файлах, чтобы избежать потери данных.
  • Отправленные файлы объединяются путем добавления всех данных в виде строк в целевую таблицу. Присоединение или объединение записей во время отправки файлов не поддерживается.

Имена и типы столбцов

Можно изменить имена и типы столбцов.

  • Чтобы изменить типы, щелкните значок с типом.

    Примечание.

    Не удается изменить вложенные типы для STRUCT или ARRAY.

  • Чтобы изменить название столбца, щелкните поле ввода в его верхней части.

    В названиях столбцов не поддерживаются запятые, обратные косые черты или символы Юникода (например, эмодзи).

Типы данных столбцов по умолчанию выводятся для CSV-файлов и JSON. Все столбцы можно интерпретировать как тип STRING, отключив параметр Дополнительные атрибуты>Automatically detect column types (Автоматически определять типы столбцов).

Примечание.

  • Вывод схемы максимально точно определяет типы столбцов. Изменение типов столбцов может привести к приведения некоторых значений, если значение не может быть правильно приведение NULL к целевому типу данных. Приведение столбцов BIGINT к типам DATE и TIMESTAMP не поддерживается. Databricks рекомендует сначала создать таблицу, а затем преобразовать такие столбцы с помощью функций SQL.
  • Для поддержки имен столбцов таблицы со специальными символами, страница "Создание или изменение таблицы с помощью страницы отправки файла" использует сопоставление столбцов.
  • Чтобы добавить примечания к столбцам, создайте таблицу и перейдите в обозреватель каталогов, где можно добавить примечания.

Поддерживаемые типы данных

Страница "Создание или изменение таблицы с помощью отправки файлов" поддерживает следующие типы данных. Дополнительные сведения о конкретных типах данных см. в разделе Типы данных SQL.

Тип данных Description
BIGINT Восьмибайтовые целые числа со знаком.
BOOLEAN Логические значения (true, false).
DATE Значения, содержащие значения полей "Год", "Месяц" и "День" без указания часового пояса.
DOUBLE Восьмибайтовые числа с плавающей запятой двойной точности.
STRING Значения строки символов.
TIMESTAMP Значения, содержащие значения полей "Год", "Месяц", "День", "Час", "Минута" и "Секунда" с указанием местного часового пояса сеанса.
STRUCT Значения со структурой, описанной последовательностью полей.
ARRAY Значения, состоящие из последовательности элементов с типом
elementType.
DECIMAL(P,S) Числа с максимальной точностью P и фиксированным масштабом S.

Известные проблемы

Приведение BIGINT к неприводимым типам DATE (например, даты в формате "ГГГГ"), может вызывать ошибки.