Поделиться через


Загрузка данных с помощью внешнего расположения каталога Unity

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

В этой статье описывается, как использовать пользовательский интерфейс добавления данных для создания управляемой таблицы из данных в Azure Data Lake Storage 2-го поколения с помощью внешнего расположения каталога Unity. Внешнее расположение — это объект, в котором путь к облачному хранилищу объединен с учетными данными хранилища, обеспечивающими доступ к этому пути к облачному хранилищу.

Подготовка к работе

Перед началом работы убедитесь, что у вас есть такие компоненты.

Типы файлов

Следующие типы файлов не поддерживаются:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO;
  • Parquet

Шаг 1. Подтверждение доступа к внешнему расположению

Чтобы подтвердить доступ к внешнему расположению, сделайте следующее:

  1. На боковой панели рабочей области Azure Databricks щелкните "Каталог".
  2. В обозревателе каталогов щелкните внешние расположения внешних данных>.

Шаг 2. Создание управляемой таблицы

Чтобы создать управляемую таблицу, сделайте следующее:

  1. На боковой панели рабочей области нажмите кнопку +Создать>данные.

  2. В пользовательском интерфейсе добавления данных щелкните Azure Data Lake Storage.

  3. Выберите внешнее расположение из раскрывающегося списка.

  4. Выберите папки и файлы, которые нужно загрузить в Azure Databricks, а затем щелкните "Предварительная версия".

  5. Выберите каталог и схему из раскрывающихся списков.

  6. (Необязательно) Измените имя таблицы.

  7. (Необязательно) Чтобы задать расширенные параметры форматирования по типу файла, нажмите кнопку "Дополнительные атрибуты", отключите автоматическое определение типа файла и выберите тип файла.

    Список параметров формата см. в следующем разделе.

  8. (Необязательно) Чтобы изменить имя столбца, щелкните поле ввода в верхней части столбца.

    Имена столбцов не поддерживают запятые, обратные очки или символы юникода (например, эмодзи).

  9. (Необязательно) Чтобы изменить типы столбцов, щелкните значок с типом.

  10. Нажмите кнопку "Создать таблицу".

Параметры форматирования типа файла

Доступны следующие параметры формата в зависимости от типа файла:

Параметр форматирования Description Поддерживаемые типы файлов
Column delimiter Символ разделителя между столбцами. Допускается только один символ, обратная косая черта не поддерживается.

По умолчанию используется запятая.
CSV
Escape character Escape-символ, используемый при анализе данных.

По умолчанию используется кавычка.
CSV
First row contains the header Этот параметр указывает, содержит ли файл заголовок.

Включено по умолчанию.
CSV
Automatically detect file type Автоматически определять тип файла. По умолчанию — true. XML
Automatically detect column types Автоматически определять типы столбцов из содержимого файла. Типы можно изменить в таблице предварительного просмотра. Если для этого параметра задано значение false, все типы столбцов выводятся в формате STRING.

Включено по умолчанию.
* CSV

* JSON
* XML
Rows span multiple lines Может ли значение столбца охватывать несколько строк в файле.

Выключено по умолчанию.
* CSV

* JSON
Merge the schema across multiple files Следует ли выводить схему по нескольким файлам и объединять схему каждого файла.

Включено по умолчанию.
CSV
Allow comments Разрешены ли комментарии в файле.

Включено по умолчанию.
JSON
Allow single quotes Разрешены ли в файле одинарные кавычки.

Включено по умолчанию.
JSON
Infer timestamp Следует ли пытаться определить строки метки времени как TimestampType.

Включено по умолчанию.
JSON
Rescued data column Следует ли сохранять столбцы, которые не соответствуют схеме. Дополнительные сведения см. в разделе "Что такое спасенных столбцов данных?".

Включено по умолчанию.
* CSV

* JSON
* Avro
*Паркет
Exclude attribute Следует ли исключать атрибуты в элементах. По умолчанию — false. XML
Attribute prefix Префикс атрибутов для отличия атрибутов и элементов. По умолчанию — _. XML

Типы данных столбцов

Поддерживаются следующие типы данных столбцов. Дополнительные сведения о конкретных типах данных см. в разделе Типы данных SQL.

Тип данных Description
BIGINT Восьмибайтовые целые числа со знаком.
BOOLEAN Логические значения (true, false).
DATE и день без часового пояса.
DECIMAL (P,S) Числа с максимальной точностью P и фиксированным масштабом S.
DOUBLE Восьмибайтовые числа с плавающей запятой двойной точности.
STRING Значения строки символов.
TIMESTAMP Значения, содержащие значения полей "Год", "Месяц", "День", "Час", "Минута" и "Секунда" с указанием местного часового пояса сеанса.

Известные проблемы

  • Могут возникнуть проблемы со специальными символами в сложных типах данных, таких как объект JSON с ключом, содержащим обратную черту или двоеточие.
  • Для некоторых JSON-файлов может потребоваться вручную выбрать JSON для типа файла. Чтобы вручную выбрать тип файла после выбора файлов, нажмите кнопку "Дополнительные атрибуты", отключите автоматическое определение типа файла и выберите JSON.
  • Вложенные метки времени и десятичные знаки внутри сложных типов могут столкнуться с проблемами.