Загрузка данных с помощью внешнего расположения каталога Unity
Внимание
Эта функция предоставляется в режиме общедоступной предварительной версии.
В этой статье описывается, как использовать пользовательский интерфейс добавления данных для создания управляемой таблицы из данных в Azure Data Lake Storage 2-го поколения с помощью внешнего расположения каталога Unity. Внешнее расположение — это объект, в котором путь к облачному хранилищу объединен с учетными данными хранилища, обеспечивающими доступ к этому пути к облачному хранилищу.
Подготовка к работе
Перед началом работы убедитесь, что у вас есть такие компоненты.
- Рабочая область с включенным каталогом Unity. Дополнительные сведения см. в разделе "Настройка каталога Unity" и управление ими.
- Привилегия
READ FILES
во внешнем расположении. Дополнительные сведения см. в статье "Создание внешнего расположения для подключения облачного хранилища к Azure Databricks". - Привилегия
CREATE TABLE
схемы, в которой требуется создать управляемую таблицу,USE SCHEMA
привилегию схемы иUSE CATALOG
привилегию родительского каталога. Дополнительные сведения см. в разделе "Привилегии каталога Unity" и защищаемые объекты.
Типы файлов
Следующие типы файлов не поддерживаются:
- CSV
- TSV
- JSON
- XML
- AVRO;
- Parquet
Шаг 1. Подтверждение доступа к внешнему расположению
Чтобы подтвердить доступ к внешнему расположению, сделайте следующее:
- На боковой панели рабочей области Azure Databricks щелкните "Каталог".
- В обозревателе каталогов щелкните внешние расположения внешних данных>.
Шаг 2. Создание управляемой таблицы
Чтобы создать управляемую таблицу, сделайте следующее:
На боковой панели рабочей области нажмите кнопку +Создать>данные.
В пользовательском интерфейсе добавления данных щелкните Azure Data Lake Storage.
Выберите внешнее расположение из раскрывающегося списка.
Выберите папки и файлы, которые нужно загрузить в Azure Databricks, а затем щелкните "Предварительная версия".
Выберите каталог и схему из раскрывающихся списков.
(Необязательно) Измените имя таблицы.
(Необязательно) Чтобы задать расширенные параметры форматирования по типу файла, нажмите кнопку "Дополнительные атрибуты", отключите автоматическое определение типа файла и выберите тип файла.
Список параметров формата см. в следующем разделе.
(Необязательно) Чтобы изменить имя столбца, щелкните поле ввода в верхней части столбца.
Имена столбцов не поддерживают запятые, обратные очки или символы юникода (например, эмодзи).
(Необязательно) Чтобы изменить типы столбцов, щелкните значок с типом.
Нажмите кнопку "Создать таблицу".
Параметры форматирования типа файла
Доступны следующие параметры формата в зависимости от типа файла:
Параметр форматирования | Description | Поддерживаемые типы файлов |
---|---|---|
Column delimiter |
Символ разделителя между столбцами. Допускается только один символ, обратная косая черта не поддерживается. По умолчанию используется запятая. |
CSV |
Escape character |
Escape-символ, используемый при анализе данных. По умолчанию используется кавычка. |
CSV |
First row contains the header |
Этот параметр указывает, содержит ли файл заголовок. Включено по умолчанию. |
CSV |
Automatically detect file type |
Автоматически определять тип файла. По умолчанию — true . |
XML |
Automatically detect column types |
Автоматически определять типы столбцов из содержимого файла. Типы можно изменить в таблице предварительного просмотра. Если для этого параметра задано значение false, все типы столбцов выводятся в формате STRING. Включено по умолчанию. |
- CSV — JSON - XML |
Rows span multiple lines |
Может ли значение столбца охватывать несколько строк в файле. Выключено по умолчанию. |
- CSV — JSON |
Merge the schema across multiple files |
Следует ли выводить схему по нескольким файлам и объединять схему каждого файла. Включено по умолчанию. |
CSV |
Allow comments |
Разрешены ли комментарии в файле. Включено по умолчанию. |
JSON |
Allow single quotes |
Разрешены ли в файле одинарные кавычки. Включено по умолчанию. |
JSON |
Infer timestamp |
Следует ли пытаться определить строки метки времени как TimestampType .Включено по умолчанию. |
JSON |
Rescued data column |
Следует ли сохранять столбцы, которые не соответствуют схеме. Дополнительные сведения см. в разделе "Что такое спасенных столбцов данных?". Включено по умолчанию. |
- CSV — JSON - Avro -Паркет |
Exclude attribute |
Следует ли исключать атрибуты в элементах. По умолчанию — false . |
XML |
Attribute prefix |
Префикс атрибутов для отличия атрибутов и элементов. По умолчанию — _ . |
XML |
Типы данных столбцов
Поддерживаются следующие типы данных столбцов. Дополнительные сведения о конкретных типах данных см. в разделе Типы данных SQL.
Тип данных | Description |
---|---|
BIGINT |
Восьмибайтовые целые числа со знаком. |
BOOLEAN |
Логические значения (true , false ). |
DATE |
и день без часового пояса. |
DECIMAL (P,S) |
Числа с максимальной точностью P и фиксированным масштабом S . |
DOUBLE |
Восьмибайтовые числа с плавающей запятой двойной точности. |
STRING |
Значения строки символов. |
TIMESTAMP |
Значения, содержащие значения полей "Год", "Месяц", "День", "Час", "Минута" и "Секунда" с указанием местного часового пояса сеанса. |
Известные проблемы
- Могут возникнуть проблемы со специальными символами в сложных типах данных, таких как объект JSON с ключом, содержащим обратную черту или двоеточие.
- Для некоторых JSON-файлов может потребоваться вручную выбрать JSON для типа файла. Чтобы вручную выбрать тип файла после выбора файлов, нажмите кнопку "Дополнительные атрибуты", отключите автоматическое определение типа файла и выберите JSON.
- Вложенные метки времени и десятичные знаки внутри сложных типов могут столкнуться с проблемами.