Поделиться через


Форматы данных, поддерживаемые аналитикой в режиме реального времени

Прием данных — это процесс, с помощью которого данные добавляются в таблицу и предоставляются для запроса в аналитике в режиме реального времени. Для всех методов приема, кроме приема по запросу, данные необходимо преобразовать в один из поддерживаемых форматов. В следующей таблице перечислены и описаны форматы, поддерживаемые аналитикой в режиме реального времени для приема данных.

Примечание.

Перед приемом данных убедитесь, что данные правильно отформатированы и определяют ожидаемые поля. Для подтверждения допустимости формата рекомендуется использовать предпочтительный проверяющий элемент управления. Например, следующие проверяющие элементы управления могут пригодиться для проверки файлов CSV или JSON:

Дополнительные сведения о том, почему прием может завершиться ошибкой, см. в статье об ошибках приема.

Формат Расширение Description
ApacheAvro .avro Формат AVRO с поддержкой логических типов. Сейчас поддерживаются перечисленные ниже кодеки: null, deflate и snappy. Реализация модуля чтения в формате apacheavro основана на официальной библиотеке Apache Avro. Сведения о приеме файлов Avro в Центрах событий см. в разделе "Сопоставление схем" для файлов Avro для центров событий.
Avro .avro Устаревшая реализация для формата AVRO на основе библиотеки .NET. Сейчас поддерживаются перечисленные ниже кодеки: null, deflate (для snappy — используйте формат данных ApacheAvro).
CSV .csv Текстовый файл, содержащий значения с разделителями-запятыми (,). См. RFC 4180: Общий формат и тип MIME для файлов в формате значений, разделенных запятой (CSV).
JSON .json Текстовый файл с объектами JSON, разделенными символами \n или \r\n. См. описание JSON Lines (JSONL).
MultiJSON .multijson Текстовый файл с массивом JSON, содержащим контейнеры свойств (каждый из которых представляет запись), или любым количеством контейнеров свойств, разделенных пробелами (\n или \r\n). Каждый контейнер свойств может распределяться по нескольким строкам Этот формат предпочтителен JSON, если данные не являются неуправляемыми пакетами.
ORC .orc Файл ORC.
Parquet .parquet Файл Parquet.
PSV .psv Текстовый файл, содержащий значения, разделенные символами вертикальной черты (|).
НЕОБРАБОТАННЫЕ .raw Текстовый файл, все содержимое которого является одним строковым значением.
SCsv .scsv Текстовый файл, содержащий значения, разделенные символами точки с запятой (;).
SOHsv .sohsv Текстовый файл, содержащий значения, разделенные символами начала заголовка. (Символ начала заголовка является кодовой точкой ASCII 1; этот формат используется для Hive в HDInsight.)
TSV .tsv Текстовый файл, содержащий значения, разделенные символами табуляции (\t).
TSVE .tsv Текстовый файл, содержащий значения, разделенные символами табуляции (\t). Для экранирования используется символ обратной косой черты (\).
TXT .txt Текстовый файл, строки в котором разделены символами \n. Пустые строки пропускаются.
W3CLOGFILE .log Формат файла веб-журнала, стандартизированный W3C.

Примечание.

  • Прием из систем хранения данных, которые предоставляют функциональные возможности ACID поверх обычных файлов формата Parquet (например, Apache Iceberg, Apache Hudi) не поддерживаются.
  • Avro без схемы не поддерживается.

Поддерживаемые форматы сжатия данных

BLOB-объекты и файлы можно при желании сжать с помощью любого из следующих алгоритмов:

Сжатие Расширение
GZip .gz
Почтовый индекс .zip

Укажите сжатие, добавив расширение в имя BLOB-объекта или файла.

Например:

  • MyData.csv.zip указывает BLOB-объект или файл в формате CSV, сжатый с помощью ZIP (архив или отдельный файл)
  • MyData.json.gz указывает BLOB-объект или файл в формате JSON, сжатый с помощью GZip.

Также поддерживаются имена BLOB-объектов или файлов, которые не включают расширение формата, а только указывают на сжатие (например, MyData.zip). В этом случае формат файла должен быть указан в качестве свойства приема, так как он не может быть выведен.

Примечание.

  • Некоторые форматы сжатия сохраняют исходное расширение файла в потоке сжатых данных. Эти сведения о расширении обычно игнорируются при определении формата файла. Если формат файла нельзя определить по имени сжатого большого двоичного объекта или файла, его нужно указать в свойстве приема format.
  • Не следует путать с внутренним кодеком сжатия (на уровне блоков), который используется в форматах Parquet, AVRO и ORC. Внутреннее имя сжатия обычно добавляется к имени файла перед расширением формата файла, например: file1.gz.parquet, file1.snappy.avro и т. д.