실시간 인텔리전스에서 지원하는 데이터 형식
데이터 수집은 데이터를 테이블에 추가하고 실시간 인텔리전스에서 쿼리에 사용할 수 있도록 지원하는 프로세스입니다. 쿼리에서 수집 이외의 모든 수집 메서드의 경우 데이터는 지원되는 형식 중 하나로 지정해야 합니다. 다음 표에서는 실시간 인텔리전스에서 데이터 수집을 위해 지원하는 형식을 나열하고 설명합니다.
참고 항목
데이터를 수집하기 전에 데이터의 형식이 올바르게 지정되었는지 확인하고 필요한 필드를 정의합니다. 기본 유효성 검사기를 사용하여 형식이 유효한지 확인하는 것이 좋습니다. 예를 들어 CSV 또는 JSON 파일을 확인하는 데 유용한 다음과 같은 유효성 검사기를 찾을 수 있습니다.
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
수집이 실패할 수 있는 이유에 대한 자세한 내용은 수집 오류를 참조하세요.
형식 | 내선 번호 | Description |
---|---|---|
ApacheAvro | .avro |
논리적 형식에 대한 지원을 포함하는 AVRO 형식 다음 압축 코덱이 지원됩니다. null , deflate 및 snappy apacheavro 형식의 판독기 구현은 공식 Apache Avro 라이브러리를 기반으로 합니다. Event Hubs 캡처 Avro 파일 수집에 대한 자세한 내용은 Event Hubs 캡처 Avro 파일에 대한 스키마 매핑을 참조하세요. |
Avro | .avro |
.NET 라이브러리를 기반으로 하는 AVRO 형식에 대한 레거시 구현입니다. 다음 압축 코덱이 지원됩니다. null , deflate (snappy 의 경우 - ApacheAvro 데이터 형식 사용). |
CSV | .csv |
쉼표(, )로 구분된 값을 사용하는 텍스트 파일입니다. RFC 4180: CSV(쉼표로 구분된 값) 파일의 일반 형식 및 MIME 형식을 참조하세요. |
JSON | .json |
JSON 개체가 \n 또는 \r\n 으로 구분된 텍스트 파일입니다. JSON Lines(JSONL)를 참조하세요. |
MultiJSON | .multijson |
JSON 속성 모음 배열(각각 레코드를 나타냄) 또는 공백으로 구분된 여러 속성 모음(\n 또는 \r\n )이 있는 텍스트 파일입니다. 각 속성 모음을 여러 줄에 분배할 수 있습니다. 데이터가 속성 모음이 아닌 한 이 형식이 JSON 보다 선호됩니다. |
ORC | .orc |
ORC 파일 |
Parquet | .parquet |
Parquet 파일. |
PSV | .psv |
파이프(| )로 구분된 값을 사용하는 텍스트 파일입니다. |
RAW | .raw |
전체 내용이 단일 문자열 값인 텍스트 파일입니다. |
SCsv | .scsv |
세미콜론(; )으로 구분된 값을 사용하는 텍스트 파일입니다. |
SOHsv | .sohsv |
SOH로 구분된 값을 사용하는 텍스트 파일입니다. (SOH는 ASCII 코드 포인트 1이며, 이 형식은 Hive on HDInsight에서 사용됩니다.) |
TSV | .tsv |
탭(\t )으로 구분된 값을 사용하는 텍스트 파일입니다. |
TSVE | .tsv |
탭(\t )으로 구분된 값을 사용하는 텍스트 파일입니다. 백슬래시(\ ) 문자가 이스케이프에 사용됩니다. |
TXT | .txt |
\n 으로 구분된 줄을 사용하는 텍스트 파일입니다. 빈 줄은 건너뜁니다. |
W3CLOGFILE | .log |
W3C에서 표준화된 웹 로그 파일 형식 |
참고 항목
- 일반 Parquet 형식 파일(예: Apache Iceberg, Apache Hudi) 위에 ACID 기능을 제공하는 데이터 스토리지 시스템의 수집은 지원되지 않습니다.
- 스키마 없는 Avro는 지원되지 않습니다.
지원되는 데이터 압축 형식
Blob과 파일은 다음 압축 알고리즘 중 하나를 통해 압축할 수 있습니다.
압축 | 내선 번호 |
---|---|
GZip | .gz |
Zip | .zip |
Blob 또는 파일 이름에 확장을 추가하여 압축을 표시합니다.
다음은 그 예입니다.
MyData.csv.zip
은 CSV로 포맷되고 ZIP으로 압축된 Blob 또는 파일을 나타냅니다(보관 또는 단일 파일).MyData.json.gz
는 JSON으로 포맷되고, GZip으로 압축된 Blob 또는 파일을 나타냅니다.
형식 확장명을 포함하지 않고 압축(예: MyData.zip
)만 포함한 블로그 또는 파일 이름도 지원됩니다. 이 경우 파일 형식을 유추할 수 없으므로 수집 속성으로 지정해야 합니다.
참고 항목
- 일부 압축 형식은 압축된 스트림의 일부로 원래 파일 확장명을 추적합니다. 이 확장명은 일반적으로 파일 형식을 확인하는 경우에는 무시됩니다. 압축된 Blob 또는 파일의 이름에서 파일 형식을 확인할 수 없는 경우
format
수집 속성을 통해 이를 지정해야 합니다. Parquet
,AVRO
및ORC
형식에서 사용하는 내부(청크 수준) 압축 코덱과 혼동해서는 안 됩니다. 일반적으로 내부 압축 이름은 파일 형식 확장 이전에 파일 이름에 추가됩니다(예:file1.gz.parquet
,file1.snappy.avro
등).