CREATE EXTERNAL FILE FORMAT (Transact-SQL)

Si applica a: SQL Server 2016 (13.x) e versioni successive del database SQL di Azure Istanza gestita di SQL diAzure Azure Synapse Analytics Platform System (PDW)SQL in Microsoft Fabric

Crea un oggetto di formato file esterno che definisce dati esterni memorizzati in Hadoop, Archiviazione BLOB di Azure, Azure Data Lake Store, OneLake in Microsoft Fabric o per i flussi di input e output associati a flussi esterni. La creazione di un formato di file esterno è un prerequisito per la creazione di una tabella esterna. Creando un formato di file esterno, si specifica il layout effettivo dei dati a cui fa riferimento una tabella esterna. Per creare una Tabella Esterna, vedi CREATE EXTERNAL TABLE (Transact-SQL).

Sono supportati i seguenti formati di file:

Testo delimitato

Il database SQL in Microsoft Fabric supporta solo il formato CSV di testo delimitato.
Hive RCFile

Non si applica ad Azure Synapse Analytics, Istanza gestita di SQL di Azure, database SQL di Azure, SQL database in Microsoft Fabric o SQL Server 2022 (16.x).
Orc alveare

Non si applica ad Azure Synapse Analytics, Istanza gestita di SQL di Azure, database SQL di Azure, SQL database in Microsoft Fabric o SQL Server 2022 (16.x).
Parquet
JSON

Si applica solo a SQL Edge di Azure. Per informazioni sull'uso OPENROWSET di per importare dati JSON in altre piattaforme, vedere Importare documenti JSON in file SQL Server o Eseguire query su file JSON usando il pool SQL serverless in Azure Synapse Analytics.
Delta

Si applica solo ai pool SQL serverless in Azure Synapse Analytics, database SQL di Azure, SQL Server 2022 (16.x) e versioni successive. È possibile eseguire query su Delta Lake versione 1.0. Le modifiche introdotte da, in Delta Lake 1.2, come la ridenominazione delle colonne non sono supportate. Se si usano le versioni successive di Delta con vettori di eliminazione, checkpoint v2 e altre funzionalità, è consigliabile usare altri motori di query come endpoint di analisi SQL di Microsoft Fabric per Lakehouse.

Convenzioni relative alla sintassi Transact-SQL

Sintassi

-- Create an external file format for DELIMITED (CSV/TSV) files.
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
        FORMAT_TYPE = DELIMITEDTEXT
    [ , FORMAT_OPTIONS ( <format_options> [ ,...n  ] ) ]
    [ , DATA_COMPRESSION = {
           'org.apache.hadoop.io.compress.GzipCodec'
        }
     ]);

<format_options> ::=
{
    FIELD_TERMINATOR = field_terminator
    | STRING_DELIMITER = string_delimiter
    | FIRST_ROW = integer -- Applies to: Azure Synapse Analytics and SQL Server 2022 and later versions
    | DATE_FORMAT = datetime_format
    | USE_TYPE_DEFAULT = { TRUE | FALSE }
    | ENCODING = {'UTF8' | 'UTF16'}
    | PARSER_VERSION = {'parser_version'}

}

--Create an external file format for RC files.
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
    FORMAT_TYPE = RCFILE,
    SERDE_METHOD = {
        'org.apache.hadoop.hive.serde2.columnar.LazyBinaryColumnarSerDe'
      | 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'
    }
    [ , DATA_COMPRESSION = 'org.apache.hadoop.io.compress.DefaultCodec' ]);

--Create an external file format for ORC file.
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
         FORMAT_TYPE = ORC
     [ , DATA_COMPRESSION = {
        'org.apache.hadoop.io.compress.SnappyCodec'
      | 'org.apache.hadoop.io.compress.DefaultCodec' }
    ]);

--Create an external file format for PARQUET files.
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
         FORMAT_TYPE = PARQUET
     [ , DATA_COMPRESSION = {
        'org.apache.hadoop.io.compress.SnappyCodec'
      | 'org.apache.hadoop.io.compress.GzipCodec' }
    ]);

-- Create an external file format for JSON files.
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
    FORMAT_TYPE = JSON
     [ , DATA_COMPRESSION = {
        'org.apache.hadoop.io.compress.SnappyCodec'
      | 'org.apache.hadoop.io.compress.GzipCodec'
      | 'org.apache.hadoop.io.compress.DefaultCodec' }
    ]);

-- Create an external file format for delta table files
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
         FORMAT_TYPE = DELTA
      );

Argomenti

file_format_name

Specifica un nome per il formato di file esterno.

TIPO_FORMATO

Specifica il formato dei dati esterni.

FORMAT_TYPE = PARQUET

specifica un formato Parquet.
FORMAT_TYPE = ORC

Specifica un formato ORC (Optimized Row Columnar). Questa opzione richiede Hive 0.11 o versione successiva nel cluster Hadoop esterno. In Hadoop il formato file ORC offre una migliore qualità di compressione e prestazioni rispetto al formato di file RCFILE.
FORMAT_TYPE = RCFILE, SERDE_METHOD = SERDE_method

Specifica un formato di file columnar di record (RcFile). Questa opzione richiede di specificare un metodo SerDe (Serializer and Deserializer) di Hive. Il requisito è lo stesso se si usa Hive/HiveQL in Hadoop per eseguire query sui file RC. Si noti che il metodo SerDe fa distinzione tra maiuscole e minuscole.

Esempi di definizione di file RC con i due metodi SerDe supportati da PolyBase.
- FORMAT_TYPE = RCFILE, SERDE_METHOD = 'org.apache.hadoop.hive.serde2.columnar.LazyBinaryColumnarSerDe'
- FORMAT_TYPE = RCFILE, SERDE_METHOD = 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'
FORMAT_TYPE = TESTO DELIMITATO

Specifica un formato di testo con delimitatori a colonna, noti anche come terminatori di campo.
FORMAT_TYPE = JSON

Specifica un formato JSON. Si applica solo a SQL Edge di Azure.
FORMAT_TYPE = DELTA

Specifica un formato Delta Lake. Si applica ai pool SQL serverless in Azure Synapse Analytics e SQL Server 2022 (16.x).

FORMAT_OPTIONS

Facoltativo. Solo per i tipi di dati di testo delimitati.

Solo i pool SQL serverless in Azure Synapse Analytics supportano PARSER_VERSION.

I pool SQL serverless non supportano l'opzione DATE_FORMAT .

DATA_COMPRESSION = data_compression_method

Specifica il metodo di compressione dei dati per il file esterno. Quando DATA_COMPRESSION non viene specificato, il valore predefinito è i dati non compressi.

Per funzionare correttamente, i file compressi Gzip devono avere l'estensione del .gz file.

Il DELIMITEDTEXT tipo di formato supporta questo metodo di compressione: DATA_COMPRESSION = org.apache.hadoop.io.compress.GzipCodec

Opzioni per il formato di testo delimitato

Le opzioni di formato descritte in questa sezione sono facoltative e si applicano solo ai file di testo delimitato.

FIELD_TERMINATOR = field_terminator

Si applica solo ai file di testo delimitato. Il carattere di terminazione del campo specifica uno o più caratteri che contrassegnano la fine di ogni campo (colonna) nel file di testo delimitato. Il valore predefinito è il carattere pipe |. Per garantire il supporto, è consigliabile usare uno o più caratteri ASCII.

Esempi:

FIELD_TERMINATOR = '|'
FIELD_TERMINATOR = ' '
FIELD_TERMINATOR = ꞌ\tꞌ
FIELD_TERMINATOR = '~|~'

STRING_DELIMITER

STRING_DELIMITER = *string_delimiter*

Specifica un carattere che racchiude i valori testuali nel file delimitato da testo. Il valore predefinito è la stringa vuota "". Il valore di STRING_DELIMITER è funzionalmente equivalente all'opzione FIELDQUOTE nella OPENROWSET BULK funzione .

Nota

Le tabelle Hadoop nei pool SQL dedicati di Synapse consentono di specificare uno o più caratteri in STRING_DELIMITER. Nel pool SQL serverless è possibile usare un solo carattere.

Esempi:

STRING_DELIMITER = '"'
STRING_DELIMITER = '0x22' (esadecimale virgoletta doppia)
STRING_DELIMITER = '*'
STRING_DELIMITER = ꞌ,ꞌ
STRING_DELIMITER = '0x7E0x7E' (Due tilde, ad esempio , ~~) : supportato nel pool SQL dedicato.

FIRST_ROW = first_row_int

Si applica a: Azure Synapse Analytics, SQL Server 2022 e versioni successive

Specifica il numero di righe che verranno lette prima in tutti i file durante un caricamento di PolyBase. Questo parametro può accettare valori da 1 a 15. Se il valore è impostato su due, la prima riga di ogni file (riga di intestazione) viene ignorata quando i dati vengono caricati. Le righe vengono ignorate in base all'esistenza di caratteri di terminazione della riga (r/n, /r, /n). Quando si usa questa opzione per l'esportazione, le righe vengono aggiunti ai dati per garantire che il file possa essere letto senza perdere dati. Se il valore è impostato su >2, la prima riga esportata è quella dei nomi delle colonne della tabella esterna.

DATE_FORMAT = datetime_format

Specifica un formato personalizzato per tutti i dati di data e ora che potrebbero essere visualizzati in un file di testo delimitato. Se il file di origine usa formati di data e ora predefiniti, questa opzione non è necessaria. Per ogni file è consentito un solo formato di data e ora personalizzato. Non è possibile specificare più di un formato di data e ora personalizzato per ogni file. Tuttavia, è possibile usare più formati di data e ora se ognuno di essi è il formato predefinito per il rispettivo tipo di dati nella definizione della tabella esterna.

Importante

PolyBase usa solo il formato di data personalizzato per l'importazione dei dati. Non usa il formato personalizzato per scrivere i dati in un file esterno.

Se DATE_FORMAT non è specificata o è la stringa vuota, PolyBase usa i formati predefiniti seguenti:

Ora:'yyyy-MM-dd HH:mm:ss'
Smalldatetimetime: 'yyyy-MM-dd HH:mm'
data: 'yyyy-MM-dd'
datatime2: 'yyyy-MM-dd HH:mm:ss'
DateTimeOffset: 'yyyy-MM-dd HH:mm:ss'
ora: 'HH:mm:ss'

Importante

Se si specificano sostituzioni personalizzate DATE_FORMAT , tutti i formati di tipo predefiniti. Sarà quindi necessario applicare gli stessi formati di dati in tutte le celle di tipo datetime, date e time nei file. Con l'override DATE_FORMAT, non è possibile avere valori di data e ora in un formato diverso.

Nella tabella seguente sono riportati esempi di formati di data:

Note sulla tabella:

Anno, mese e giorno possono avere diversi formati e ordini. Nella tabella è riportato solo il formato ymd. Il mese può avere una o due cifre o tre caratteri. Il giorno può avere una o due cifre. L'anno può avere due o quattro cifre.
I millisecondi (fffffff) non sono necessari.
am o pm (tt) non è obbligatorio. Il valore predefinito è AM.

Tipo di data	Esempio	Descrizione
datetime	DATE_FORMAT = `yyyy-MM-dd HH:mm:ss.fff`	Oltre all'anno, al mese e al giorno, questo formato di data include 00-24 ore, 00-59 minuti, 00-59 secondi e tre cifre per millisecondi.
datetime	DATE_FORMAT = `yyyy-MM-dd hh:mm:ss.ffftt`	Oltre all'anno, al mese e al giorno, questo formato di data include 00-12 ore, 00-59 minuti, 00-59 secondi, tre cifre per millisecondi e `AM`, , `amPM`o `pm`.
smalldatetime	DATE_FORMAT = `yyyy-MM-dd HH:mm`	Oltre ad anno, mese e giorno questo formato di data include da 00 a 23 ore e da 00 a 59 minuti.
smalldatetime	DATE_FORMAT = `yyyy-MM-dd hh:mmtt`	Oltre all'anno, al mese e al giorno, questo formato di data include 00-11 ore, 00-59 minuti, nessun secondo e `AM`, `am`, `PM`o `pm`.
dattero	DATE_FORMAT = `yyyy-MM-dd`	Anno, mese e giorno. Non sono inclusi elementi di ora.
dattero	DATE_FORMAT = `yyyy-MMM-dd`	Anno, mese e giorno. Quando il mese viene specificato con `MMM`, il valore di input è una o le stringhe, , `JanFebMarAprMay`, `JunJulAugSepOctNov`o .`Dec`
datetime2	DATE_FORMAT = `yyyy-MM-dd HH:mm:ss.fffffff`	Oltre all'anno, al mese e al giorno, questo formato di data include 00-23 ore, 00-59 minuti, 00-59 secondi e sette cifre per millisecondi.
datetime2	DATE_FORMAT = `yyyy-MM-dd hh:mm:ss.ffffffftt`	Oltre all'anno, al mese e al giorno, questo formato di data include 00-11 ore, 00-59 minuti, 00-59 secondi, sette cifre per millisecondi e `AM`, , `amPM`o `pm`.
datetimeoffset	DATE_FORMAT = `yyyy-MM-dd HH:mm:ss.fffffff zzz`	Oltre ad anno, mese e giorno questo formato di data include da 00 a 23 ore, da 00 a 59 minuti, da 00 a 59 secondi, 7 cifre per i millisecondi e la differenza di fuso orario specificata nel file di input come `{+\|-}HH:ss`. Ad esempio, poiché l'ora di Los Angeles senza ora legale è 8 ore indietro rispetto all'ora UTC, il valore -08:00 nel file di input specifica il fuso orario per Los Angeles.
datetimeoffset	DATE_FORMAT = `yyyy-MM-dd hh:mm:ss.ffffffftt zzz`	Oltre all'anno, al mese e al giorno, questo formato di data include 00-11 ore, 00-59 minuti, 00-59 secondi, sette cifre per millisecondi, (`AM`, `am`, `PM`o `pm`) e l'offset del fuso orario. Vedere la descrizione della riga precedente.
Tempo	DATE_FORMAT = `HH:mm:ss`	Non vi è alcun valore di data, solo da 00 a 23 ore, da 00 a 59 minuti e da 00 a 59 secondi.

Formati di data e ora supportati

Il formato di file esterno può descrivere una quantità elevata di formati di data e ora:

datetime	smalldatetime	dattero	datetime2	datetimeoffset
`[M[M]]M-[d]d-[yy]yy HH:mm:ss[.fff]`	`[M[M]]M-[d]d-[yy]yy HH:mm[:00]`	`[M[M]]M-[d]d-[yy]yy`	`[M[M]]M-[d]d-[yy]yy HH:mm:ss[.fffffff]`	`[M[M]]M-[d]d-[yy]yy HH:mm:ss[.fffffff] zzz`
`[M[M]]M-[d]d-[yy]yy hh:mm:ss[.fff][tt]`	`[M[M]]M-[d]d-[yy]yy hh:mm[:00][tt]`		`[M[M]]M-[d]d-[yy]yy hh:mm:ss[.fffffff][tt]`	`[M[M]]M-[d]d-[yy]yy hh:mm:ss[.fffffff][tt] zzz`
`[M[M]]M-[yy]yy-[d]d HH:mm:ss[.fff]`	`[M[M]]M-[yy]yy-[d]d HH:mm[:00]`	`[M[M]]M-[yy]yy-[d]d`	`[M[M]]M-[yy]yy-[d]d HH:mm:ss[.fffffff]`	`[M[M]]M-[yy]yy-[d]d HH:mm:ss[.fffffff] zzz`
`[M[M]]M-[yy]yy-[d]d hh:mm:ss[.fff][tt]`	`[M[M]]M-[yy]yy-[d]d hh:mm[:00][tt]`		`[M[M]]M-[yy]yy-[d]d hh:mm:ss[.fffffff][tt]`	`[M[M]]M-[yy]yy-[d]d hh:mm:ss[.fffffff][tt] zzz`
`[yy]yy-[M[M]]M-[d]d HH:mm:ss[.fff]`	`[yy]yy-[M[M]]M-[d]d HH:mm[:00]`	`[yy]yy-[M[M]]M-[d]d`	`[yy]yy-[M[M]]M-[d]d HH:mm:ss[.fffffff]`	`[yy]yy-[M[M]]M-[d]d HH:mm:ss[.fffffff] zzz`
`[yy]yy-[M[M]]M-[d]d hh:mm:ss[.fff][tt]`	`[yy]yy-[M[M]]M-[d]d hh:mm[:00][tt]`		`[yy]yy-[M[M]]M-[d]d hh:mm:ss[.fffffff][tt]`	`[yy]yy-[M[M]]M-[d]d hh:mm:ss[.fffffff][tt] zzz`
`[yy]yy-[d]d-[M[M]]M HH:mm:ss[.fff]`	`[yy]yy-[d]d-[M[M]]M HH:mm[:00]`	`[yy]yy-[d]d-[M[M]]M`	`[yy]yy-[d]d-[M[M]]M HH:mm:ss[.fffffff]`	`[yy]yy-[d]d-[M[M]]M HH:mm:ss[.fffffff] zzz`
`[yy]yy-[d]d-[M[M]]M hh:mm:ss[.fff][tt]`	`[yy]yy-[d]d-[M[M]]M hh:mm[:00][tt]`		`[yy]yy-[d]d-[M[M]]M hh:mm:ss[.fffffff][tt]`	`[yy]yy-[d]d-[M[M]]M hh:mm:ss[.fffffff][tt] zzz`
`[d]d-[M[M]]M-[yy]yy HH:mm:ss[.fff]`	`[d]d-[M[M]]M-[yy]yy HH:mm[:00]`	`[d]d-[M[M]]M-[yy]yy`	`[d]d-[M[M]]M-[yy]yy HH:mm:ss[.fffffff]`	`[d]d-[M[M]]M-[yy]yy HH:mm:ss[.fffffff] zzz`
`[d]d-[M[M]]M-[yy]yy hh:mm:ss[.fff][tt]`	`[d]d-[M[M]]M-[yy]yy hh:mm[:00][tt]`		`[d]d-[M[M]]M-[yy]yy hh:mm:ss[.fffffff][tt]`	`[d]d-[M[M]]M-[yy]yy hh:mm:ss[.fffffff][tt] zzz`
`[d]d-[yy]yy-[M[M]]M HH:mm:ss[.fff]`	`[d]d-[yy]yy-[M[M]]M HH:mm[:00]`	`[d]d-[yy]yy-[M[M]]M`	`[d]d-[yy]yy-[M[M]]M HH:mm:ss[.fffffff]`	`[d]d-[yy]yy-[M[M]]M HH:mm:ss[.fffffff] zzz`
`[d]d-[yy]yy-[M[M]]M hh:mm:ss[.fff][tt]`	`[d]d-[yy]yy-[M[M]]M hh:mm[:00][tt]`		`[d]d-[yy]yy-[M[M]]M hh:mm:ss[.fffffff][tt]`	`[d]d-[yy]yy-[M[M]]M hh:mm:ss[.fffffff][tt] zzz`

Dettagli:

Per separare i valori mese, giorno e anno, è necessario usare uno dei separatori seguenti: -, /o .. Per semplicità, nella tabella viene usato solo il separatore -.
Per specificare il mese come testo, usare tre o più caratteri. I mesi con uno o due caratteri vengono interpretati come un numero.
Per separare i valori di ora, usare il simbolo :.
Le lettere tra parentesi quadre sono facoltative.
Le lettere tt designano [AM|PM|am|pm]. AM è l'impostazione predefinita. Quando tt viene specificato, il valore dell'ora (hh) deve essere compreso nell'intervallo compreso tra 0 e 12.
Le lettere zzz designano l'offset del fuso orario per il fuso orario corrente del sistema nel formato {+|-}HH:ss].

USE_TYPE_DEFAULT = { TRUE | FALSO }

Specifica come gestire valori mancanti nei file di testo delimitato quando PolyBase recupera i dati dal file di testo. Il valore predefinito è FALSE.

Vero

Quando si recuperano dati dal file di testo, archiviare ogni valore mancante usando il valore predefinito per il tipo di dati della colonna corrispondente nella definizione della tabella esterna. Ad esempio, sostituire un valore mancante con:
- 0 se la colonna è definita come colonna numerica. Le colonne decimali non sono supportate e avranno un errore.
- Una stringa vuota "" se la colonna è una colonna stringa.
- 1900-01-01 se la colonna è una colonna di data.
- In Azure Synapse Analytics USE_TYPE_DEFAULT=true non è supportato per FORMAT_TYPE = DELIMITEDTEXT, PARSER_VERSION = '2.0'.
Falso

Archiviare tutti i valori mancanti come NULL. Tutti i NULL valori archiviati usando la parola NULL nel file di testo delimitato vengono importati come stringa NULL.

CODIFICA = {'UTF8' | 'UTF16'}

In Azure Synapse Analytics e nella piattaforma di strumenti analitici (PDW) (APS CU7.4) PolyBase è in grado di leggere file di testo delimitati con codifica UTF8 e UTF16-LE.

In SQL Server, PolyBase non supporta la lettura di file con codifica UTF16.

Autorizzazioni

Richiede ALTERARE QUALSIASI EXTERNAL FILE FORMAT permesso.

Osservazioni:

Il formato di file esterno è con ambito database in SQL Server e Azure Synapse Analytics. È con ambito server nella piattaforma di strumenti analitici (PDW).

Il formato Hadoop è supportato solo in SQL Server 2016, 2017 e 2019.

Le opzioni di formato sono tutte facoltative e si applicano solo ai file di testo delimitato.

Quando i dati vengono archiviati in uno dei formati compressi, PolyBase decomprime i dati prima di restituire i record di dati.

Il database SQL in Microsoft Fabric supporta solo il formato CSV di testo delimitato e i formati file Parquet. Il database SQL di Fabric supporta OneLake solo in Microsoft Fabric come sorgente dati.

Limiti

Il delimitatore di riga nei file di testo delimitato deve essere supportato da LineRecordReader di Hadoop. Deve quindi essere \r, \n o \r\n. Questi delimitatori non sono configurabili dall'utente.

Le combinazioni dei metodi SerDe supportati con i file RC e i metodi di compressione dei dati supportati sono elencati in precedenza in questo articolo. Non tutte le combinazioni sono supportate.

Il numero massimo di query PolyBase simultanee è 32. Quando si eseguono contemporaneamente 32 query, ogni query è in grado di leggere al massimo 33.000 file dal percorso del file esterno. Anche la cartella radice e ogni sottocartella vengono considerate file. Se il livello di concorrenza è inferiore a 32, il percorso del file esterno può contenere più di 33.000 file.

A causa della limitazione del numero di file nella tabella esterna, si consiglia di archiviare meno di 30.000 file nella radice e nelle sottocartelle del percorso del file esterno. Si consiglia inoltre di usare un numero ridotto di sottocartelle nella cartella radice. Quando si fa riferimento a troppi file, può verificarsi un'eccezione di memoria insufficiente in Java Virtual Machine.

Quando si esportano dati su Hadoop o Archiviazione BLOB di Azure tramite PolyBase, vengono esportati solo i dati, non i nomi delle colonne (metadati) come definiti nel CREATE EXTERNAL TABLE comando.

Blocco

Acquisisce un blocco condiviso per l'oggetto EXTERNAL FILE FORMAT.

Prestazioni

L'uso dei file compressi implica sempre un compromesso tra il trasferimento di una minore quantità di dati tra l'origine dati esterna e SQL Server e l'incremento dell'utilizzo della CPU per comprimere e decomprimere i dati.

I file di testo compressi Gzip non sono suddivisibili. Per migliorare le prestazioni dei file di testo compressi Gzip, si consiglia di generare più file da archiviare nella stessa directory all'interno dell'origine dati esterna. Questa struttura di file consente a PolyBase di leggere e decomprimere i dati più rapidamente usando più processi di lettura e decompressione. Il numero ideale di file compressi è il numero massimo di processi del lettore dati per ogni nodo di calcolo. In SQL Server

In Analytics Platform System (PDW) il numero massimo di processi di lettura dati è 8 per nodo. In Azure Synapse Analytics il numero massimo di processi di lettura dati è di 20 lettori per nodo.

Esempi

R. Creare un formato di file esterno DELIMITEDTEXT

In questo esempio viene creato un formato di file esterno denominato textdelimited1 per un file delimitato da testo. Le opzioni indicate per FORMAT_OPTIONS specificano che i campi nel file devono essere separati usando un carattere pipe |. Il file di testo viene anche compresso con il codec Gzip. Se DATA_COMPRESSION non viene specificato, il file di testo non viene compresso.

Per un file di testo delimitato, il metodo di compressione dei dati può essere il codec predefinito org.apache.hadoop.io.compress.DefaultCodec o il codec Gzip org.apache.hadoop.io.compress.GzipCodec.

CREATE EXTERNAL FILE FORMAT textdelimited1
WITH (
    FORMAT_TYPE = DELIMITEDTEXT,
    FORMAT_OPTIONS (
        FIELD_TERMINATOR = '|',
        DATE_FORMAT = 'MM/dd/yyyy' ),
    DATA_COMPRESSION = 'org.apache.hadoop.io.compress.GzipCodec'
);

B. Creare un formato di file esterno RCFILE

In questo esempio viene creato un formato di file esterno per RCFile che usa il metodo serialization/deserializationorg.apache.hadoop.hive.serde2.columnar.LazyBinaryColumnarSerDe. Specifica anche di usare il codec predefinito per il metodo di compressione dei dati. Se DATA_COMPRESSION non viene specificato, il valore predefinito non è una compressione.

CREATE EXTERNAL FILE FORMAT rcfile1
WITH (
    FORMAT_TYPE = RCFILE,
    SERDE_METHOD = 'org.apache.hadoop.hive.serde2.columnar.LazyBinaryColumnarSerDe',
    DATA_COMPRESSION = 'org.apache.hadoop.io.compress.DefaultCodec'
);

C. Creare un formato di file esterno ORC

In questo esempio viene creato un formato di file esterno per un file ORC che comprime i dati con il metodo di compressione org.apache.io.compress.SnappyCodec. Se DATA_COMPRESSION non viene specificato, il valore predefinito non è una compressione.

CREATE EXTERNAL FILE FORMAT orcfile1
WITH (
    FORMAT_TYPE = ORC,
    DATA_COMPRESSION = 'org.apache.hadoop.io.compress.SnappyCodec'
);

D. Creare un formato di file esterno PARQUET

In questo esempio viene creato un formato di file esterno per un file Parquet che comprime i dati con il metodo di compressione org.apache.io.compress.SnappyCodec. Se DATA_COMPRESSION non viene specificato, il valore predefinito non è una compressione.

CREATE EXTERNAL FILE FORMAT parquetfile1
WITH (
    FORMAT_TYPE = PARQUET,
    DATA_COMPRESSION = 'org.apache.hadoop.io.compress.SnappyCodec'
);

E. Creare un file di testo delimitato ignorando la riga di intestazione

Si applica a: Azure Synapse Analytics e SQL Server 2022 (16.x) e versioni successive.

In questo esempio viene creato un formato di file esterno per un file CSV con un'unica riga di intestazione. Per altre informazioni, vedere Virtualizzare un file CSV con PolyBase.

CREATE EXTERNAL FILE FORMAT skipHeader_CSV
WITH (FORMAT_TYPE = DELIMITEDTEXT,
      FORMAT_OPTIONS(
          FIELD_TERMINATOR = ',',
          STRING_DELIMITER = '"',
          FIRST_ROW = 2,
          USE_TYPE_DEFAULT = True)
);

F. Creare un formato di file esterno JSON

Si applica a: SQL Edge di Azure.

Questo esempio crea un formato di file esterno per un file JSON che comprime i dati con il metodo di compressione org.apache.io.compress.SnappyCodec. Se DATA_COMPRESSION non viene specificato, il valore predefinito non è una compressione. Questo esempio si applica a SQL Edge di Azure e non è attualmente valido per altri prodotti SQL.

CREATE EXTERNAL FILE FORMAT jsonFileFormat
WITH (
    FORMAT_TYPE = JSON,
    DATA_COMPRESSION = 'org.apache.hadoop.io.compress.SnappyCodec'
);

G. Creare un formato di file esterno di tipo tabella Delta

In questo esempio viene creato un formato di file esterno di tipo tabella Delta. Questo esempio si applica a SQL Server 2022 (16.x). Per altre informazioni, vedere Virtualizzare la tabella delta con PolyBase.

CREATE EXTERNAL FILE FORMAT DeltaFileFormat
WITH (
    FORMAT_TYPE = DELTA
);

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-07-21