Format de texte délimité dans Data Factory dans Microsoft Fabric
Cet article souligne comment configurer le format de texte délimité dans le pipeline de données de Data Factory dans Microsoft Fabric.
Fonctionnalités prises en charge
Le format de texte délimité est pris en charge pour les activités et connecteurs suivants en tant que source et destination.
Category | Connecteur/activité |
---|---|
Connecteur pris en charge | Amazon S3 |
Compatible avec Amazon S3 | |
Stockage Blob Azure | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Système de fichiers | |
FTP | |
Google Cloud Storage | |
HTTP | |
Fichiers Lakehouse | |
Oracle Cloud Storage | |
SFTP | |
Activité prise en charge | Activité Copy (source/destination) |
Activité de recherche | |
Activité GetMetadata | |
Supprimer l’activité |
Format de texte délimité dans l’activité de copie
Pour configurer le format de texte délimité, choisissez votre connexion dans la source ou la destination de l’activité de copie de pipeline de données, puis sélectionnez Texte délimité dans la liste déroulante Format de fichier. Sélectionnez Paramètres pour une configuration supplémentaire de ce format.
Format de texte délimité en tant que source
Après avoir sélectionné Paramètres dans la section Format de fichier , les propriétés suivantes s’affichent dans la boîte de dialogue Paramètres du format de fichier contextuelle.
Type de compression : codec de compression utilisé pour lire les fichiers texte délimités. Vous pouvez choisir parmi les types none, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tar dans la liste déroulante.
Si vous sélectionnez ZipDeflate comme type de compression, Conserver le nom du fichier zip en tant que dossier s’affiche sous Paramètres avancés dans l’onglet Source .
- Conserver le nom du fichier zip en tant que dossier : Indique si le nom du fichier zip source doit être conservé en tant que structure de dossiers lors de la copie.
- Si cette case est cochée (valeur par défaut), le service écrit les fichiers décompressés dans
<specified file path>/<folder named as source zip file>/
. - Si cette case est décochée, le service écrit les fichiers décompressés directement dans
<specified file path>
. Assurez-vous de ne pas avoir de noms de fichiers dupliqués dans les différents fichiers zip sources afin d’éviter toute course ou tout comportement inattendu.
- Si cette case est cochée (valeur par défaut), le service écrit les fichiers décompressés dans
Si vous sélectionnez TarGzip/tar comme type de compression, Conserver le nom du fichier compression en tant que dossier s’affiche sous Paramètres avancés dans l’onglet Source.
- Conserver le nom du fichier compression en tant que dossier : Indique si le nom du fichier compressé source doit être conservé en tant que structure de dossiers lors de la copie.
- Si cette case est cochée (valeur par défaut), le service écrit les fichiers décompressés dans
<specified file path>/<folder named as source compressed file>/
. - Si cette case est décochée, le service écrit les fichiers décompressés directement dans
<specified file path>
. Assurez-vous de ne pas avoir de noms de fichiers dupliqués dans les différents fichiers zip sources afin d’éviter toute course ou tout comportement inattendu.
- Si cette case est cochée (valeur par défaut), le service écrit les fichiers décompressés dans
- Conserver le nom du fichier zip en tant que dossier : Indique si le nom du fichier zip source doit être conservé en tant que structure de dossiers lors de la copie.
Niveau de compression : spécifiez le taux de compression lorsque vous sélectionnez un type de compression. Vous pouvez choisir entre Optimal ou Le plus rapide.
- Fastest : l'opération de compression doit se terminer le plus rapidement possible, même si le fichier résultant n'est pas compressé de façon optimale.
- Optimal : l’opération de compression doit aboutir à une compression optimale, même si elle prend plus de temps. Pour plus d’informations, consultez la rubrique Niveau de compression.
Délimiteur de colonne : Caractère(s) utilisé(s) pour séparer les colonnes dans un fichier. La valeur par défaut est la virgule(
,
).Délimiteur de lignes : spécifiez le caractère utilisé pour séparer les lignes d’un fichier. Un seul caractère est autorisé. La valeur par défaut est flux de ligne
\n
.Encodage : Le type de codage utilisé pour lire/écrire des fichiers de test. La valeur par défaut est UTF-8.
Caractère d'échappement : Le caractère unique pour placer les guillemets dans une séquence d’échappement à l’intérieur d’une valeur entre guillemets. La valeur par défaut est Barre oblique inverse
\
. Quand le caractère d'échappement est défini comme une chaîne vide, le caractère de guillemets doit également être défini comme une chaîne vide, auquel cas vous devez vous assurer que toutes les valeurs de colonne ne contiennent pas de délimiteurs.Caractère de guillemets : Le caractère unique pour mettre entre guillemets les valeurs de colonne si elle contient un délimiteur de colonne. La valeur par défaut est guillemets anglais doubles
"
. Lorsque le caractère guillemets est défini comme une chaîne vide, cela signifie qu’il n’existe aucun caractère de citation, la valeur de colonne n’est pas mise entre guillemets, et le caractère d'échappement est utilisé pour soustraire le délimiteur de colonne et lui-même.Première ligne comme en-tête : Spécifie s’il faut considérer/faire de la première ligne une ligne d’en-tête avec les noms des colonnes. Les valeurs autorisées sont sélectionnées et non sélectionnées (valeur par défaut). Lorsque la première ligne en tant qu'en-tête n'est pas sélectionnée, l'aperçu des données de l'interface utilisateur et la sortie de l'activité de recherche génèrent automatiquement les noms de colonnes sous la forme Prop_{n} (en commençant par 0), l'activité de copie nécessite un mappage explicite de la source à la destination et localise les colonnes par ordre ordinal (en commençant par 1).
Valeur null : Spécifie la représentation sous forme de chaîne de la valeur null. La valeur par défaut est une chaîne vide.
Sous Paramètres avancés dans l’onglet Source, d'autres propriétés liées au format de texte délimité sont exposées.
Format de texte délimité comme destination
Après avoir sélectionné Paramètres dans la section Format de fichier , les propriétés suivantes s’affichent dans la boîte de dialogue Paramètres du format de fichier contextuelle.
Type de compression : codec de compression utilisé pour écrire les fichiers texte délimités. Vous pouvez choisir parmi les types none, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tar dans la liste déroulante.
Niveau de compression : spécifiez le taux de compression lorsque vous sélectionnez un type de compression. Vous pouvez choisir entre Optimal ou Le plus rapide.
- Fastest : l'opération de compression doit se terminer le plus rapidement possible, même si le fichier résultant n'est pas compressé de façon optimale.
- Optimal : l’opération de compression doit aboutir à une compression optimale, même si elle prend plus de temps. Pour plus d’informations, consultez la rubrique Niveau de compression.
Délimiteur de colonne : Caractère(s) utilisé(s) pour séparer les colonnes dans un fichier. La valeur par défaut est la virgule (
,
).Délimiteur de lignes : le caractère utilisé pour séparer les lignes d’un fichier. Un seul caractère est autorisé. La valeur par défaut est flux de ligne
\n
.Encodage : Le type de codage utilisé pour écrire des fichiers de test. La valeur par défaut est UTF-8.
Caractère d'échappement : Le caractère unique pour placer les guillemets dans une séquence d’échappement à l’intérieur d’une valeur entre guillemets. La valeur par défaut est Barre oblique inverse
\
. Quand le caractère d'échappement est défini comme une chaîne vide, le caractère de guillemets doit également être défini comme une chaîne vide, auquel cas vous devez vous assurer que toutes les valeurs de colonne ne contiennent pas de délimiteurs.Caractère de guillemets : Le caractère unique pour mettre entre guillemets les valeurs de colonne si elle contient un délimiteur de colonne. La valeur par défaut est guillemets anglais doubles
"
. Lorsque le caractère guillemets est défini comme une chaîne vide, cela signifie qu’il n’existe aucun caractère de citation, la valeur de colonne n’est pas mise entre guillemets, et le caractère d'échappement est utilisé pour soustraire le délimiteur de colonne et lui-même.Première ligne comme en-tête : Spécifie s’il faut considérer/faire de la première ligne une ligne d’en-tête avec les noms des colonnes. Les valeurs autorisées sont sélectionnées et non sélectionnées (valeur par défaut). Lorsque la première ligne en tant qu'en-tête n'est pas sélectionnée, l'aperçu des données de l'interface utilisateur et la sortie de l'activité de recherche génèrent automatiquement les noms de colonnes sous la forme Prop_{n} (en commençant par 0), l'activité de copie nécessite un mappage explicite de la source à la destination et localise les colonnes par ordre ordinal (en commençant par 1).
Valeur null : Spécifie la représentation sous forme de chaîne de la valeur null. La valeur par défaut est une chaîne vide.
Sous Paramètres avancés sous l’onglet Destination, la propriété associée au format de texte délimitée s’affiche.
Guillemets tout le texte : placez toutes les valeurs entre guillemets.
Extension de fichier : Extension de fichier utilisée pour nommer les fichiers de sortie, par exemple :
.csv
,.txt
.Nombre max de lignes par fichier : Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et de spécifier le nombre maximal de lignes par fichier.
Préfixe de nom de fichier : applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle :
<fileNamePrefix>_00000.<fileExtension>
. S’il n’est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données avec option de partition.
Résumé de la table
Texte délimité en tant que source
Les propriétés suivantes sont prises en charge dans la section Source de l’activité de copie lors de l’utilisation du format texte délimité.
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Format de fichier | Le format de fichier que vous souhaitez utiliser. | DelimitedText | Oui | type (sous datasetSettings ) :DelimitedText |
Type de compression | Le codec de compression utilisé pour lire des fichiers texte délimités. | Choisissez parmi : Aucun bzip2 gzip deflate ZipDeflate TarGzip tar |
Non | type (sous compression ) :bzip2 gzip deflate ZipDeflate TarGzip tar |
Conserver le nom du fichier zip en tant que dossier | Indique si le nom du fichier zip source doit être conservé en tant que structure de dossiers lors de la copie. S’applique lorsque vous sélectionnez Compression ZipDeflate. | Sélectionné ou désélection | Aucune | preserveZipFileNameAsFolder (sous compressionProperties ->type en tant que ZipDeflateReadSettings ) |
Conserver le nom du fichier de compression en tant que dossier | Indique si le nom du fichier source compressé doit être conservé en tant que structure de dossiers lors de la copie. S’applique lorsque vous sélectionnez Compression TarGzip/tar. | Sélectionné ou désélection | Non | preserveCompressionFileNameAsFolder (sous compressionProperties ->type en tant que TarGZipReadSettings ou TarReadSettings ) |
Niveau de compression | Le taux de compression. Les valeurs autorisées sont Optimal ou Fastest. | Optimal ou Le plus rapide | Aucune | level (sous compression ) :Le plus rapide Optimal |
Délimiteur de colonne | Caractère(s) utilisé(s) pour séparer les colonnes dans un fichier. | < délimiteur de colonne sélectionné > virgule , (par défaut) |
Non | columnDelimiter |
Séparateur de lignes | caractère utilisé pour séparer les lignes dans un fichier. | < délimiteur de ligne sélectionné > \r ,\n (par défaut), ou r\n |
Aucune | rowDelimiter |
Encodage | Le type de codage utilisé pour lire/écrire des fichiers de test. | "UTF-8" (by default),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Aucune | encodingName |
Caractère d’échappement | Le caractère unique pour placer les guillemets dans une séquence d’échappement à l’intérieur d’une valeur entre guillemets. Quand le caractère d'échappement est défini comme une chaîne vide, le caractère de guillemets doit également être défini comme une chaîne vide, auquel cas vous devez vous assurer que toutes les valeurs de colonne ne contiennent pas de délimiteurs. | < caractère d’échappement sélectionné > barre oblique inverse \ (par défaut) |
Non | escapeChar |
Caractère guillemet | Le caractère unique pour mettre entre guillemets les valeurs de colonne si elle contient un délimiteur de colonne. Lorsque le caractère guillemets est défini comme une chaîne vide, cela signifie qu’il n’existe aucun caractère de citation, la valeur de colonne n’est pas mise entre guillemets, et le caractère d'échappement est utilisé pour soustraire le délimiteur de colonne et lui-même. | < votre guillemet sélectionné > guillemets " (par défaut) |
Non | quoteChar |
Première ligne comme en-tête | Spécifie s’il faut considérer la première ligne dans la feuille de calcul/plage donnée comme une ligne d’en-tête avec les noms des colonnes. | Sélectionné ou non sélectionné | Non | firstRowAsHeader : true ou false (par défaut) |
Valeur null | Spécifie la représentation sous forme de chaîne de la valeur null. La valeur par défaut est une chaîne vide. | <la représentation sous forme de chaîne de la valeur null > chaîne vide (par défaut) |
Non | nullValue |
Texte délimité comme destination
Les propriétés suivantes sont prises en charge dans la section Destination de l’activité de copie lors de l’utilisation du format texte délimité.
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Format de fichier | Le format de fichier que vous souhaitez utiliser. | DelimitedText | Oui | type (sous datasetSettings ) :DelimitedText |
Type de compression | Le codec de compression utilisé pour écrire des fichiers texte délimités. | Choisissez parmi : Aucun bzip2 gzip deflate ZipDeflate TarGzip tar |
Non | type (sous compression ) :bzip2 gzip deflate ZipDeflate TarGzip tar |
Conserver le nom du fichier zip en tant que dossier | Indique si le nom du fichier zip source doit être conservé en tant que structure de dossiers lors de la copie. | Sélectionné ou désélection | Aucune | preserveZipFileNameAsFolder (sous compressionProperties ->type en tant que ZipDeflateReadSettings ) |
Conserver le nom du fichier de compression en tant que dossier | Indique si le nom du fichier source compressé doit être conservé en tant que structure de dossiers lors de la copie. | Sélectionné ou désélection | Non | preserveCompressionFileNameAsFolder (sous compressionProperties ->type en tant que TarGZipReadSettings ou TarReadSettings ) |
Niveau de compression | Le taux de compression. Les valeurs autorisées sont Optimal ou Fastest. | Optimal ou Le plus rapide | Aucune | level (sous compression ) :Le plus rapide Optimal |
Délimiteur de colonne | Caractère(s) utilisé(s) pour séparer les colonnes dans un fichier. | < délimiteur de colonne sélectionné > virgule , (par défaut) |
Non | columnDelimiter |
Séparateur de lignes | caractère utilisé pour séparer les lignes dans un fichier. | < délimiteur de ligne sélectionné > \r ,\n (par défaut), ou r\n |
Aucune | rowDelimiter |
Encodage | Le type de codage utilisé pour lire/écrire des fichiers de test. | "UTF-8" (by default),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Aucune | encodingName |
Caractère d’échappement | Le caractère unique pour placer les guillemets dans une séquence d’échappement à l’intérieur d’une valeur entre guillemets. Quand le caractère d'échappement est défini comme une chaîne vide, le caractère de guillemets doit également être défini comme une chaîne vide, auquel cas vous devez vous assurer que toutes les valeurs de colonne ne contiennent pas de délimiteurs. | < caractère d’échappement sélectionné > barre oblique inverse \ (par défaut) |
Non | escapeChar |
Caractère guillemet | Le caractère unique pour mettre entre guillemets les valeurs de colonne si elle contient un délimiteur de colonne. Lorsque le caractère guillemets est défini comme une chaîne vide, cela signifie qu’il n’existe aucun caractère de citation, la valeur de colonne n’est pas mise entre guillemets, et le caractère d'échappement est utilisé pour soustraire le délimiteur de colonne et lui-même. | < votre guillemet sélectionné > guillemets " (par défaut) |
Non | quoteChar |
Première ligne comme en-tête | Spécifie s’il faut considérer la première ligne dans la feuille de calcul/plage donnée comme une ligne d’en-tête avec les noms des colonnes. | Sélectionné ou non sélectionné | Non | firstRowAsHeader : true ou false (par défaut) |
Citer tout le texte | Placer toutes les valeurs entre guillemets. | Sélectionné (par défaut) ou non sélectionné | Non | quoteAllText : true (valeur par défaut) ou false |
Extension de fichier | L’extension de fichier utilisée pour nommer les fichiers de sortie. | < votre extension de fichier > .txt (par défaut) |
Non | fileExtension |
Nombre maximal de lignes par fichier | Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d’écrire dans plusieurs fichiers et de spécifier le nombre maximal de lignes par fichier. | < vos lignes maximales par fichier > | Non | maxRowsPerFile |
Préfixe du nom de fichier | Applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : <fileNamePrefix>_00000.<fileExtension> . S’il n’est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données avec option de partition. |
< préfixe de nom de fichier > | Non | fileNamePrefix |