Partager via


Format de texte délimité dans Data Factory dans Microsoft Fabric

Cet article souligne comment configurer le format de texte délimité dans le pipeline de données de Data Factory dans Microsoft Fabric.

Fonctionnalités prises en charge

Le format de texte délimité est pris en charge pour les activités et connecteurs suivants en tant que source et destination.

Category Connecteur/activité
Connecteur pris en charge Amazon S3
Compatible avec Amazon S3
Stockage Blob Azure
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Files
Système de fichiers
FTP
Google Cloud Storage
HTTP
Fichiers Lakehouse
Oracle Cloud Storage
SFTP
Activité prise en charge Activité Copy (source/destination)
Activité de recherche
Activité GetMetadata
Supprimer l’activité

Format de texte délimité dans l’activité de copie

Pour configurer le format de texte délimité, choisissez votre connexion dans la source ou la destination de l’activité de copie de pipeline de données, puis sélectionnez Texte délimité dans la liste déroulante Format de fichier. Sélectionnez Paramètres pour une configuration supplémentaire de ce format.

Capture d'écran montrant les paramètres du format de fichier.

Format de texte délimité en tant que source

Après avoir sélectionné Paramètres dans la section Format de fichier , les propriétés suivantes s’affichent dans la boîte de dialogue Paramètres du format de fichier contextuelle.

Capture d'écran montrant les paramètres du format de fichier source.

  • Type de compression : codec de compression utilisé pour lire les fichiers texte délimités. Vous pouvez choisir parmi les types none, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tar dans la liste déroulante.

    Si vous sélectionnez ZipDeflate comme type de compression, Conserver le nom du fichier zip en tant que dossier s’affiche sous Paramètres avancés dans l’onglet Source .

    • Conserver le nom du fichier zip en tant que dossier : Indique si le nom du fichier zip source doit être conservé en tant que structure de dossiers lors de la copie.
      • Si cette case est cochée (valeur par défaut), le service écrit les fichiers décompressés dans <specified file path>/<folder named as source zip file>/.
      • Si cette case est décochée, le service écrit les fichiers décompressés directement dans <specified file path>. Assurez-vous de ne pas avoir de noms de fichiers dupliqués dans les différents fichiers zip sources afin d’éviter toute course ou tout comportement inattendu.

    Si vous sélectionnez TarGzip/tar comme type de compression, Conserver le nom du fichier compression en tant que dossier s’affiche sous Paramètres avancés dans l’onglet Source.

    • Conserver le nom du fichier compression en tant que dossier : Indique si le nom du fichier compressé source doit être conservé en tant que structure de dossiers lors de la copie.
      • Si cette case est cochée (valeur par défaut), le service écrit les fichiers décompressés dans <specified file path>/<folder named as source compressed file>/.
      • Si cette case est décochée, le service écrit les fichiers décompressés directement dans <specified file path>. Assurez-vous de ne pas avoir de noms de fichiers dupliqués dans les différents fichiers zip sources afin d’éviter toute course ou tout comportement inattendu.
  • Niveau de compression : spécifiez le taux de compression lorsque vous sélectionnez un type de compression. Vous pouvez choisir entre Optimal ou Le plus rapide.

    • Fastest : l'opération de compression doit se terminer le plus rapidement possible, même si le fichier résultant n'est pas compressé de façon optimale.
    • Optimal : l’opération de compression doit aboutir à une compression optimale, même si elle prend plus de temps. Pour plus d’informations, consultez la rubrique Niveau de compression.
  • Délimiteur de colonne : Caractère(s) utilisé(s) pour séparer les colonnes dans un fichier. La valeur par défaut est la virgule(,).

  • Délimiteur de lignes : spécifiez le caractère utilisé pour séparer les lignes d’un fichier. Un seul caractère est autorisé. La valeur par défaut est flux de ligne \n.

  • Encodage : Le type de codage utilisé pour lire/écrire des fichiers de test. La valeur par défaut est UTF-8.

  • Caractère d'échappement : Le caractère unique pour placer les guillemets dans une séquence d’échappement à l’intérieur d’une valeur entre guillemets. La valeur par défaut est Barre oblique inverse \. Quand le caractère d'échappement est défini comme une chaîne vide, le caractère de guillemets doit également être défini comme une chaîne vide, auquel cas vous devez vous assurer que toutes les valeurs de colonne ne contiennent pas de délimiteurs.

  • Caractère de guillemets : Le caractère unique pour mettre entre guillemets les valeurs de colonne si elle contient un délimiteur de colonne. La valeur par défaut est guillemets anglais doubles ". Lorsque le caractère guillemets est défini comme une chaîne vide, cela signifie qu’il n’existe aucun caractère de citation, la valeur de colonne n’est pas mise entre guillemets, et le caractère d'échappement est utilisé pour soustraire le délimiteur de colonne et lui-même.

  • Première ligne comme en-tête : Spécifie s’il faut considérer/faire de la première ligne une ligne d’en-tête avec les noms des colonnes. Les valeurs autorisées sont sélectionnées et non sélectionnées (valeur par défaut). Lorsque la première ligne en tant qu'en-tête n'est pas sélectionnée, l'aperçu des données de l'interface utilisateur et la sortie de l'activité de recherche génèrent automatiquement les noms de colonnes sous la forme Prop_{n} (en commençant par 0), l'activité de copie nécessite un mappage explicite de la source à la destination et localise les colonnes par ordre ordinal (en commençant par 1).

  • Valeur null : Spécifie la représentation sous forme de chaîne de la valeur null. La valeur par défaut est une chaîne vide.

Sous Paramètres avancés dans l’onglet Source, d'autres propriétés liées au format de texte délimité sont exposées.

Format de texte délimité comme destination

Après avoir sélectionné Paramètres dans la section Format de fichier , les propriétés suivantes s’affichent dans la boîte de dialogue Paramètres du format de fichier contextuelle.

Capture d'écran montrant les paramètres du format de fichier de destination.

  • Type de compression : codec de compression utilisé pour écrire les fichiers texte délimités. Vous pouvez choisir parmi les types none, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tar dans la liste déroulante.

  • Niveau de compression : spécifiez le taux de compression lorsque vous sélectionnez un type de compression. Vous pouvez choisir entre Optimal ou Le plus rapide.

    • Fastest : l'opération de compression doit se terminer le plus rapidement possible, même si le fichier résultant n'est pas compressé de façon optimale.
    • Optimal : l’opération de compression doit aboutir à une compression optimale, même si elle prend plus de temps. Pour plus d’informations, consultez la rubrique Niveau de compression.
  • Délimiteur de colonne : Caractère(s) utilisé(s) pour séparer les colonnes dans un fichier. La valeur par défaut est la virgule (,).

  • Délimiteur de lignes : le caractère utilisé pour séparer les lignes d’un fichier. Un seul caractère est autorisé. La valeur par défaut est flux de ligne \n.

  • Encodage : Le type de codage utilisé pour écrire des fichiers de test. La valeur par défaut est UTF-8.

  • Caractère d'échappement : Le caractère unique pour placer les guillemets dans une séquence d’échappement à l’intérieur d’une valeur entre guillemets. La valeur par défaut est Barre oblique inverse \. Quand le caractère d'échappement est défini comme une chaîne vide, le caractère de guillemets doit également être défini comme une chaîne vide, auquel cas vous devez vous assurer que toutes les valeurs de colonne ne contiennent pas de délimiteurs.

  • Caractère de guillemets : Le caractère unique pour mettre entre guillemets les valeurs de colonne si elle contient un délimiteur de colonne. La valeur par défaut est guillemets anglais doubles ". Lorsque le caractère guillemets est défini comme une chaîne vide, cela signifie qu’il n’existe aucun caractère de citation, la valeur de colonne n’est pas mise entre guillemets, et le caractère d'échappement est utilisé pour soustraire le délimiteur de colonne et lui-même.

  • Première ligne comme en-tête : Spécifie s’il faut considérer/faire de la première ligne une ligne d’en-tête avec les noms des colonnes. Les valeurs autorisées sont sélectionnées et non sélectionnées (valeur par défaut). Lorsque la première ligne en tant qu'en-tête n'est pas sélectionnée, l'aperçu des données de l'interface utilisateur et la sortie de l'activité de recherche génèrent automatiquement les noms de colonnes sous la forme Prop_{n} (en commençant par 0), l'activité de copie nécessite un mappage explicite de la source à la destination et localise les colonnes par ordre ordinal (en commençant par 1).

  • Valeur null : Spécifie la représentation sous forme de chaîne de la valeur null. La valeur par défaut est une chaîne vide.

Sous Paramètres avancés sous l’onglet Destination, la propriété associée au format de texte délimitée s’affiche.

  • Guillemets tout le texte : placez toutes les valeurs entre guillemets.

  • Extension de fichier : Extension de fichier utilisée pour nommer les fichiers de sortie, par exemple : .csv, .txt.

  • Nombre max de lignes par fichier : Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et de spécifier le nombre maximal de lignes par fichier.

  • Préfixe de nom de fichier : applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : <fileNamePrefix>_00000.<fileExtension>. S’il n’est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données avec option de partition.

Résumé de la table

Texte délimité en tant que source

Les propriétés suivantes sont prises en charge dans la section Source de l’activité de copie lors de l’utilisation du format texte délimité.

Nom Description Valeur Obligatoire Propriété de script JSON
 Format de fichier Le format de fichier que vous souhaitez utiliser. DelimitedText Oui type (sous datasetSettings) :
DelimitedText
Type de compression Le codec de compression utilisé pour lire des fichiers texte délimités. Choisissez parmi :
Aucun
bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Non type (sous compression) :

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Conserver le nom du fichier zip en tant que dossier Indique si le nom du fichier zip source doit être conservé en tant que structure de dossiers lors de la copie. S’applique lorsque vous sélectionnez Compression ZipDeflate. Sélectionné ou désélection Aucune preserveZipFileNameAsFolder
(sous compressionProperties->type en tant que ZipDeflateReadSettings)
Conserver le nom du fichier de compression en tant que dossier Indique si le nom du fichier source compressé doit être conservé en tant que structure de dossiers lors de la copie. S’applique lorsque vous sélectionnez Compression TarGzip/tar. Sélectionné ou désélection Non preserveCompressionFileNameAsFolder
(sous compressionProperties->type en tant que TarGZipReadSettings ou TarReadSettings)
Niveau de compression  Le taux de compression. Les valeurs autorisées sont Optimal ou Fastest. Optimal ou Le plus rapide Aucune level (sous compression) :
Le plus rapide
Optimal
Délimiteur de colonne  Caractère(s) utilisé(s) pour séparer les colonnes dans un fichier.  < délimiteur de colonne sélectionné >
virgule , (par défaut)
Non columnDelimiter
Séparateur de lignes caractère utilisé pour séparer les lignes dans un fichier. < délimiteur de ligne sélectionné >
\r,\n (par défaut), ou r\n
Aucune rowDelimiter
Encodage Le type de codage utilisé pour lire/écrire des fichiers de test. "UTF-8" (by default),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Aucune encodingName
Caractère d’échappement Le caractère unique pour placer les guillemets dans une séquence d’échappement à l’intérieur d’une valeur entre guillemets. Quand le caractère d'échappement est défini comme une chaîne vide, le caractère de guillemets doit également être défini comme une chaîne vide, auquel cas vous devez vous assurer que toutes les valeurs de colonne ne contiennent pas de délimiteurs. < caractère d’échappement sélectionné >
barre oblique inverse \ (par défaut)
Non escapeChar
Caractère guillemet Le caractère unique pour mettre entre guillemets les valeurs de colonne si elle contient un délimiteur de colonne. Lorsque le caractère guillemets est défini comme une chaîne vide, cela signifie qu’il n’existe aucun caractère de citation, la valeur de colonne n’est pas mise entre guillemets, et le caractère d'échappement est utilisé pour soustraire le délimiteur de colonne et lui-même. < votre guillemet sélectionné >
guillemets " (par défaut)
Non quoteChar
Première ligne comme en-tête Spécifie s’il faut considérer la première ligne dans la feuille de calcul/plage donnée comme une ligne d’en-tête avec les noms des colonnes. Sélectionné ou non sélectionné Non firstRowAsHeader :
true ou false (par défaut)
Valeur null Spécifie la représentation sous forme de chaîne de la valeur null. La valeur par défaut est une chaîne vide. <la représentation sous forme de chaîne de la valeur null >
chaîne vide (par défaut)
Non nullValue

Texte délimité comme destination

Les propriétés suivantes sont prises en charge dans la section Destination de l’activité de copie lors de l’utilisation du format texte délimité.

Nom Description Valeur Obligatoire Propriété de script JSON
 Format de fichier Le format de fichier que vous souhaitez utiliser. DelimitedText Oui type (sous datasetSettings) :
DelimitedText
Type de compression Le codec de compression utilisé pour écrire des fichiers texte délimités. Choisissez parmi :
Aucun
bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Non type (sous compression) :

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Conserver le nom du fichier zip en tant que dossier Indique si le nom du fichier zip source doit être conservé en tant que structure de dossiers lors de la copie. Sélectionné ou désélection Aucune preserveZipFileNameAsFolder
(sous compressionProperties->type en tant que ZipDeflateReadSettings)
Conserver le nom du fichier de compression en tant que dossier Indique si le nom du fichier source compressé doit être conservé en tant que structure de dossiers lors de la copie. Sélectionné ou désélection Non preserveCompressionFileNameAsFolder
(sous compressionProperties->type en tant que TarGZipReadSettings ou TarReadSettings)
Niveau de compression  Le taux de compression. Les valeurs autorisées sont Optimal ou Fastest. Optimal ou Le plus rapide Aucune level (sous compression) :
Le plus rapide
Optimal
Délimiteur de colonne  Caractère(s) utilisé(s) pour séparer les colonnes dans un fichier.  < délimiteur de colonne sélectionné >
virgule, (par défaut)
Non columnDelimiter
Séparateur de lignes caractère utilisé pour séparer les lignes dans un fichier. < délimiteur de ligne sélectionné >
\r,\n (par défaut), ou r\n
Aucune rowDelimiter
Encodage Le type de codage utilisé pour lire/écrire des fichiers de test. "UTF-8" (by default),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Aucune encodingName
Caractère d’échappement Le caractère unique pour placer les guillemets dans une séquence d’échappement à l’intérieur d’une valeur entre guillemets. Quand le caractère d'échappement est défini comme une chaîne vide, le caractère de guillemets doit également être défini comme une chaîne vide, auquel cas vous devez vous assurer que toutes les valeurs de colonne ne contiennent pas de délimiteurs. < caractère d’échappement sélectionné >
barre oblique inverse \ (par défaut)
Non escapeChar
Caractère guillemet Le caractère unique pour mettre entre guillemets les valeurs de colonne si elle contient un délimiteur de colonne. Lorsque le caractère guillemets est défini comme une chaîne vide, cela signifie qu’il n’existe aucun caractère de citation, la valeur de colonne n’est pas mise entre guillemets, et le caractère d'échappement est utilisé pour soustraire le délimiteur de colonne et lui-même. < votre guillemet sélectionné >
guillemets " (par défaut)
Non quoteChar
Première ligne comme en-tête Spécifie s’il faut considérer la première ligne dans la feuille de calcul/plage donnée comme une ligne d’en-tête avec les noms des colonnes. Sélectionné ou non sélectionné Non firstRowAsHeader :
true ou false (par défaut)
Citer tout le texte Placer toutes les valeurs entre guillemets. Sélectionné (par défaut) ou non sélectionné Non quoteAllText :
true (valeur par défaut) ou false
Extension de fichier L’extension de fichier utilisée pour nommer les fichiers de sortie. < votre extension de fichier >
.txt (par défaut)
Non fileExtension
Nombre maximal de lignes par fichier Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d’écrire dans plusieurs fichiers et de spécifier le nombre maximal de lignes par fichier. < vos lignes maximales par fichier > Non maxRowsPerFile
Préfixe du nom de fichier Applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : <fileNamePrefix>_00000.<fileExtension>. S’il n’est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données avec option de partition. < préfixe de nom de fichier > Non fileNamePrefix