Format de texte délimité dans Data Factory dans Microsoft Fabric
Cet article explique comment configurer le format de texte délimité dans le pipeline de données de Data Factory dans Microsoft Fabric.
Important
Microsoft Fabric est actuellement en préversion. Certaines informations portent sur un produit en préversion susceptible d’être substantiellement modifié avant sa publication. Microsoft ne donne aucune garantie, expresse ou implicite, concernant les informations fournies ici. Reportez-vous à la documentation Azure Data Factory pour le service dans Azure.
Fonctionnalités prises en charge
Le format de texte délimité est pris en charge pour les activités et connecteurs suivants en tant que source et destination.
Category | Connecteur/activité |
---|---|
Connecteur pris en charge | Amazon S3 |
Stockage Blob Azure | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Google Cloud Storage | |
HTTP | |
Activité prise en charge | Activité de copie |
Activité de recherche | |
Activité GetMetadata | |
DeleteActivity |
Format de texte délimité dans l’activité de copie
Pour configurer le format de texte délimité, choisissez votre connexion dans la source ou la destination de l’activité de copie de pipeline de données, puis sélectionnez Texte délimité dans la liste déroulante Format de fichier. Sélectionnez Paramètres pour une configuration supplémentaire de ce format.
Format de texte délimité en tant que source
Après avoir sélectionné Paramètres dans la section Format de fichier , les propriétés suivantes s’affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier .
Type de compression : codec de compression utilisé pour lire les fichiers texte délimités. Vous pouvez choisir parmi Aucun, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tar type dans la liste déroulante.
Si vous sélectionnez ZipDeflate comme type de compression, Conserver le nom du fichier zip en tant que dossier s’affiche sous Paramètres avancés dans l’onglet Source .
- Conserver le nom du fichier zip en tant que dossier : indique s’il faut conserver le nom de fichier zip source en tant que structure de dossier pendant la copie.
- Si cette case est cochée (par défaut), le service écrit les fichiers décompressés dans
<specified file path>/<folder named as source zip file>/
. - Si cette case est décochée, le service écrit les fichiers décompressés directement dans
<specified file path>
. Assurez-vous de ne pas avoir de noms de fichiers dupliqués dans les différents fichiers zip sources afin d’éviter toute course ou tout comportement inattendu.
- Si cette case est cochée (par défaut), le service écrit les fichiers décompressés dans
Si vous sélectionnez TarGzip/tar comme type de compression, Conserver le nom du fichier de compression en tant que dossier s’affiche sous Paramètres avancés dans l’onglet Source .
- Conserver le nom du fichier de compression en tant que dossier : indique s’il faut conserver le nom de fichier compressé source en tant que structure de dossier pendant la copie.
- Si cette case est cochée (par défaut), le service écrit les fichiers décompressés dans
<specified file path>/<folder named as source compressed file>/
. - Si cette case n’est pas cochée, le service écrit des fichiers décompressés directement dans
<specified file path>
. Assurez-vous de ne pas avoir de noms de fichiers dupliqués dans les différents fichiers zip sources afin d’éviter toute course ou tout comportement inattendu.
- Si cette case est cochée (par défaut), le service écrit les fichiers décompressés dans
- Conserver le nom du fichier zip en tant que dossier : indique s’il faut conserver le nom de fichier zip source en tant que structure de dossier pendant la copie.
Niveau de compression : spécifiez le taux de compression lorsque vous sélectionnez un type de compression. Vous pouvez choisir entre Optimal ou Le plus rapide.
- Plus rapide : l’opération de compression doit se terminer aussi rapidement que possible, même si le fichier résultant n’est pas compressé de manière optimale.
- Optimal : l’opération de compression doit aboutir à une compression optimale, même si elle prend plus de temps. Pour plus d’informations, consultez la rubrique Niveau de compression.
Délimiteur de colonnes : caractère(s) utilisé(s) pour séparer les colonnes d’un fichier. La valeur par défaut est une virgule (
,
).Délimiteur de lignes : spécifiez le caractère utilisé pour séparer les lignes d’un fichier. Un seul caractère est autorisé. La valeur par défaut est flux de
\n
ligne .Encodage : type d’encodage utilisé pour lire/écrire des fichiers de test. La valeur par défaut est UTF-8.
Caractère d’échappement : caractère unique à placer entre guillemets à l’intérieur d’une valeur entre guillemets. La valeur par défaut est barre oblique inverse
\
. Lorsque le caractère d’échappement est défini en tant que chaîne vide, le caractère Guillemet doit également être défini comme chaîne vide, auquel cas assurez-vous que toutes les valeurs de colonne ne contiennent pas de délimiteurs.Caractère de guillemet : caractère unique à citer les valeurs de colonne s’il contient un délimiteur de colonne. La valeur par défaut est guillemets anglais doubles
"
. Lorsque le caractère Guillemet est défini comme une chaîne vide, cela signifie qu’il n’y a pas de guillemets et que la valeur de colonne n’est pas entre guillemets, et que le caractère d’échappement est utilisé pour échapper au délimiteur de colonne et lui-même.Première ligne en tant qu’en-tête : spécifie s’il faut traiter/créer la première ligne en tant que ligne d’en-tête avec le nom des colonnes. Les valeurs autorisées sont sélectionnées et non sélectionnées (valeur par défaut). Lorsque la première ligne en tant qu’en-tête n’est pas sélectionnée, notez que l’aperçu des données d’interface utilisateur et la sortie de l’activité de recherche génèrent automatiquement des noms de colonnes comme Prop_{n} (à partir de 0), l’activité de copie nécessite un mappage explicite de la source à la destination et localise les colonnes par ordinal (à partir de 1).
Valeur Null : spécifie la représentation sous forme de chaîne de la valeur null. La valeur par défaut est une chaîne vide.
Sous Paramètres avancés sous l’onglet Source , la propriété associée au format de texte délimitée s’affiche.
- Nombre de lignes d’évitement : indique le nombre de lignes vides à ignorer lors de la lecture des données des fichiers d’entrée. Si le nombre de sauts de ligne et la première ligne en tant qu’en-tête sont spécifiés, les lignes sont ignorées en premier, puis les informations d’en-tête sont lues à partir du fichier d’entrée.
Format de texte délimité comme destination
Après avoir sélectionné Paramètres dans la section Format de fichier , les propriétés suivantes s’affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier .
Type de compression : codec de compression utilisé pour écrire des fichiers texte délimités. Vous pouvez choisir parmi Aucun, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tar type dans la liste déroulante.
Niveau de compression : spécifiez le taux de compression lorsque vous sélectionnez un type de compression. Vous pouvez choisir entre Optimal ou Le plus rapide.
- Plus rapide : l’opération de compression doit se terminer aussi rapidement que possible, même si le fichier résultant n’est pas compressé de manière optimale.
- Optimal : l’opération de compression doit aboutir à une compression optimale, même si elle prend plus de temps. Pour plus d’informations, consultez la rubrique Niveau de compression.
Délimiteur de colonnes : caractère(s) utilisé(s) pour séparer les colonnes d’un fichier. La valeur par défaut est une virgule (
,
).Délimiteur de lignes : caractère utilisé pour séparer les lignes d’un fichier. Un seul caractère est autorisé. La valeur par défaut est flux de
\n
ligne .Encodage : type d’encodage utilisé pour écrire des fichiers de test. La valeur par défaut est UTF-8.
Caractère d’échappement : caractère unique à placer entre guillemets à l’intérieur d’une valeur entre guillemets. La valeur par défaut est barre oblique inverse
\
. Lorsque le caractère d’échappement est défini en tant que chaîne vide, le caractère Guillemet doit également être défini comme chaîne vide, auquel cas assurez-vous que toutes les valeurs de colonne ne contiennent pas de délimiteurs.Caractère de guillemet : caractère unique à citer les valeurs de colonne s’il contient un délimiteur de colonne. La valeur par défaut est guillemets anglais doubles
"
. Lorsque le caractère Guillemet est défini comme une chaîne vide, cela signifie qu’il n’y a pas de guillemets et que la valeur de colonne n’est pas entre guillemets, et que le caractère d’échappement est utilisé pour échapper au délimiteur de colonne et lui-même.Première ligne en tant qu’en-tête : spécifie s’il faut traiter/créer la première ligne en tant que ligne d’en-tête avec le nom des colonnes. Les valeurs autorisées sont sélectionnées et non sélectionnées (valeur par défaut). Lorsque la première ligne en tant qu’en-tête n’est pas sélectionnée, notez que l’aperçu des données d’interface utilisateur et la sortie de l’activité de recherche génèrent automatiquement des noms de colonnes comme Prop_{n} (à partir de 0), l’activité de copie nécessite un mappage explicite de la source à la destination et localise les colonnes par ordinal (à partir de 1).
Valeur Null : spécifie la représentation sous forme de chaîne de la valeur null. La valeur par défaut est une chaîne vide.
Sous Paramètres avancés sous l’onglet Destination , la propriété associée au format de texte délimitée s’affiche.
Guillemets tout le texte : placez toutes les valeurs entre guillemets.
Extension de fichier : extension de fichier utilisée pour nommer les fichiers de sortie, par exemple,
.csv
,.txt
.Nombre maximal de lignes par fichier : lorsque vous écrivez des données dans un dossier, vous pouvez choisir d’écrire dans plusieurs fichiers et spécifier le nombre maximal de lignes par fichier.
Préfixe de nom de fichier : applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle :
<fileNamePrefix>_00000.<fileExtension>
. S’il n’est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s’applique pas lorsque la source est un magasin de données basé sur un fichier ou une option de partition activée.
Résumé du tableau
Texte délimité en tant que source
Les propriétés suivantes sont prises en charge dans la section Source de l’activité de copie lors de l’utilisation du format texte délimité.
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Format de fichier | Format de fichier que vous souhaitez utiliser. | DelimitedText | Yes | type (sous datasetSettings ) :DelimitedText |
Type de compression | Codec de compression utilisé pour lire les fichiers texte délimités. | Choisissez parmi : Aucun bzip2 gzip Dégonfler ZipDeflate TarGzip Tar |
No | type (sous compression ) :bzip2 gzip Dégonfler ZipDeflate TarGzip tar |
Conserver le nom du fichier zip en tant que dossier | Indique si le nom du fichier zip source doit être conservé en tant que structure de dossiers lors de la copie. S’applique lorsque vous sélectionnez Compression ZipDeflate . | Sélectionné ou désélectionné | Non | preserveZipFileNameAsFolder (sous compressionProperties ->type en tant que ZipDeflateReadSettings ) |
Conserver le nom du fichier de compression en tant que dossier | Indique si le nom du fichier source compressé doit être conservé en tant que structure de dossiers lors de la copie. S’applique lorsque vous sélectionnez Compression TarGzip/tar . | Sélectionné ou désélectionné | Non | preserveCompressionFileNameAsFolder (sous compressionProperties ->type en tant que TarGZipReadSettings ou TarReadSettings ) |
Niveau de compression | Le taux de compression. Les valeurs autorisées sont Optimal ou Fastest. | Optimal ou Le plus rapide | No | level (sous compression ) :Le plus rapide Optimal |
Délimiteur de colonne | Caractère(s) utilisé(s) pour séparer les colonnes dans un fichier. | < délimiteur de colonne sélectionné > Virgule , (par défaut) |
No | columnDelimiter |
Séparateur de lignes | caractère utilisé pour séparer les lignes dans un fichier. | < délimiteur de ligne sélectionné > \r ,\n (par défaut) ou r\n |
Non | rowDelimiter |
Encodage | Le type de codage utilisé pour lire/écrire des fichiers de test. | « UTF-8 » (par défaut),"UTF-8 sans boM », « UTF-16 », « UTF-16BE », « UTF-32 », « UTF-32BE », « US-ASCII », « UTF-7 », « BIG5 », « EUC-JP », « EUC-KR », « GB2312 », « GB18030 », « JOHAB », « SHIFT-JIS », « CP875 », « CP866 », « IBM00858 », « IBM037 », « IBM273 », « IBM437 », « IBM500 », « IBM737 », « IBM775 », « IBM775 », « IBM850 », « IBM852 », « IBM855 », « IBM857 », « IBM860 », « IBM861 », « IBM863 », « IBM864 », « IBM865 », « IBM869 », « IBM870 », « IBM01140 « , « IBM01141 », « IBM01142 », « IBM01143 », « IBM01144 », « IBM01145 », « IBM01146 », « IBM01147 », « IBM01148 », « IBM01149 », « IBM01149 », « ISO-2022-JP », « ISO-2022-KR », « ISO-8859-1 », « ISO-8859-2 », « ISO-8859-3 », « ISO-8859-4 », « ISO-8859-5 », « ISO-8859-6 », « ISO-8859-7 », « ISO-8859-8 », « ISO-8859-9 », « ISO-8859-13 », « ISO-8859-15 », « WINDOWS-874 », « WINDOWS-1250 », « WINDOWS-1251 », « WINDOWS-1252 », « WINDOWS-1252 » 1253 », « WINDOWS-1254 », « WINDOWS-1255 », « WINDOWS-1256 », « WINDOWS-1257 », « WINDOWS-1258 » | Non | encodingName |
Caractère d’échappement | Le caractère unique pour placer les guillemets dans une séquence d’échappement à l’intérieur d’une valeur entre guillemets. Lorsque le caractère d’échappement est défini en tant que chaîne vide, le caractère Guillemet doit également être défini comme chaîne vide, auquel cas assurez-vous que toutes les valeurs de colonne ne contiennent pas de délimiteurs. | < caractère d’échappement sélectionné > Backslash \ (par défaut) |
Non | escapeChar |
Caractère de guillemet | Le caractère unique pour mettre entre guillemets les valeurs de colonne si elle contient un délimiteur de colonne. Lorsque le caractère Guillemet est défini comme une chaîne vide, cela signifie qu’il n’y a pas de guillemets et que la valeur de colonne n’est pas entre guillemets, et que le caractère d’échappement est utilisé pour échapper le délimiteur de colonne et lui-même. | < votre guillemet sélectionné > Guillemets " (par défaut) |
Non | quoteChar |
Première ligne comme en-tête | Spécifie s’il faut considérer la première ligne dans la feuille de calcul/plage donnée comme une ligne d’en-tête avec les noms des colonnes. | Sélectionné ou non sélectionné | No | firstRowAsHeader : true ou false (valeur par défaut) |
Valeur Null | Spécifie la représentation sous forme de chaîne de la valeur null. La valeur par défaut est une chaîne vide. | < représentation sous forme de chaîne de la valeur null > chaîne vide (par défaut) |
Non | nullValue |
Nombre de lignes ignorées | indique le nombre de lignes non vides à ignorer lors de la lecture des données à partir des fichiers d’entrée. Si le nombre de sauts de ligne et la première ligne en tant qu’en-tête sont spécifiés, les lignes sont d’abord ignorées, puis les informations d’en-tête sont lues à partir du fichier d’entrée. | < votre nombre de lignes d’évitement > | Non | skipLineCount |
Texte délimité comme destination
Les propriétés suivantes sont prises en charge dans la section Destination de l’activité de copie lors de l’utilisation du format texte délimité.
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Format de fichier | Format de fichier que vous souhaitez utiliser. | Texte délimité | Yes | type (sous datasetSettings ) :DelimitedText |
Type de compression | Codec de compression utilisé pour écrire des fichiers texte délimités. | Choisissez parmi : Aucun bzip2 gzip Dégonfler ZipDeflate TarGzip Tar |
No | type (sous compression ) :bzip2 gzip Dégonfler ZipDeflate TarGzip tar |
Conserver le nom du fichier zip en tant que dossier | Indique si le nom du fichier zip source doit être conservé en tant que structure de dossiers lors de la copie. | Sélectionné ou désélection | Non | preserveZipFileNameAsFolder (sous compressionProperties ->type en tant que ZipDeflateReadSettings ) |
Conserver le nom du fichier de compression en tant que dossier | Indique si le nom du fichier source compressé doit être conservé en tant que structure de dossiers lors de la copie. | Sélectionné ou désélection | Non | preserveCompressionFileNameAsFolder (sous compressionProperties ->type en tant que TarGZipReadSettings ou TarReadSettings ) |
Niveau de compression | Le taux de compression. Les valeurs autorisées sont Optimal ou Fastest. | Optimal ou Le plus rapide | No | niveau (sous compression ) :Le plus rapide Optimal |
Délimiteur de colonne | Caractère(s) utilisé(s) pour séparer les colonnes dans un fichier. | < délimiteur de colonnes sélectionné > virgule , (par défaut) |
No | columnDelimiter |
Séparateur de lignes | caractère utilisé pour séparer les lignes dans un fichier. | < délimiteur de ligne sélectionné > \r ,\n (par défaut) ou r\n |
Non | rowDelimiter |
Encodage | Le type de codage utilisé pour lire/écrire des fichiers de test. | « UTF-8 » (par défaut),"UTF-8 sans nomenclature », « UTF-16 », « UTF-16BE », « UTF-32 », « UTF-32BE », « US-ASCII », « UTF-7 », « BIG5 », « EUC-JP », « EUC-KR », « GB2312 », « GB18030 », « JOHAB », « SHIFT-JIS », « CP875 », « CP866 », « IBM00858 », « IBM037 », « IBM273 », « IBM437 », « IBM500 », « IBM737 », « IBM775 », « IBM850 », « IBM852 », « IBM855 », « IBM857 », « IBM860 », « IBM861 », « IBM863 », « IBM864 », « IBM865 », « IBM869 », « IBM870 », « IBM01140 », « IBM01141 », « IBM01142 », « IBM01143 », « IBM01144 », « IBM01145 », « IBM01146 », « IBM01147 », « IBM01148 », « IBM01149 », « ISO-2022-JP », « ISO-2022-KR », « ISO-8859-1 », « ISO-8859-2 », « ISO-8859-3 », « ISO-8859-4 », « ISO-8859-5 », « ISO-8859-6 », « ISO-8859-7 », « ISO-8859-8 », « ISO-8859-9 », « ISO-8859-13 », « ISO-8859-15 », « WINDOWS-874 », « WINDOWS-1250 », « WINDOWS-1251 », « WINDOWS-1252 », « WINDOWS-1252 », « WINDOWS-1252 »1253 », « WINDOWS-1254 », « WINDOWS-1255 », « WINDOWS-1256 », « WINDOWS-1257 », « WINDOWS-1258 » | Non | encodingName |
Caractère d’échappement | Le caractère unique pour placer les guillemets dans une séquence d’échappement à l’intérieur d’une valeur entre guillemets. Lorsque le caractère d’échappement est défini en tant que chaîne vide, le caractère Guillemet doit également être défini comme chaîne vide, auquel cas assurez-vous que toutes les valeurs de colonne ne contiennent pas de délimiteurs. | < caractère d’échappement sélectionné > Backslash \ (par défaut) |
Non | escapeChar |
Caractère de guillemet | Le caractère unique pour mettre entre guillemets les valeurs de colonne si elle contient un délimiteur de colonne. Lorsque le caractère Guillemet est défini comme une chaîne vide, cela signifie qu’il n’y a pas de guillemets et que la valeur de colonne n’est pas entre guillemets, et que le caractère d’échappement est utilisé pour échapper au délimiteur de colonne et lui-même. | < le caractère de guillemet sélectionné > Guillemets " (par défaut) |
Non | quoteChar |
Première ligne comme en-tête | Spécifie s’il faut considérer la première ligne dans la feuille de calcul/plage donnée comme une ligne d’en-tête avec les noms des colonnes. | Sélectionné ou non sélectionné | No | firstRowAsHeader : true ou false (par défaut) |
Citer tout le texte | Placez toutes les valeurs entre guillemets. | Sélectionné (par défaut) ou non sélectionné | No | quoteAllText : true (valeur par défaut) ou false |
Extension de fichier | Extension de fichier utilisée pour nommer les fichiers de sortie. | < votre extension de fichier > .txt (par défaut) |
No | fileExtension |
Nombre maximal de lignes par fichier | Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d’écrire dans plusieurs fichiers et de spécifier le nombre maximal de lignes par fichier. | < nombre maximal de lignes par fichier > | No | maxRowsPerFile |
Préfixe de nom de fichier | Applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : <fileNamePrefix>_00000.<fileExtension> . S’il n’est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s’applique pas lorsque la source est un magasin de données basé sur un fichier ou une option de partition activée. |
< préfixe de votre nom de fichier > | Non | fileNamePrefix |