Formato XML no Data Factory no Microsoft Fabric
Este artigo descreve como configurar o formato XML no pipeline de dados do Data Factory no Microsoft Fabric.
O formato XML é suportado para as seguintes atividades e conectores como origem.
Categoria | Conector/Atividade |
---|---|
Conector suportado | Amazon S3 |
Compatível com Amazon S3 | |
Armazenamento de Blobs do Azure | |
Armazenamento do Azure Data Lake Ger1 | |
Azure Data Lake Storage Gen2 (Armazenamento do Azure Data Lake Gen2) | |
Ficheiros do Azure | |
Sistema de ficheiros | |
FTP | |
Google Cloud Storage | |
HTTP | |
Arquivos Lakehouse | |
Armazenamento em nuvem Oracle | |
SFTP | |
Atividade apoiada | Atividade de cópia (fonte/-) |
Atividade de Pesquisa | |
Atividade GetMetadata | |
Excluir atividade |
Para configurar o formato XML, escolha sua conexão na origem da atividade de cópia do pipeline de dados e selecione XML na lista suspensa de Formato de arquivo. Selecione Configurações para configuração adicional deste formato.
Depois de selecionar Configurações na seção Formato de arquivo , as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.
Tipo de compactação: O codec de compactação usado para ler arquivos XML. Você pode escolher entre None, bzip2, gzip, deflate, ZipDeflate, TarGZip ou tar type na lista suspensa.
Se você selecionar ZipDeflate como o tipo de compactação, Preservar nome de arquivo zip como pasta será exibido nas Configurações avançadas na guia Origem .
- Preservar o nome do arquivo zip como pasta: indica se o nome do arquivo zip de origem deve ser preservado como uma estrutura de pasta durante a cópia.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
<specified file path>/<folder named as source zip file>/
. - Se essa caixa estiver desmarcada, o serviço gravará arquivos descompactados diretamente no
<specified file path>
. Certifique-se de que não tem nomes de ficheiros duplicados em ficheiros zip de origem diferentes para evitar corridas ou comportamentos inesperados.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
Se você selecionar TarGZip/tar como o tipo de compactação, Preservar nome do arquivo de compactação como pasta será exibido nas Configurações avançadas na guia Origem .
- Preservar o nome do arquivo de compactação como pasta: indica se o nome do arquivo compactado de origem deve ser preservado como uma estrutura de pasta durante a cópia.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
<specified file path>/<folder named as source compressed file>/
. - Se essa caixa estiver desmarcada, o serviço grava arquivos descompactados diretamente no
<specified file path>
. Certifique-se de que não tem nomes de ficheiro duplicados em ficheiros de origem diferentes para evitar corridas ou comportamentos inesperados.
- Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em
- Preservar o nome do arquivo zip como pasta: indica se o nome do arquivo zip de origem deve ser preservado como uma estrutura de pasta durante a cópia.
Nível de compactação: especifique a taxa de compactação ao selecionar um tipo de compactação. Você pode escolher entre Fastest ou Optimal.
- Mais rápido: A operação de compressão deve ser concluída o mais rápido possível, mesmo que o arquivo resultante não seja compactado de forma ideal.
- Ideal: A operação de compressão deve ser compactada de forma ideal, mesmo que a operação demore mais tempo para ser concluída. Para obter mais informações, consulte o tópico Nível de compactação.
Codificação: especifique o tipo de codificação usado para gravar arquivos de teste. Selecione um tipo na lista suspensa. O valor padrão é UTF-8.
Valor nulo: Especifica a representação da cadeia de caracteres do valor nulo. O valor padrão é cadeia de caracteres vazia.
Em Configurações avançadas na guia Origem , as seguintes propriedades relacionadas ao formato XML são exibidas.
Modo de validação: especifica se o esquema XML deve ser validado. Selecione um modo na lista suspensa.
- Nenhum: Selecione esta opção para não usar o modo de validação.
- xsd: Selecione esta opção para validar o esquema XML usando XSD.
- dtd: Selecione esta opção para validar o esquema XML usando DTD.
Namespaces: especifique se deseja habilitar o namespace ao analisar os arquivos XML. Ele é selecionado por padrão.
Pares de prefixos de namespace: Se os Namespaces estiverem habilitados, selecione + Novo e especifique a URL e o Prefixo. Você pode adicionar mais pares selecionando + Novo.
O URI do namespace para mapeamento de prefixo é usado para nomear campos ao analisar o arquivo XML. Se um arquivo XML tiver namespace e o namespace estiver habilitado, por padrão, o nome do campo será o mesmo que no documento XML. Se houver um item definido para o URI do namespace neste mapa, o nome do campo seráprefix:fieldName
.Detetar tipo de dados: especifique se deseja detetar tipos de dados inteiros, duplos e booleanos. Ele é selecionado por padrão.
As propriedades a seguir são suportadas na seção Fonte da atividade de cópia ao usar o formato XML.
Designação | Descrição | Value | Necessário | Propriedade de script JSON |
---|---|---|---|---|
Formato do ficheiro | O formato de ficheiro que pretende utilizar. | XML | Sim | tipo (em datasetSettings ):Xml |
Tipo de compressão | O codec de compressão usado para ler arquivos XML. | Nenhuma bzip2 gzip deflacionar ZipDeflate TarGZip alcatrão |
Não | tipo (em compression ): bzip2 gzip deflacionar ZipDeflate TarGZip alcatrão |
Nível de compressão | A taxa de compressão. | Mais rápido Ótimo |
Não | nível (em compression ): Mais rápido Ótimo |
Encoding (Codificação) | O tipo de codificação usado para ler arquivos de teste. | "UTF-8" (por padrão),"UTF-8 sem BOM", "UTF-16LE", "UTF-16BE", "UTF-32LE", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Não | encodingName |
Preservar o nome do arquivo zip como pasta | Indica se o nome do arquivo zip de origem deve ser preservado como uma estrutura de pastas durante a cópia. | Selecionado (padrão) ou desmarcado | Não | preserveZipFileNameAsFolder (em compressionProperties ->type como ZipDeflateReadSettings ):true (padrão) ou false |
Preservar o nome do arquivo de compactação como pasta | Indica se o nome do arquivo compactado de origem deve ser preservado como uma estrutura de pastas durante a cópia. | Selecionado (padrão) ou desmarcado | Não | preserveCompressionFileNameAsFolder (em compressionProperties ->type como TarGZipReadSettings ou TarReadSettings ):true (padrão) ou false |
Valor nulo | A representação de cadeia de caracteres de valor nulo. | <seu valor nulo> string vazia (por padrão) |
Não | nullValue |
Modo de validação | Se o esquema XML deve ser validado. | Nenhuma XSD DTD |
Não | validationMode: XSD DTD |
Namespaces (Espaços de nomes) | Se o namespace deve ser habilitado ao analisar os arquivos XML. | Selecionado (padrão) ou não selecionado | Não | namespaces: true (padrão) ou false |
Pares de prefixo de namespace | URI de namespace para mapeamento de prefixo, que é usado para nomear campos ao analisar o arquivo XML. Se um arquivo XML tiver namespace e o namespace estiver habilitado, por padrão, o nome do campo será o mesmo que no documento XML. Se houver um item definido para o URI do namespace neste mapa, o nome do campo será prefix:fieldName . |
<>url :< prefixo> | Não | namespacePrefixes: <>url :< prefixo> |
Detetar tipo de dados | Se os tipos de dados inteiros, duplos e booleanos devem ser detetados. | Selecionado (padrão) ou não selecionado | Não | detectDataType: true (padrão) ou false |