Compartilhar via


Formato ORC no Data Factory no Microsoft Fabric

Este artigo descreve como configurar o formato ORC no pipeline de dados do Data Factory no Microsoft Fabric.

Funcionalidades com suporte

O formato ORC é compatível com as seguintes atividades e conectores como origem e destino.

Categoria Conector/Atividade
Conector compatível Amazon S3
Amazon S3 Compatible
Armazenamento de Blobs do Azure
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Arquivos do Azure
Sistema de arquivos
FTP
Google Cloud Storage
HTTP
Arquivos do Lakehouse
Oracle Cloud Storage
SFTP
Atividade com suporte atividade Copy (Origem/Destino)
Atividade de pesquisa
Atividade GetMetadata
Excluir atividade de dados

Formato ORC na atividade de cópia

Para configurar o formato ORC, escolha sua conexão na origem ou no destino da atividade de cópia do pipeline de dados e, em seguida, selecione OCR na lista suspensa de Formato de arquivo. Selecione Configurações para configuração adicional desse formato.

Captura de tela mostrando as configurações de formato de arquivo.

Formato OCR como origem

Depois de selecionar Configurações na seção Formato de arquivo, as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.

Captura de tela mostrando a origem do formato de arquivo ORC.

  • Tipo de compactação: Escolha o codec de compactação usado para ler arquivos ORC na lista suspensa. Você pode escolher entre Nenhum, zlib ou snappy.

Formato ORC como destino

Depois de selecionar Configurações, as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.

Captura de tela mostrando o destino do formato de arquivo ORC.

  • Tipo de compactação: Escolha o codec de compactação usado para gravar arquivos ORC na lista suspensa. Você pode escolher entre Nenhum, zlib ou snappy.

Nas configurações Avançadas na guia Destino, as seguintes propriedades relacionadas ao formato ORC são exibidas.

  • Máximo de linhas por arquivo: ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique as linhas máximas que você deseja gravar por arquivo.
  • Prefixo de nome de arquivo: aplicável quando o máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: <fileNamePrefix>_00000.<fileExtension>. Se não for especificado, o prefixo de nome de arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é um repositório baseado em arquivo ou um armazenamento de dados habilitado para uma opção de partição.

Resumo da tabela

ORC como fonte

As seguintes propriedades são suportadas na seção Origem da atividade de cópia ao usar o formato ORC.

Nome Descrição Valor Obrigatório Propriedade de script JSON
Formato de arquivo O formato de arquivo que você deseja usar. ORC Sim tipo (em datasetSettings):
Orc
Tipo de compactação O codec de compactação usado para ler arquivos ORC. Nenhum
zlib
snappy
Não orcCompressionCodec:
nenhum
zlib
snappy

ORC como destino

As propriedades a seguir são compatíveis na seção Destino da atividade de cópia ao usar o formato ORC.

Nome Descrição Valor Obrigatório Propriedade de script JSON
Formato de arquivo O formato de arquivo que você deseja usar. ORC Sim tipo (em datasetSettings):
Orc
Tipo de compactação O codec de compactação usado para gravar arquivos ORC. Nenhum
zlib
snappy
Não orcCompressionCodec:
nenhum
zlib
snappy
Máximo de linhas por arquivo Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique as linhas máximas que você deseja gravar por arquivo. <suas linhas máximas por arquivo > Não maxRowsPerFile
Prefixo de nome de arquivo Aplicável quando o Máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: <fileNamePrefix>_00000.<fileExtension>. Se não for especificado, o prefixo de nome de arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é um repositório baseado em arquivo ou um armazenamento de dados habilitado para uma opção de partição. <o prefixo do seu nome de arquivo > Não fileNamePrefix