Partição e Componente de exemplo

Artigo
06/01/2023

Este artigo descreve um componente no estruturador do Azure Machine Learning.

Utilize o componente Partição e Exemplo para efetuar a amostragem num conjunto de dados ou para criar partições a partir do conjunto de dados.

A amostragem é uma ferramenta importante no machine learning porque permite reduzir o tamanho de um conjunto de dados, mantendo a mesma proporção de valores. Este componente suporta várias tarefas relacionadas que são importantes no machine learning:

Dividir os seus dados em múltiplas subsecções do mesmo tamanho.

Pode utilizar as partições para validação cruzada ou para atribuir casos a grupos aleatórios.
Separar dados em grupos e, em seguida, trabalhar com dados de um grupo específico.

Depois de atribuir casos aleatoriamente a diferentes grupos, poderá ter de modificar as funcionalidades que estão associadas apenas a um grupo.
Amostragem.

Pode extrair uma percentagem dos dados, aplicar amostragem aleatória ou escolher uma coluna a utilizar para equilibrar o conjunto de dados e efetuar uma amostragem estratificada nos respetivos valores.
Criar um conjunto de dados mais pequeno para testes.

Se tiver muitos dados, poderá querer utilizar apenas as primeiras n linhas ao configurar o pipeline e, em seguida, mudar para utilizar o conjunto de dados completo quando criar o modelo. Também pode utilizar a amostragem para criar um conjunto de dados mais pequeno para utilização no desenvolvimento.

Configurar o componente

Este componente suporta os seguintes métodos para dividir os seus dados em partições ou para amostragem. Escolha primeiro o método e, em seguida, defina opções adicionais que o método requer.

Head
Amostragem
Atribuir a pastas
Escolher pasta

Obter linhas TOP N a partir de um conjunto de dados

Utilize este modo para obter apenas as primeiras n linhas. Esta opção é útil se quiser testar um pipeline num pequeno número de linhas e não precisar que os dados sejam equilibrados ou amostrados de forma alguma.

Adicione o componente Partição e Exemplo ao pipeline na interface e ligue o conjunto de dados.
Partição ou modo de exemplo: defina esta opção como Cabeçalho.
Número de linhas a selecionar: introduza o número de linhas a devolver.

O número de linhas tem de ser um número inteiro não negativo. Se o número de linhas selecionadas for maior do que o número de linhas no conjunto de dados, é devolvido todo o conjunto de dados.
Submeta o pipeline.

O componente produz um único conjunto de dados que contém apenas o número especificado de linhas. As linhas são sempre lidas na parte superior do conjunto de dados.

Criar um exemplo de dados

Esta opção suporta amostragem aleatória simples ou amostragem aleatória estratificada. É útil se quiser criar um conjunto de dados de exemplo representativo mais pequeno para testes.

Adicione o componente Partição e Exemplo ao pipeline e ligue o conjunto de dados.
Modo de partição ou exemplo: defina esta opção como Amostragem.
Taxa de amostragem: introduza um valor entre 0 e 1. este valor especifica a percentagem de linhas do conjunto de dados de origem que devem ser incluídas no conjunto de dados de saída.

Por exemplo, se quiser apenas metade do conjunto de dados original, introduza 0.5 para indicar que a taxa de amostragem deve ser de 50%.

As linhas do conjunto de dados de entrada são misturadas e colocadas seletivamente no conjunto de dados de saída, de acordo com a proporção especificada.
Semente aleatória para amostragem: opcionalmente, introduza um número inteiro para utilizar como um valor de semente.

Esta opção é importante se quiser que as linhas sejam sempre divididas da mesma forma. O valor predefinido é 0, o que significa que uma semente inicial é gerada com base no relógio do sistema. Este valor pode levar a resultados ligeiramente diferentes sempre que executar o pipeline.
Divisão estratificada para amostragem: selecione esta opção se for importante que as linhas no conjunto de dados sejam divididas uniformemente por alguma coluna de chave antes da amostragem.

Para a coluna Chave de estratificação para amostragem, selecione uma única coluna de estratos a utilizar ao dividir o conjunto de dados. As linhas no conjunto de dados são, em seguida, divididas da seguinte forma:
1. Todas as linhas de entrada são agrupadas (estratificadas) pelos valores na coluna de estratos especificada.
2. As linhas são misturadas em cada grupo.
3. Cada grupo é adicionado seletivamente ao conjunto de dados de saída para cumprir a proporção especificada.
Submeta o pipeline.

Com esta opção, o componente produz um único conjunto de dados que contém uma amostragem representativa dos dados. A parte restante não implementada do conjunto de dados não é saída.

Dividir dados em partições

Utilize esta opção quando quiser dividir o conjunto de dados em subconjunto dos dados. Esta opção também é útil quando pretende criar um número personalizado de pastas para validação cruzada ou dividir linhas em vários grupos.

Adicione o componente Partição e Exemplo ao pipeline e ligue o conjunto de dados.
Para Partição ou modo de exemplo, selecione Atribuir a Pastas.
Utilize a substituição na criação de partições: selecione esta opção se pretender que a linha de exemplo seja colocada novamente no conjunto de linhas para uma possível reutilização. Como resultado, a mesma linha pode ser atribuída a várias pastas.

Se não utilizar a substituição (a opção predefinida), a linha de exemplo não será colocada novamente no conjunto de linhas para uma possível reutilização. Como resultado, cada linha só pode ser atribuída a uma dobra.
Divisão aleatória: selecione esta opção se pretender que as linhas sejam atribuídas aleatoriamente às dobras.

Se não selecionar esta opção, as linhas são atribuídas a dobras através do método round robin.
Seed aleatório: opcionalmente, introduza um número inteiro para utilizar como o valor de seed. Esta opção é importante se quiser que as linhas sejam sempre divididas da mesma forma. Caso contrário, o valor predefinido de 0 significa que será utilizada uma semente inicial aleatória.
Especifique o método do partitioner: Indique como pretende que os dados sejam distribuídos a cada partição, ao utilizar estas opções:
- Partição uniforme: utilize esta opção para colocar um número igual de linhas em cada partição. Para especificar o número de partições de saída, introduza um número inteiro na caixa Especificar número de pastas a dividir uniformemente .
- Partição com proporções personalizadas: utilize esta opção para especificar o tamanho de cada partição como uma lista separada por vírgulas.
  
  Por exemplo, suponha que pretende criar três partições. A primeira partição conterá 50% dos dados. As duas partições restantes irão conter 25% dos dados. Na caixa Lista de proporções separadas por vírgula , introduza estes números: .5, .25, .25.
  
  A soma de todos os tamanhos de partição tem de somar exatamente 1.
  
  Se introduzir números que somam menos de 1, é criada uma partição extra para conter as restantes linhas. Por exemplo, se introduzir os valores .2 e .3, é criada uma terceira partição para conter os restantes 50 por cento de todas as linhas.
  
  Se introduzir números que somam mais de 1, é gerado um erro quando executa o pipeline.
Divisão estratificada: selecione esta opção se pretender que as linhas sejam estratificadas quando divididas e, em seguida, selecione a coluna estratos.
Submeta o pipeline.

Com esta opção, o componente produz vários conjuntos de dados. Os conjuntos de dados são particionados de acordo com as regras que especificou.

Utilizar dados de uma partição predefinida

Utilize esta opção quando tiver dividido um conjunto de dados em múltiplas partições e quiser carregar cada partição por sua vez para análise ou processamento adicional.

Adicione o componente Partition e Sample ao pipeline.
Ligue o componente à saída de uma instância anterior de Partição e Exemplo. Essa instância tem de ter utilizado a opção Atribuir a Pastas para gerar algumas partições.
Partição ou modo de exemplo: selecione Escolher Dobra.
Especifique a dobra a partir da qual deve ser amostrada: selecione uma partição a utilizar ao introduzir o respetivo índice. Os índices de partição são baseados em 1. Por exemplo, se dividisse o conjunto de dados em três partes, as partições teriam os índices 1, 2 e 3.

Se introduzir um valor de índice inválido, é gerado um erro de tempo de conceção: "Erro 0018: Conjunto de dados contém dados inválidos".

Além de agrupar o conjunto de dados por dobras, pode separar o conjunto de dados em dois grupos: uma dobra de destino e tudo o resto. Para tal, introduza o índice de uma única dobra e, em seguida, selecione a opção Escolher complemento da dobra selecionada para obter tudo menos os dados na dobra especificada.
Se estiver a trabalhar com várias partições, tem de adicionar mais instâncias do componente Partição e Exemplo para processar cada partição.

Por exemplo, o componente Partição e Exemplo na segunda linha está definido como Atribuir a Pastas e o componente na terceira linha está definido como Escolher Dobra.
Submeta o pipeline.

Com esta opção, o componente produz um único conjunto de dados que contém apenas as linhas atribuídas a essa dobra.

Nota

Não pode ver as designações de dobra diretamente. Só estão presentes nos metadados.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.