Compartilhar via


Dividir dados usando uma expressão regular

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

este artigo descreve como usar a opção de divisão expressão Regular no módulo dividir dados do Machine Learning Studio (clássico). Essa opção é útil quando você precisa aplicar um critério de filtro a uma coluna de texto. Por exemplo, você pode dividir seu conjunto de dado se um produto específico for mencionado.

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Você pode usar uma divisão de expressão regular em uma única coluna de texto. Você define uma expressão regular que inclui o nome da coluna de texto e, em seguida, define as condições que se aplicam à coluna, como "começa com", "Contains" ou "não contém".

Para obter informações gerais sobre o particionamento de dados para experimentos de aprendizado de máquina, consulte dividir dados e particionar e dividir.

Outras opções no módulo dividir dados :

Usar uma expressão regular para dividir um conjunto de um DataSet

  1. Adicione o módulo dividir dados ao seu experimento e conecte-o como entrada para o conjunto que você deseja dividir.

  2. Para o Modo de divisão, selecione Dividir expressão regular.

  3. Na caixa expressão regular , digite uma expressão regular válida. Alguns exemplos são fornecidos aqui.

    A expressão regular é aplicada somente à coluna especificada, que deve ser um tipo de dados de cadeia de caracteres.

    Para obter ajuda para compor expressões regulares, consulte a linguagem de expressão regular-referência rápida.

  4. Execute o experimento ou clique com o botão direito do mouse no módulo e selecione executar selecionado.

    Com base na expressão regular que você fornece, o conjunto de registros é dividido em dois conjuntos de linhas: linhas com valores que correspondem à expressão e todas as linhas restantes.

Exemplos

Os exemplos a seguir demonstram como dividir um conjunto de um DataSet usando a opção de expressão regular .

Palavra inteira única

Este exemplo coloca no primeiro conjunto de dados todas as linhas que contêm o texto Gryphon na coluna Text , e coloca outras linhas na segunda saída de Split data:

    \"Text" Gryphon  

Subcadeia de caracteres

Este exemplo procura a cadeia de caracteres especificada em qualquer posição dentro da segunda coluna do conjunto de valores, indicado aqui pelo valor de índice de 1. A correspondência diferencia maiúsculas e minúsculas.

(\1) ^[a-f]

O primeiro conjunto de dados resultantes contém todas as linhas nas quais a coluna de índice começa com um destes caracteres: a, b, c, d, e, f. Todas as outras linhas são direcionadas para a segunda saída.

Correspondência de cadeia de caracteres em endereços IP

Este exemplo divide alguns dados de log do servidor em duas categorias para análise: conexões por trás do firewall e conexões com endereços IP fora do firewall. A expressão regular é aplicada ao IP_Address campo (um tipo de dados de cadeia de caracteres ).

(\IP_Address) ^[10]

A primeira saída contém todos os endereços que começam com 10 .

Confira também

Exemplo e divisão
Particionar e Gerar Amostra