Converter o Word em Componente vetor

Este artigo descreve como utilizar o componente Converter Word em Vetor no estruturador do Azure Machine Learning para realizar estas tarefas:

  • Aplique vários modelos Word2Vec (Word2Vec, FastText, modelo pré-preparado GloVe) no corpus de texto que especificou como entrada.
  • Gerar um vocabulário com incorporações de palavras.

Este componente utiliza a biblioteca Gensim. Para obter mais informações sobre o Gensim, consulte o respetivo site oficial, que inclui tutoriais e uma explicação dos algoritmos.

Mais informações sobre a conversão de palavras em vetores

Converter palavras em vetores ou vetorização de palavras é um processo de processamento de linguagem natural (NLP). O processo utiliza modelos de linguagem para mapear palavras para o espaço de vetor. Um espaço de vetor representa cada palavra por um vetor de números reais. Também permite que palavras com significados semelhantes tenham representações semelhantes.

Utilize incorporações de palavras como entrada inicial para tarefas a jusante NLP, como classificação de texto e análise de sentimentos.

Entre várias tecnologias de incorporação de palavras, neste componente, implementámos três métodos amplamente utilizados. Dois, Word2Vec e FastText, são modelos de preparação online. O outro é um modelo pré-preparado, glove-wiki-gigaword-100.

Os modelos de preparação online são preparados nos seus dados de entrada. Os modelos pré-preparados são preparados offline num corpus de texto maior (por exemplo, Wikipédia, Google News) que normalmente contém cerca de 100 mil milhões de palavras. A incorporação do Word permanece constante durante a vetorização de palavras. Os modelos de palavras pré-preparados proporcionam benefícios, tais como tempo de preparação reduzido, melhores vetores de palavras codificados e melhor desempenho geral.

Eis algumas informações sobre os métodos:

Como configurar Converter o Word em Vetor

Este componente requer um conjunto de dados que contenha uma coluna de texto. O texto pré-processado é melhor.

  1. Adicione o componente Converter Word em Vetor ao pipeline.

  2. Como entrada para o componente, forneça um conjunto de dados que contenha uma ou mais colunas de texto.

  3. Para a coluna Destino, escolha apenas uma coluna que contenha texto a processar.

    Uma vez que este componente cria um vocabulário a partir do texto, o conteúdo das colunas difere, o que leva a diferentes conteúdos de vocabulário. É por isso que o componente aceita apenas uma coluna de destino.

  4. Para a estratégia do Word2Vec, escolha entre GloVe pretrained English Model, Gensim Word2Vec e Gensim FastText.

  5. Se a estratégia do Word2Vec for Gensim Word2Vec ou Gensim FastText:

    • Para o Algoritmo de Preparação do Word2Vec, escolha entre Skip_gram e CBOW. A diferença é introduzida no papel original (PDF).

      O método predefinido é Skip_gram.

    • Para a incorporação de comprimento da palavra, especifique a dimensionalidade da palavra vetores. Esta definição corresponde ao size parâmetro em Gensim.

      O tamanho de incorporação predefinido é 100.

    • Para o tamanho da janela Contexto, especifique a distância máxima entre a palavra que está a ser prevista e a palavra atual. Esta definição corresponde ao window parâmetro em Gensim.

      O tamanho predefinido da janela é 5.

    • Para Número de épocas, especifique o número de épocas (iterações) sobre o corpus. Corresponde ao iter parâmetro em Gensim.

      O número de época predefinido é 5.

  6. Para Tamanho máximo do vocabulário, especifique o número máximo de palavras no vocabulário gerado.

    Se existirem palavras mais exclusivas do que o tamanho máximo, pode as palavras pouco frequentes.

    O tamanho predefinido do vocabulário é 10 000.

  7. Para Contagem mínima de palavras, forneça uma contagem mínima de palavras. O componente irá ignorar todas as palavras que têm uma frequência inferior a este valor.

    O valor predefinido é 5.

  8. Submeta o pipeline.

Exemplos

O componente tem uma saída:

  • Vocabulário com incorporações: contém o vocabulário gerado, juntamente com a incorporação de cada palavra. Uma dimensão ocupa uma coluna.

O exemplo seguinte mostra como funciona o componente Converter Word em Vetor. Utiliza Converter o Word em Vetor com predefinições para o conjunto de dados wikipédia SP 500 pré-processado.

Conjunto de dados de origem

O conjunto de dados contém uma coluna de categoria, juntamente com o texto completo obtido na Wikipédia. A tabela seguinte mostra alguns exemplos representativos.

Texto
nasdaq 100 component s p 500 component foundation founder location city apple campus 1 infinite loop street infinite loop cupertino california cupertino california location country united states...
br nasdaq 100 nasdaq 100 component br s p 500 s p 500 componente da indústria informática fundação de software informático br fundador charles geschke br john warnock localização adobe systems...
s p 500 s p 500 componente indústria automóvel indústria automóvel antecessora general motors corporation 1908 2009 sucessor...
s p 500 s p 500 componente indústria conglomerado empresa conglomerado fundação fundação localização cidade fairfield connecticut fairfield connecticut localização país eua área...
br s p 500 s p 500 component foundation 1903 founder william s harley br arthur davidson harley founder arthur davidson br walter davidson br william a davidson location...

Vocabulário de saída com incorporações

A tabela seguinte contém o resultado deste componente, tomando o conjunto de dados wikipédia SP 500 como entrada. A coluna mais à esquerda indica o vocabulário. O vetor de incorporação é representado por valores das colunas restantes na mesma linha.

Vocabulário Incorporar dim 0 Incorporação dim 1 Incorporação de dim 2 Incorporação dim 3 Incorporação dim 4 Incorporação de dim 5 ... Incorporação dim 99
nasdaq -0.375865 0.609234 0.812797 -0.002236 0.319071 -0.591986 ... 0.364276
componente 0.081302 0.40001 0.121803 0.108181 0.043651 -0.091452 ... 0.636587
t -0.34355 -0.037092 -0.012167 0.151542 0.601019 0.084501 ... 0.149419
p -0.133407 0.073244 0.170396 0.326706 0.213463 -0.700355 ... 0.530901
fundação -0.166819 0.10883 -0.07933 -0.073753 0.262137 0.045725 ... 0.27487
fundador -0.297408 0.493067 0.316709 -0.031651 0.455416 -0.284208 ... 0.22798
localização -0.375213 0.461229 0.310698 0.213465 0.200092 0.314288 ... 0.14228
city -0.460828 0.505516 -0.074294 -0.00639 0.116545 0.494368 ... -0.2403
maçã 0.05779 0.672657 0.597267 -0.898889 0.099901 0.11833 ... 0.4636
campus -0.281835 0.29312 0.106966 -0.031385 0.100777 -0.061452 ... 0.05978
infinito -0.263074 0.245753 0.07058 -0.164666 0.162857 -0.027345 ... -0.0525
ciclo -0.391421 0.52366 0.141503 -0.105423 0.084503 -0.018424 ... -0.0521

Neste exemplo, utilizámos a estratégia predefinida Gensim Word2Vec para Word2Vec e o Algoritmo de Preparação é Skip-gram. O comprimento da palavra Incorporação é 100, pelo que temos 100 colunas de incorporação.

Notas técnicas

Esta secção contém sugestões e respostas às perguntas mais frequentes.

  • Diferença entre a preparação online e o modelo pré-preparado:

    Neste componente Converter o Word em Vetor, fornecemos três estratégias diferentes: dois modelos de preparação online e um modelo pré-preparado. Os modelos de preparação online utilizam o seu conjunto de dados de entrada como dados de preparação e geram vetores de vocabulário e palavras durante a preparação. O modelo pré-preparado já está preparado por um corpus de texto muito maior, como a Wikipédia ou o texto do Twitter. O modelo pré-preparado é, na verdade, uma coleção de pares de palavras/incorporação.

    O modelo pré-preparado GloVe resume um vocabulário do conjunto de dados de entrada e gera um vetor de incorporação para cada palavra do modelo pré-preparado. Sem formação online, a utilização de um modelo pré-preparado pode poupar tempo de preparação. Tem um melhor desempenho, especialmente quando o tamanho do conjunto de dados de entrada é relativamente pequeno.

  • Tamanho da incorporação:

    Em geral, o comprimento da incorporação de palavras está definido como algumas centenas. Por exemplo, 100, 200, 300. Um tamanho de incorporação pequeno significa um pequeno espaço de vetor, o que pode causar colisões de incorporação de palavras.

    O comprimento das incorporações de palavras é fixo para modelos pré-preparados. Neste exemplo, o tamanho de incorporação de glove-wiki-gigaword-100 é 100.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.

Para obter uma lista de erros específicos dos componentes do estruturador, veja Códigos de erro do Machine Learning.