Converter Word em componente Vetor

2024-09-01

Este artigo descreve como usar o componente Converter Word em Vetor no designer do Aprendizado de Máquina do Azure para executar estas tarefas:

Aplique vários modelos do Word2Vec (modelo pré-treinado do Word2Vec, FastText, GloVe) no corpus de texto que você especificou como entrada.
Gere um vocabulário com incorporações de palavras.

Este componente usa a biblioteca Gensim. Para obter mais informações sobre Gensim, consulte seu site oficial, que inclui tutoriais e uma explicação de algoritmos.

Mais sobre como converter palavras em vetores

A conversão de palavras em vetores, ou vetorização de palavras, é um processo de processamento de linguagem natural (NLP). O processo usa modelos de linguagem para mapear palavras no espaço vetorial. Um espaço vetorial representa cada palavra por um vetor de números reais. Também permite que palavras com significados semelhantes tenham representações semelhantes.

Use incorporações de palavras como entrada inicial para tarefas downstream de PNL, como classificação de texto e análise de sentimento.

Entre várias tecnologias de incorporação de palavras, neste componente, implementamos três métodos amplamente utilizados. Dois, Word2Vec e FastText, são modelos de treinamento online. O outro é um modelo pré-treinado, luva-wiki-gigaword-100.

Os modelos de treinamento on-line são treinados em seus dados de entrada. Os modelos pré-treinados são treinados off-line em um corpus de texto maior (por exemplo, Wikipedia, Google News) que geralmente contém cerca de 100 bilhões de palavras. A incorporação de palavras permanece constante durante a vetorização de palavras. Os modelos de palavras pré-treinados oferecem benefícios como tempo de treinamento reduzido, melhores vetores de palavras codificados e melhor desempenho geral.

Aqui estão algumas informações sobre os métodos:

Word2Vec é uma das técnicas mais populares para aprender incorporações de palavras usando uma rede neural superficial. A teoria é discutida neste artigo, disponível para download em PDF: Efficient Estimation of Word Representations in Vetor Space. A implementação neste componente é baseada na biblioteca Gensim para Word2Vec.
A teoria do FastText é explicada neste artigo, disponível para download em PDF: Enriching Word Vectors with Subword Information. A implementação neste componente é baseada na biblioteca Gensim para FastText.
O modelo pré-treinado do GloVe é glove-wiki-gigaword-100. É uma coleção de vetores pré-treinados com base em um corpus de texto da Wikipédia, que contém 5,6 bilhões de tokens e 400.000 palavras de vocabulário sem caixa. Está disponível um download em PDF: GloVe: Global Vectors for Word Representation.

Como configurar Converter Word em Vetor

Este componente requer um conjunto de dados que contém uma coluna de texto. O texto pré-processado é melhor.

Adicione o componente Converter Word em Vetor ao seu pipeline.
Como entrada para o componente, forneça um conjunto de dados que contenha uma ou mais colunas de texto.
Para a coluna Destino, escolha apenas uma coluna que contenha texto para processar.

Como este componente cria um vocabulário a partir do texto, o conteúdo das colunas difere, o que leva a diferentes conteúdos de vocabulário. É por isso que o componente aceita apenas uma coluna de destino.
Para a estratégia Word2Vec, escolha entre GloVe pretrained English Model, Gensim Word2Vec e Gensim FastText.
Se a estratégia do Word2Vec for Gensim Word2Vec ou Gensim FastText:
- Para o algoritmo de treinamento do Word2Vec, escolha entre Skip_gram e CBOW. A diferença é introduzida no artigo original (PDF).
  
  O método padrão é Skip_gram.
- Em Comprimento da incorporação de palavras, especifique a dimensionalidade dos vetores de palavras. Esta configuração corresponde ao size parâmetro em Gensim.
  
  O tamanho de incorporação padrão é 100.
- Para Tamanho da janela de contexto, especifique a distância máxima entre a palavra que está sendo prevista e a palavra atual. Esta configuração corresponde ao window parâmetro em Gensim.
  
  O tamanho padrão da janela é 5.
- Para Número de épocas, especifique o número de épocas (iterações) ao longo do corpus. Corresponde ao iter parâmetro em Gensim.
  
  O número de época padrão é 5.
Para Tamanho máximo do vocabulário, especifique o número máximo de palavras no vocabulário gerado.

Se houver palavras mais exclusivas do que o tamanho máximo, pode as pouco frequentes.

O tamanho padrão do vocabulário é 10.000.
Para Contagem mínima de palavras, forneça uma contagem mínima de palavras. O componente ignorará todas as palavras que têm uma frequência inferior a esse valor.

O valor padrão é 5.
Envie o pipeline.

Exemplos

O componente tem uma saída:

Vocabulário com incorporações: Contém o vocabulário gerado, juntamente com a incorporação de cada palavra. Uma dimensão ocupa uma coluna.

O exemplo a seguir mostra como o componente Converter Word em vetor funciona. Ele usa Converter Word em Vetor com configurações padrão para o conjunto de dados Wikipedia SP 500 pré-processado.

Conjunto de dados de origem

O conjunto de dados contém uma coluna de categoria, juntamente com o texto completo obtido na Wikipédia. A tabela a seguir mostra alguns exemplos representativos.

Texto
NASDAQ 100 Componente S P 500 Componente Fundação Fundador Localização Cidade Apple Campus 1 Infinite Loop Street Infinite Loop Cupertino Califórnia Cupertino Califórnia Localização País Estados Unidos...
BR NASDAQ 100 NASDAQ 100 Componente BR S P 500 S P 500 Indústria de Componentes Computer Software Foundation BR Fundador Charles Geschke BR John Warnock Localização Adobe Systems...
s p 500 s p 500 indústria de componentes indústria automotiva antecessor automotivo general motors corporation 1908 2009 sucessor...
s p 500 s p 500 indústria de componentes conglomerado empresa conglomerado fundação fundação localização cidade fairfield connecticut fairfield connecticut localização país eua área...
BR S P 500 S P 500 Componente Fundação 1903 Fundador William S Harley BR Arthur Davidson Harley Davidson Fundador Arthur Davidson BR Walter Davidson BR William A Davidson Local...

Vocabulário de saída com incorporações

A tabela a seguir contém a saída deste componente, tomando o conjunto de dados Wikipedia SP 500 como entrada. A coluna mais à esquerda indica o vocabulário. Seu vetor de incorporação é representado pelos valores das colunas restantes na mesma linha.

Vocabulário	Incorporação de dim 0	Incorporação dim 1	Incorporação dim 2	Incorporação dim 3	Incorporação dim 4	Incorporação dim 5	...	Incorporação dim 99
NASDAQ	-0.375865	0.609234	0.812797	-0.002236	0.319071	-0.591986	...	0.364276
componente	0.081302	0.40001	0.121803	0.108181	0.043651	-0.091452	...	0.636587
s	-0.34355	-0.037092	-0.012167	0.151542	0.601019	0.084501	...	0.149419
p	-0.133407	0.073244	0.170396	0.326706	0.213463	-0.700355	...	0.530901
Fundação	-0.166819	0.10883	-0.07933	-0.073753	0.262137	0.045725	...	0.27487
fundador	-0.297408	0.493067	0.316709	-0.031651	0.455416	-0.284208	...	0.22798
localização	-0.375213	0.461229	0.310698	0.213465	0.200092	0.314288	...	0.14228
cidade	-0.460828	0.505516	-0.074294	-0.00639	0.116545	0.494368	...	-0.2403
maçã	0.05779	0.672657	0.597267	-0.898889	0.099901	0.11833	...	0.4636
Campus	-0.281835	0.29312	0.106966	-0.031385	0.100777	-0.061452	...	0.05978
infinito	-0.263074	0.245753	0.07058	-0.164666	0.162857	-0.027345	...	-0.0525
laço	-0.391421	0.52366	0.141503	-0.105423	0.084503	-0.018424	...	-0.0521

Neste exemplo, usamos o padrão Gensim Word2Vec para a estratégia do Word2Vec e o algoritmo de treinamento é Skip-gram. O comprimento da incorporação de palavras é 100, por isso temos 100 colunas de incorporação.

Notas técnicas

Esta secção contém sugestões e respostas a perguntas frequentes.

Diferença entre o modelo de treinamento on-line e o modelo pré-treinado:

Neste componente Converter Word em Vetor, fornecemos três estratégias diferentes: dois modelos de treinamento on-line e um modelo pré-treinado. Os modelos de treinamento on-line usam seu conjunto de dados de entrada como dados de treinamento e geram vocabulário e vetores de palavras durante o treinamento. O modelo pré-treinado já é treinado por um corpus de texto muito maior, como a Wikipédia ou o texto X. O modelo pré-treinado é, na verdade, uma coleção de pares de palavras/incorporação.

O modelo pré-treinado do GloVe resume um vocabulário do conjunto de dados de entrada e gera um vetor de incorporação para cada palavra do modelo pré-treinado. Sem treinamento on-line, o uso de um modelo pré-treinado pode economizar tempo de treinamento. Tem melhor desempenho, especialmente quando o tamanho do conjunto de dados de entrada é relativamente pequeno.
Tamanho da incorporação:

Em geral, o comprimento da incorporação de palavras é definido para algumas centenas. Por exemplo, 100, 200, 300. Um tamanho de incorporação pequeno significa um pequeno espaço vetorial, o que pode causar colisões de incorporação de palavras.

O comprimento das incorporações de palavras é fixo para modelos pré-treinados. Neste exemplo, o tamanho de incorporação da luva-wiki-gigaword-100 é 100.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.

Para obter uma lista de erros específicos para os componentes do designer, consulte Códigos de erro do Machine Learning.