Editar

Sugira tags de conteúdo com PNL usando deep learning

Azure Container Registry
Azure AI Search
Azure Kubernetes Service (AKS)
Azure Machine Learning

Ideias de soluções

Este artigo é uma ideia de solução. Se você quiser que expandamos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações de implementação ou orientação de preços, informe-nos fornecendo feedback do GitHub.

Este artigo descreve como você pode usar a IA da Microsoft para melhorar a precisão da marcação de conteúdo do site combinando aprendizado profundo e processamento de linguagem natural (NLP) com dados em termos de pesquisa específicos do site.

Arquitetura

Diagrama de arquitetura: visão geral do uso do Azure Machine Learning para ajudar a sugerir tags de conteúdo para sites.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

  1. Os dados são armazenados em vários formatos, dependendo da sua fonte original. Os dados podem ser armazenados como arquivos no Armazenamento do Azure Data Lake ou em forma de tabela no Azure Synapse ou no Banco de Dados SQL do Azure.

  2. O Aprendizado de Máquina (ML) do Azure pode se conectar e ler dessas fontes, para ingerir os dados no pipeline de PNL para pré-processamento, treinamento de modelo e pós-processamento.

  3. O pré-processamento de PNL inclui várias etapas para consumir dados, com a finalidade de generalização de texto. Uma vez que o texto é dividido em frases, as técnicas de PNL, como lemmatização ou derivação, permitem que a linguagem seja tokenizada em uma forma geral.

  4. Como os modelos de PNL já estão disponíveis pré-treinados, a abordagem de aprendizagem por transferência recomenda que você baixe incorporações específicas do idioma e use um modelo padrão do setor para classificação de texto de várias classes, como variações do BERT.

  5. O pós-processamento de PNL recomenda armazenar o modelo em um registro de modelo no Azure ML, para controlar as métricas do modelo. Além disso, o texto pode ser pós-processado com regras de negócios específicas que são definidas deterministicamente, com base nos objetivos de negócios. A Microsoft recomenda o uso de ferramentas éticas de IA para detetar linguagem tendenciosa, o que garante o treinamento justo de um modelo de linguagem.

  6. O modelo pode ser implantado por meio do Serviço Kubernetes do Azure, enquanto executa um cluster gerenciado pelo Kubernetes onde os contêineres são implantados a partir de imagens armazenadas no Registro de Contêiner do Azure. Os pontos de extremidade podem ser disponibilizados para um aplicativo front-end. O modelo pode ser implantado por meio do Serviço Kubernetes do Azure como pontos de extremidade em tempo real.

  7. Os resultados do modelo podem ser gravados em uma opção de armazenamento em formato de arquivo ou tabela e, em seguida, indexados corretamente pela Pesquisa Cognitiva do Azure. O modelo seria executado como inferência em lote e armazenaria os resultados no respetivo armazenamento de dados.

Componentes

Detalhes do cenário

Sites sociais, fóruns e outros serviços de perguntas e respostas com muito texto dependem fortemente da marcação de conteúdo, o que permite uma boa indexação e pesquisa do usuário. Muitas vezes, no entanto, a marcação de conteúdo é deixada à discrição dos usuários. Como os usuários não têm listas de termos comumente pesquisados ou uma compreensão profunda da estrutura do site, eles frequentemente rotulam o conteúdo incorretamente. O conteúdo rotulado incorretamente é difícil ou impossível de encontrar quando é necessário mais tarde.

Potenciais casos de utilização

Usando o processamento de linguagem natural (NLP) com aprendizado profundo para marcação de conteúdo, você habilita uma solução escalável para criar tags no conteúdo. À medida que os usuários pesquisam conteúdo por palavras-chave, esse processo de classificação multiclasse enriquece o conteúdo não marcado com rótulos que permitirão pesquisar partes substanciais do texto, o que melhora os processos de recuperação de informações. O novo conteúdo recebido será marcado adequadamente executando a inferência de PNL.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

  • Louis Li - Brasil | Engenheiro de Clientes Sênior

Próximos passos

Consulte a documentação do produto:

Experimente estes módulos do Microsoft Learn:

Veja os seguintes artigos de arquitetura relacionados: