Ideias de soluções
Este artigo é uma ideia de solução. Se você quiser que expandamos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações de implementação ou orientação de preços, informe-nos fornecendo feedback do GitHub.
Este artigo descreve como você pode usar a IA da Microsoft para melhorar a precisão da marcação de conteúdo do site combinando aprendizado profundo e processamento de linguagem natural (NLP) com dados em termos de pesquisa específicos do site.
Arquitetura
Transfira um ficheiro do Visio desta arquitetura.
Fluxo de dados
Os dados são armazenados em vários formatos, dependendo da sua fonte original. Os dados podem ser armazenados como arquivos no Armazenamento do Azure Data Lake ou em forma de tabela no Azure Synapse ou no Banco de Dados SQL do Azure.
O Aprendizado de Máquina (ML) do Azure pode se conectar e ler dessas fontes, para ingerir os dados no pipeline de PNL para pré-processamento, treinamento de modelo e pós-processamento.
O pré-processamento de PNL inclui várias etapas para consumir dados, com a finalidade de generalização de texto. Uma vez que o texto é dividido em frases, as técnicas de PNL, como lemmatização ou derivação, permitem que a linguagem seja tokenizada em uma forma geral.
Como os modelos de PNL já estão disponíveis pré-treinados, a abordagem de aprendizagem por transferência recomenda que você baixe incorporações específicas do idioma e use um modelo padrão do setor para classificação de texto de várias classes, como variações do BERT.
O pós-processamento de PNL recomenda armazenar o modelo em um registro de modelo no Azure ML, para controlar as métricas do modelo. Além disso, o texto pode ser pós-processado com regras de negócios específicas que são definidas deterministicamente, com base nos objetivos de negócios. A Microsoft recomenda o uso de ferramentas éticas de IA para detetar linguagem tendenciosa, o que garante o treinamento justo de um modelo de linguagem.
O modelo pode ser implantado por meio do Serviço Kubernetes do Azure, enquanto executa um cluster gerenciado pelo Kubernetes onde os contêineres são implantados a partir de imagens armazenadas no Registro de Contêiner do Azure. Os pontos de extremidade podem ser disponibilizados para um aplicativo front-end. O modelo pode ser implantado por meio do Serviço Kubernetes do Azure como pontos de extremidade em tempo real.
Os resultados do modelo podem ser gravados em uma opção de armazenamento em formato de arquivo ou tabela e, em seguida, indexados corretamente pela Pesquisa Cognitiva do Azure. O modelo seria executado como inferência em lote e armazenaria os resultados no respetivo armazenamento de dados.
Componentes
- Armazenamento Data Lake para análise de Big Data
- Azure Machine Learning
- Azure Cognitive Search
- Azure Container Registry
- Azure Kubernetes Service (AKS)
Detalhes do cenário
Sites sociais, fóruns e outros serviços de perguntas e respostas com muito texto dependem fortemente da marcação de conteúdo, o que permite uma boa indexação e pesquisa do usuário. Muitas vezes, no entanto, a marcação de conteúdo é deixada à discrição dos usuários. Como os usuários não têm listas de termos comumente pesquisados ou uma compreensão profunda da estrutura do site, eles frequentemente rotulam o conteúdo incorretamente. O conteúdo rotulado incorretamente é difícil ou impossível de encontrar quando é necessário mais tarde.
Potenciais casos de utilização
Usando o processamento de linguagem natural (NLP) com aprendizado profundo para marcação de conteúdo, você habilita uma solução escalável para criar tags no conteúdo. À medida que os usuários pesquisam conteúdo por palavras-chave, esse processo de classificação multiclasse enriquece o conteúdo não marcado com rótulos que permitirão pesquisar partes substanciais do texto, o que melhora os processos de recuperação de informações. O novo conteúdo recebido será marcado adequadamente executando a inferência de PNL.
Contribuidores
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.
Autor principal:
- Louis Li - Brasil | Engenheiro de Clientes Sênior
Próximos passos
Consulte a documentação do produto:
- Introdução ao Azure Data Lake Storage Gen2
- Azure Machine Learning
- Documentação do Azure Cognitive Search
- Saiba mais sobre o Azure Container Registry
- Azure Kubernetes Service
Experimente estes módulos do Microsoft Learn:
- Introdução ao Processamento de Linguagem Natural com o PyTorch
- Treinar e avaliar modelos de aprendizagem profunda
- Implementar a mineração de conhecimento com a Pesquisa Cognitiva do Azure
Recursos relacionados
Veja os seguintes artigos de arquitetura relacionados:
- Tecnologia de processamento de linguagem natural
- Construa um lago delta para dar suporte a consultas ad hoc em reservas on-line de viagens e lazer
- Consultar um data lake ou lakehouse usando o Azure Synapse serverless
- Estrutura de operações de aprendizado de máquina (MLOps) para aumentar o ciclo de vida do aprendizado de máquina com o Azure Machine Learning
- Introdução à manutenção preditiva na manufatura
- Solução de manutenção preditiva