Share via


Saiba mais sobre a codificação preditiva na descoberta eletrônica (Premium) (versão prévia)

O módulo de codificação preditiva no eDiscovery (Premium) usa os recursos inteligentes de machine learning para ajudá-lo a reduzir a quantidade de conteúdo a ser revisto. A codificação preditiva ajuda você a reduzir e reduzir grandes volumes de conteúdo de caso para um conjunto relevante de itens que você pode priorizar para revisão. Isso é feito criando e treinando seus próprios modelos de codificação preditiva que ajudam você a priorizar a revisão dos itens mais relevantes em um conjunto de revisão.

O módulo de codificação preditiva foi projetado para simplificar a complexidade de gerenciar um modelo dentro de um conjunto de revisão e fornecer uma abordagem iterativa para treinar seu modelo para que você possa começar mais rapidamente com os recursos de machine learning na descoberta eletrônica (Premium). Para começar, você pode criar um modelo, rotular apenas 50 itens como relevantes ou não relevantes. O sistema usa esse treinamento para aplicar pontuações de previsão a cada item no conjunto de revisão. Isso permite filtrar itens com base na pontuação de previsão, o que permite que você examine os itens mais relevantes (ou não relevantes) primeiro. Se você quiser treinar modelos com maiores precisões e taxas de recall, poderá continuar rotulando itens em rodadas de treinamento subsequentes até que o modelo se estabilize.

Dica

Se você não for um cliente E5, use a avaliação de soluções do Microsoft Purview de 90 dias para explorar como recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações portal de conformidade do Microsoft Purview. Saiba mais sobre os termos de inscrição e avaliação.

O fluxo de trabalho de codificação preditiva

Aqui está uma visão geral e uma descrição de cada fluxo de trabalho de codificação preditiva de etapas. Para obter uma descrição mais detalhada dos conceitos e terminologia do processo de codificação preditiva, consulte Referência de codificação preditiva.

Fluxo de trabalho de codificação preditiva.

  1. Crie um novo modelo de codificação preditiva no conjunto de revisão. A primeira etapa é criar um novo modelo de codificação preditiva no conjunto de revisão. Você deve ter pelo menos 2.000 itens no conjunto de revisão para criar um modelo. Depois de criar um modelo, o sistema determinará o número de itens a serem usados como um conjunto de controle. O conjunto de controle é usado durante o processo de treinamento para avaliar as pontuações de previsão que o modelo atribui a itens com a rotulagem que você executa durante as rodadas de treinamento. O tamanho do conjunto de controle é baseado no número de itens no conjunto de revisão e no nível de confiança e na margem de erro que são definidos ao criar o modelo. Os itens no conjunto de controle nunca são alterados e não são identificáveis aos usuários.

    Para obter mais informações, consulte Criar um modelo de codificação preditiva.

  2. Conclua a primeira rodada de treinamento rotulando itens como relevantes ou não relevantes. A próxima etapa é treinar o modelo iniciando a primeira rodada de treinamento. Quando você inicia uma rodada de treinamento, o modelo seleciona aleatoriamente itens adicionais no conjunto de revisão, que é chamado de conjunto de treinamento. Esses itens (tanto do conjunto de controle quanto do conjunto de treinamento) são apresentados a você para que você possa rotular cada um como "relevante" ou "não relevante". A relevância é baseada no conteúdo no item e não em nenhum dos metadados do documento. Depois de concluir o processo de rotulagem na rodada de treinamento, o modelo "aprenderá" com base em como você rotulou os itens no conjunto de treinamento. Com base nesse treinamento, o modelo processará os itens no conjunto de revisão e aplicará uma pontuação de previsão a cada um deles.

    Para obter mais informações, consulte Treinar um modelo de codificação preditiva.

  3. Aplique o filtro de pontuação de previsão a itens no conjunto de revisão. Depois que a etapa de treinamento anterior for concluída, a próxima etapa é aplicar o filtro de pontuação de previsão aos itens na revisão para exibir os itens que o modelo determinou serem "mais relevantes" (como alternativa, você também pode usar um filtro de previsão para exibir itens que "não são relevantes"). Ao aplicar o filtro de previsão, você especifica um intervalo de pontuações de previsão para filtrar. O intervalo de pontuações de previsão cai entre 0 e 1, sendo 0 "não relevante" e 1 sendo relevante. Em geral, itens com pontuações de previsão entre 0 e 0,5 são considerados "não relevantes" e itens com pontuações de previsão entre 0,5 e 1 são considerados relevantes.

    Para obter mais informações, consulte Aplicar um filtro de previsão a um conjunto de revisão.

  4. Execute mais rodadas de treinamento até que o modelo se estabilize. Você pode executar rodadas adicionais de treinamento se quiser criar um modelo com maior precisão de previsão e taxas de recall aumentadas. A taxa de recall mede a proporção de itens que o modelo previu serem relevantes entre os itens realmente relevantes (os que você marcou como relevantes durante o treinamento). A pontuação da taxa de recall varia de 0 a 1. Uma pontuação mais próxima de 1 indica que o modelo identificará itens mais relevantes. Em uma nova rodada de treinamento, você rotula itens adicionais em um novo conjunto de treinamento. Depois de concluir essa rodada de treinamento, o modelo é atualizado com base no novo aprendizado de sua rodada mais recente de itens de rotulagem no conjunto de treinamento. O modelo processará os itens no conjunto de revisão novamente e aplicará novas pontuações de previsão. Você pode continuar executando rodadas de treinamento até que seu modelo se estabilize. Um modelo é considerado estabilizado quando a taxa de rotatividade após a última rodada de treinamento é inferior a 5%. A taxa de rotatividade é definida como percentual de itens em um conjunto de revisão em que a pontuação de previsão foi alterada entre as rodadas de treinamento. O dashboard de codificação preditiva exibe informações e estatísticas que ajudam você a avaliar a estabilidade de um modelo.

  5. Aplique o filtro de pontuação de previsão "final" para revisar os itens definidos para priorizar a revisão. Depois de concluir todas as rodadas de treinamento e estabilizar o modelo, a última etapa é aplicar a pontuação de previsão final ao conjunto de revisão para priorizar a revisão de itens relevantes e não relevantes. Essa é a mesma tarefa que você executou na etapa 3, mas neste ponto o modelo está estável e você não planeja executar mais nenhuma rodada de treinamento.