Saiba mais sobre classificadores treináveis

Classificar e rotular o conteúdo para que ele possa ser protegido e tratado corretamente é o ponto de partida para a disciplina de proteção de informações. O Microsoft 365 tem três maneiras de classificar o conteúdo.

Manualmente

A classificação manual requer julgamento e ação humanas. Os usuários e administradores os aplicam ao conteúdo à medida que o encontram. Você pode usar os rótulos pré-existentes e os tipos de informações confidenciais ou usar os criados personalizados. Em seguida, você pode proteger o conteúdo e gerenciar sua disposição.

Correspondência automatizada de padrões

Essa categoria de mecanismos de classificação inclui a localização de conteúdo por:

  • Palavras-chave ou valores de metadados (linguagem de consulta de palavra-chave).
  • Usando padrões identificados anteriormente de informações confidenciais, como seguro social, cartão de crédito ou números de conta bancária (definições de entidade de tipo de informação confidencial).
  • Reconhecer um item porque ele é uma variação em um modelo (impressão de dedo do documento).
  • Usando a presença de correspondência exata de dados de cadeias de caracteres exatas.

Os rótulos de confidencialidade e retenção podem ser aplicados automaticamente para disponibilizar o conteúdo para uso no Learn about Prevenção Contra Perda de Dados do Microsoft Purview e aplicar automaticamente políticas para rótulos de retenção.

Classificadores

Esse método de classificação é adequado para conteúdo que não é facilmente identificado pelos métodos manuais ou automatizados de correspondência de padrões. Esse método de classificação é mais sobre o uso de um classificador para identificar um item com base no que é o item, não por elementos que estão no item (correspondência de padrões). Um classificador aprende a identificar um tipo de conteúdo examinando centenas de exemplos do conteúdo que você está interessado em classificar.

Observação

Em Visualização – Você pode exibir os classificadores treináveis no explorador de conteúdo expandindo classificadores treináveis no painel de filtros. Os classificadores treináveis exibirão automaticamente o número de incidentes encontrados no SharePoint, no Teams e no OneDrive, sem a necessidade de nenhuma rotulagem. Se você não quiser usar esse recurso, deverá fazer uma solicitação com Suporte da Microsoft. Isso desabilitará a exibição de seus dados confidenciais que não são usados em nenhuma política de rotulagem no Explorador de Conteúdo. Você também pode desabilitar a verificação de seus dados. Se a verificação estiver desativada, a rotulagem de confidencialidade e as políticas DLP com esses classificadores não funcionarão

Onde você pode usar classificadores

Classificadores estão disponíveis para uso como uma condição para rotulagem automática do Office com rótulos de confidencialidade , aplicar automaticamente a política de rótulo de retenção com base em uma condição e na conformidade de comunicação.

Os rótulos de confidencialidade podem usar classificadores como condições. Consulte Aplicar um rótulo de confidencialidade ao conteúdo automaticamente.

Importante

Os classificadores só funcionam com itens que não são criptografados.

Tipos de classificadores

  • classificadores pré-treinados – a Microsoft criou e treinou previamente vários classificadores que você pode começar a usar sem ser treinado. Esses classificadores aparecerão com o status de Ready to use.
  • classificadores treináveis personalizados – se você tiver necessidades de classificação que se estendem além do que os classificadores pré-treinados abrangem, você pode criar e treinar seus próprios classificadores.

Classificadores pré-treinados

O Microsoft 365 vem com vários classificadores pré-treinados:

  • Adulto, erótico e gory: detecta imagens desses tipos. As imagens devem ter entre 50 quilobytes (KB) e 4 megabytes (MB) e ter mais de 50 x 50 pixels nas dimensões de altura x largura. A verificação e a detecção têm suporte para Exchange Online de email e canais e chats do Microsoft Teams. Detecta o conteúdo em arquivos .jpeg, .png, .gif e .bmp arquivos.

  • Contratos: Detecta conteúdo relacionado a contratos legais, como contratos de não divulgação, declarações de trabalho, contratos de empréstimo e concessão, contratos de emprego e não concorrência. Detecta conteúdo nos arquivos .docx, .docm, .doc, .dotx, .dotm, .dot, .pdf, .rtf, .txt, .one, .msg, .eml.

  • Reclamações do cliente: o classificador de reclamações do cliente detecta comentários e reclamações feitas sobre os produtos ou serviços da sua organização. Esse classificador pode ajudá-lo a atender aos requisitos regulatórios sobre a detecção e a triagem de reclamações, como o Departamento de Proteção Financeira do Consumidor e os requisitos de Administração de Alimentos e Medicamentos. Para Conformidade de Comunicações, ele detecta conteúdo em arquivos .msg e .eml. Para o restante dos serviços Proteção de Informações do Microsoft Purview, ele detecta conteúdo em arquivos .docx, .pdf, .txt, .rtf, .jpg, .jpeg, .png, .gif, .bmp, .svg.

  • Discriminação: detecta linguagem discriminatória explícita e é sensível à linguagem discriminatória contra as comunidades afro-americanas/negras quando comparadas com outras comunidades.

  • Finanças: detecta conteúdo nas categorias de finanças corporativas, contabilidade, economia, bancos e investimentos. Detecta conteúdo em .docx, .docm, .doc, .dotx, .dotm, .dot, .pdf, .rtf, .txt, Arquivos .one, .msg, .eml, .pptx, .pptm, .ppt, .potx, .potm, .pot, .ppsx, .ppsm, .pps, .ppam, .ppa, .xlsx, .xlsm, .xlsb, .xls, .csv, .xltx, .xltm, .xlt, .xlam, .xla.

  • Assédio: Detecta uma categoria específica de itens de texto ofensivos relacionados à conduta ofensiva direcionada a um ou vários indivíduos com base nas seguintes características: raça, etnia, religião, origem nacional, gênero, orientação sexual, idade, deficiência. Detecta conteúdo nos arquivos .msg, .docx, .pdf, .txt, .rtf, .jpeg, .jpg, .png, .gif, .bmp, .svg.

  • Saúde: Detecta conteúdo em aspectos de administração médica e de saúde, como serviços médicos, diagnósticos, tratamento, declarações, etc. Detecta conteúdo em .docx, .docm, .doc, .dotx, .dotm, .dot, .pdf, .rtf, .txt, Arquivos .one, .msg, .eml, .pptx, .pptm, .ppt, .potx, .potm, .pot, .ppsx, .ppsm, .pps, .ppam, .ppa, .xlsx, .xlsm, .xlsb, .xls, .csv, .xltx, .xltm, .xlt, .xlam, .xla.

  • RH: Detecta conteúdo em categorias relacionadas a recursos humanos de recrutamento, entrevista, contratação, treinamento, avaliação, aviso e encerramento. Detecta conteúdo em .docx, .docm, .doc, .dotx, .dotm, .dot, .pdf, .rtf, .txt, Arquivos .one, .msg, .eml, .pptx, .pptm, .ppt, .potx, .potm, .pot, .ppsx, .ppsm, .pps, .ppam, .ppa, .xlsx, .xlsm, .xlsb, .xls, .csv, .xltx, .xltm, .xlt, .xlam, .xla.

  • IP: detecta conteúdo em categorias relacionadas à Propriedade Intelectual, como segredos comerciais e informações confidenciais semelhantes. Detecta conteúdo em .docx, .docm, .doc, .dotx, .dotm, .dot, .pdf, .rtf, .txt, Arquivos .one, .msg, .eml, .pptx, .pptm, .ppt, .potx, .potm, .pot, .ppsx, .ppsm, .pps, .ppam, .ppa, .xlsx, .xlsm, .xlsb, .xls, .csv, .xltx, .xltm, .xlt, .xlam, .xla.

  • TI: detecta conteúdo em categorias de Tecnologia da Informação e Segurança Cibernética, como configurações de rede, segurança de informações, hardware e software. Detecta conteúdo em .docx, .docm, .doc, .dotx, .dotm, .dot, .pdf, .rtf, .txt, Arquivos .one, .msg, .eml, .pptx, .pptm, .ppt, .potx, .potm, .pot, .ppsx, .ppsm, .pps, .ppam, .ppa, .xlsx, .xlsm, .xlsb, .xls, .csv, .xltx, .xltm, .xlt, .xlam, .xla.

  • Assuntos jurídicos: Detecta conteúdo em categorias relacionadas a assuntos jurídicos, como litígio, processo legal, obrigação legal, terminologia jurídica, direito e legislação. Detecta conteúdo nos arquivos .docx, .docm, .doc, .dotx, .dotm, .dot, .pdf, .rtf, .txt, .one, .msg, .eml.

  • Compras: Detecta conteúdo em categorias de lance, citação, compra e pagamento de fornecimento de bens e serviços. Detecta conteúdo nos arquivos .docx, .docm, .doc, .dotx, .dotm, .dot, .pdf, .rtf, .txt, .one, .msg, .eml, .xlsx, .xlsm, .xlsb, .xls, .csv, .xltx, .xltm, .xlt, .xlam, .xla.

  • Profanidade: detecta uma categoria específica de itens de texto ofensivos que contêm expressões que constrangem a maioria das pessoas. Detecta conteúdo nos arquivos .msg, .docx, .pdf, .txt, .rtf, .jpeg, .jpg, .png, .gif, .bmp, .svg.

  • Currículo: detecta itens docx, .pdf, .rtf, .txt que são contas textuais de qualificações pessoais, educacionais, profissionais, de experiência de trabalho e outras informações de identificação pessoal de um candidato

  • Código-fonte : detecta itens que contêm um conjunto de instruções e instruções escritas em linguagens de programação de computador no GitHub: ActionScript, C, C#, C++, Clojure, CoffeeScript, Go, Haskell, Java, JavaScript, Lua, MATLAB, Objective-C, Perl, PHP, Python, R, Ruby, Scala, Shell, Swift, TeX, Vim Script. Detecta o conteúdo em .msg, .as, .h, .c, .cs, .cc, .cpp, .hpp, .cxx, .hh, .c++, .clj, .edn, .cljc, .cljs, .coffee, .litcoffee, .go, .hs, .lhs, .java, .jar, .js, .mjs, .lua, .m, .mm, .pl, .pm, .t, .xs, .pod, .php, .phar, .php4, .pyc, . R, .r, .rda, . Arquivos RData, .rds, .rb, .scala, .sc, .sh, .swift.

    Observação

    O código-fonte é treinado para detectar quando a maior parte do texto é o código-fonte. Ele não detecta o texto do código-fonte que é intercalado com texto sem formatação.

  • Imposto: Detecta conteúdo de relação fiscal, como planejamento fiscal, formulários fiscais, arquivamento de impostos, regulamentos fiscais. Detecta conteúdo em .docx, .docm, .doc, .dotx, .dotm, .dot, .pdf, .rtf, .txt, .one, .msg, .eml, .pptx, .pptm, .ppt, .potx, .potm, .pot, .ppsx, .ppsm, .pps, .ppam, .ppa, .xlsx, .xlsm, .xlsb, .xls, .csv, .xltx, .xltm, .xlt, .xlam, xla.

  • Ameaça: detecta uma categoria específica de itens de texto ofensivos relacionados a ameaças para cometer violência ou causar danos físicos ou danos a uma pessoa ou propriedade. Detecta conteúdo nos arquivos .msg, .docx, .pdf, .txt, .rtf, .jpeg, .jpg, .png, .gif, .bmp, .svg.

Esses classificadores aparecem na exibição > > portal de conformidade do Microsoft Purview classificadores treináveis de classificação de dados com o status de . Ready to use

classificadores pré-treinados-classificadores.

Importante

Observe que os classificadores internos treináveis e globais não fornecem uma lista completa ou completa de termos ou idiomas nessas áreas. Além disso, a linguagem e os padrões culturais mudam continuamente e, à luz dessas realidades, a Microsoft se reserva o direito de atualizar esses classificadores a seu critério. Embora os classificadores possam ajudar sua organização a detectar essas áreas, os classificadores não se destinam a fornecer o único meio de sua organização de detectar ou lidar com o uso desse idioma. Sua organização, não a Microsoft ou suas subsidiárias, permanece responsável por todas as decisões relacionadas ao monitoramento, verificação, bloqueio, remoção e retenção de qualquer conteúdo identificado por um classificador pré-treinado, incluindo a conformidade com a privacidade local e outras leis aplicáveis. A Microsoft incentiva a consultoria com um advogado antes da implantação e do uso.

Nossos classificadores de Ameaça, Profanidade, Assédio e Discriminação podem examinar o conteúdo nestes idiomas:

  • Árabe
  • Chinês (simplificado)
  • Chinês (tradicional)
  • Holandês
  • Inglês
  • Francês
  • Alemão
  • Italiano
  • Coreano
  • Japonês
  • Português
  • Espanhol

Todos os outros são ingleses apenas no momento.

Classificadores personalizados

Quando os classificadores pré-treinados não atendem às suas necessidades, você pode criar e treinar seus próprios classificadores. Há mais trabalho envolvido na criação do seu, mas eles serão muito mais adaptados às necessidades de suas organizações.

Você começa a criar um classificador treinável personalizado alimentando-o com exemplos que estão definitivamente na categoria. Depois de processar esses exemplos, você o testará fornecendo uma combinação de exemplos correspondentes e não correspondentes. Em seguida, o classificador faz previsões sobre se um determinado item se enquadra na categoria que você está criando. Em seguida, confirme seus resultados, classificando os verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos para ajudar a aumentar a precisão de suas previsões.

Quando você publica o classificador, ele classifica por itens em locais como SharePoint Online, Exchange e OneDrive e classifica o conteúdo. Depois de publicar o classificador, você pode continuar a treiná-lo usando um processo de comentários semelhante ao processo de treinamento inicial.

Por exemplo, você pode criar classificadores treináveis para:

  • Documentos legais - como privilégio de cliente advogado, conjuntos de fechamento, declaração de trabalho
  • Documentos estratégicos de negócios – como comunicados de imprensa, fusão e aquisição, negócios, planos de negócios ou marketing, propriedade intelectual, patentes, documentos de design
  • Informações de preços – como faturas, cotações de preços, ordens de trabalho, documentos de ofertas
  • Informações financeiras – como investimentos organizacionais, resultados trimestrais ou anuais

Fluxo de processo para criar classificadores personalizados

A criação e publicação de um classificador para uso em soluções de conformidade, como políticas de retenção e supervisão de comunicação, segue esse fluxo. Para obter mais detalhes sobre como criar um classificador treinável personalizado, consulte Criar um classificador personalizado.

classificador personalizado de fluxo de processo.

Readaptação de classificadores

Você pode ajudar a melhorar a precisão de todos os classificadores treináveis personalizados e fornecendo comentários sobre a precisão da classificação que eles executam. Isso é chamado de novo treinamento e segue esse fluxo de trabalho.

Observação

Classificadores pré-treinados não podem ser treinados novamente.

classifier retraining workflow.

Fornecer comentários de correspondência/não de precisão de correspondência em classificadores treináveis

Você pode exibir o número de combinações que um classificador treinável tem no Explorador de Conteúdo e nos classificadores treináveis. Você também pode fornecer comentários sobre se um item é realmente uma correspondência ou não usando o mecanismo de correspondência, não uma correspondência de comentários e usar esses comentários para ajustar seus classificadores. Consulte, Aumentar a precisão do classificador (versão prévia) para obter mais informações.

Confira também