Classificar os dados usando classificadores treineáveis

Concluído

Os classificadores treináveis utilizam IA para identificar e categorizar dados que não podem ser classificados com padrões predefinidos ou palavras-chave. Ao contrário dos tipos de informações confidenciais (SITs), que detetam dados estruturados, como números de card de crédito ou números de Segurança Social, os classificadores treináveis analisam os conteúdos com base no significado e no contexto. Isto torna-os úteis para detetar dados não estruturados, como contratos, relatórios financeiros ou registos de RH.

Porquê utilizar classificadores treináveis?

Muitas organizações têm conteúdos confidenciais que não seguem um formato previsível. Ajuda para classificadores treináveis:

  • Identificar dados complexos que os SITs não conseguem detetar.
  • Reduza a dependência da classificação manual.
  • Melhore a conformidade e a segurança ao reconhecer automaticamente conteúdo que deve ser protegido.

Tipos de classificadores treináveis

O Microsoft Purview fornece dois tipos de classificadores treináveis:

  • Classificadores pré-preparados: classificadores incorporados que estão prontos a utilizar para tipos de conteúdo comuns, como currículos, código fonte e linguagem ofensiva. A Microsoft atualiza regularmente estes classificadores para melhorar a precisão.
  • Classificadores formatáveis personalizados: as organizações podem preparar os seus próprios classificadores através de exemplos do mundo real para detetar dados exclusivos para a sua empresa. Os classificadores personalizados requerem preparação manual e refinamento para melhorar a precisão ao longo do tempo.

Classificadores pré-treinados

Os classificadores pré-preparados ajudam as organizações a identificar tipos comuns de dados não estruturados sem necessidade de configuração manual. Foram concebidos para detetar categorias de conteúdo que são difíceis de classificar com métodos tradicionais baseados em padrões.

A Microsoft fornece classificadores pré-preparados para tipos específicos de conteúdo, tais como:

  • Linguagem ofensiva: deteta conteúdo profano ou inadequado.
  • Currículos: identifica os currículos dos candidatos a emprego para gestão de dados de RH.
  • Código fonte: ajuda a controlar e proteger código proprietário ou confidencial.

Os classificadores pré-preparados são criados e refinados pela Microsoft com IA e machine learning. São atualizados periodicamente para melhorar a precisão e adaptar-se aos tipos de conteúdo em evolução.

Onde são utilizados classificadores treináveis

Os classificadores treináveis integram-se em várias soluções do Microsoft Purview, permitindo que as organizações classifiquem e governem os dados de forma eficaz:

  • Políticas de etiquetagem automática: aplique etiquetas de confidencialidade automaticamente com base nos resultados do classificador.
  • Políticas de retenção: identifique e retenha conteúdos importantes ao eliminar dados obsoletos.
  • Prevenção de perda de dados (DLP): impeça que as informações confidenciais sejam partilhadas fora da organização.
  • Conformidade de comunicação: monitorize mensagens relativamente a violações de políticas, incluindo conteúdo inadequado.

Limitações dos classificadores treináveis

Embora os classificadores treináveis forneçam uma classificação avançada orientada por IA, têm algumas limitações:

  • Precisam de um processo inicial de preparação e revisão para melhorar a precisão.
  • Não funcionam em conteúdos encriptados.
  • Só classificam conteúdos em localizações suportadas (como o SharePoint, o OneDrive e o Exchange).

Comparar classificadores treináveis e tipos de informações confidenciais

Recurso Classificadores treináveis Tipos de Informações Confidenciais (SITs)
Método de deteção Análise baseada em IA Baseado em padrões (por exemplo, regex, palavras-chave)
Melhor para Dados não estruturados Dados estruturados
Precisa de formação? Sim Não (SITs incorporados)
Funciona com etiquetas automáticas, DLP e conformidade? Sim Sim
Deteta conteúdo encriptado? Não Não