Avainsanojen sanaston luominen

Microsoft Purview -tuotteen tietojen menetyksen esto (DLP) voi tunnistaa, valvoa ja suojata arkaluonteisia kohteita. Arkaluontoisten kohteiden tunnistaminen edellyttää joskus avainsanojen etsimistä, erityisesti tunnistettaessa yleistä sisältöä (kuten terveydenhuoltoon liittyvää viestintää) tai sopimatonta tai eksplisiittistä kieltä. Vaikka voit luoda avainsanaluetteloita luottamuksellisissa tietotyypeissä, avainsanaluetteloiden koko on rajoitettu ja ne on muokattava XML-koodia niiden luomiseksi tai muokkaamiseksi. Sen sijaan avainsanasanastojen avulla avainsanoja hallitaan yksinkertaisemmin ja paljon suuremmassa mittakaavassa, ja ne tukevat sanastossa enintään yhtä megatavua termejä (jälkipakkauksen jälkeen). Lisäksi avainsanasanasanastot tukevat mitä tahansa kieltä. Vuokraajan raja on myös 1 Mt pakkauksen jälkeen. Pakkauksen jälkeinen 1 Mt:n rajoitus tarkoittaa, että kaikissa vuokraajan sanastoissa voi olla yhteensä lähes miljoona merkkiä.

Vihje

Jos et ole E5-asiakas, käytä 90 päivän Microsoft Purview -ratkaisujen kokeiluversiota ja tutustu siihen, miten muut Purview-ominaisuudet voivat auttaa organisaatiotasi hallitsemaan tietoturva- ja yhteensopivuustarpeita. Aloita nyt Microsoft Purview -yhteensopivuusportaali kokeilukeskuksesta. Lue lisätietoja rekisteröitymisestä ja kokeiluehdoista.

Avainsanasanasanaston rajoitukset

Vuokraajaa kohden voidaan luoda enintään 50 avainsanasanasanastoon perustuvaa luottamuksellista tietotyyppiä. Jos haluat tietää, kuinka monta avainsanasanasanaa vuokraajassasi on, muodosta yhteys noudattamalla ohjeita artikkelissa Yhteyden muodostaminen suojauksen & yhteensopivuus PowerShelliin muodostaaksesi yhteyden vuokraajaan ja suorittamalla sitten tämän PowerShell-komentosarjan:

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Avainsanasanaston luomisessa käytettävät perusvaiheet

Sanaston avainsanat voivat olla peräisin eri lähteistä, yleisimmin palvelussa tuodusta tiedostosta (kuten .csv tai .txt luettelosta) tai PowerShellin cmdlet-komennon kautta, suoraan PowerShellin cmdlet-komentoon kirjoittamastasi luettelosta tai aiemmin luodusta sanastosta. Kun luot avainsanasanaston, noudatat samoja perusvaiheita:

 1. Käytä *Microsoft Purview -yhteensopivuusportaali tai muodosta yhteys Microsoft Purview -yhteensopivuusportaali PowerShelliin.

 2. Määritä tai lataa avainsanat aiotusta lähteestä. Sekä ohjattu toiminto että cmdlet-komento hyväksyvät pilkuin erotetun avainsanaluettelon mukautetun avainsanasanaston luomiseksi, joten tämä vaihe vaihtelee hieman sen mukaan, mistä avainsanat ovat peräisin. Kun ne on ladattu, ne koodataan ja muunnetaan tavumatriisiksi ennen niiden tuomista.

 3. Luo sanasto. Valitse nimi ja kuvaus ja luo sanasto.

Luo avainsanasanasto käyttämällä Microsoft Purview -yhteensopivuusportaali

Voit luoda ja tuoda käyttäjän sanaston avainsanoja seuraavien ohjeiden avulla:

 1. Muodosta yhteys Microsoft Purview -yhteensopivuusportaali.

 2. Siirry kohtaan Tietojen luokitukset > Luokittele luottamukselliset > tietotyypit.

 3. Valitse Luo ja kirjoita luottamuksellisen tietotyypin nimi ja kuvaus ja valitse sitten Seuraava.

 4. Voit käyttää avainsanasanastoa joko ensisijaisena elementtinä tai toissijaisena elementtinä. Jos haluat käyttää avainsanasanastoa ensisijaisena elementtinä, valitse Ensisijainen elementti -kentässä Lisää ensisijainen elementti ja valitse sitten avainsanasanasto avattavasta luettelosta.

 5. Lisää avainsanasanasto -sivulla voit valita olemassa olevista sanastoista, ladata sanaston tai luoda sanaston.

  1. Jos haluat käyttää aiemmin luotua sanastoa, valitse Valitse olemassa olevista sanastoista.
  2. Lataa avainsanasanasto valitsemalla Lataa sanasto ja lataa joko TXT- tai CSV-tiedosto noudattamalla kehotteita.
  3. Luo sanasto seuraavasti:
   1. Kirjoita käyttäjän sanaston nimi .
   2. Kirjoita Avainsanat-kenttään kukin sanastosi avainsana omalle rivilleen.
   3. Kun olet valmis, valitse Valmis.
 6. Valitse seuraavalla sivulla Luo.

 7. Jos haluat lisätä luottamuksellisiin tietotyyppiin lisää kuvioita, voit tehdä sen seuraavalla sivulla. Kun olet valmis, valitse Seuraava.

 8. Vahvista luottamuksellisen tietotyypin luotettavuustaso ja valitse Seuraava.

 9. Tarkista ja viimeistele luottamukselliset tietotyyppivalinnat, valitse sitten Luo ja sitten Valmis.

Avainsanasanaston luominen tiedostosta PowerShellin avulla

Usein kun sinun on luotava suuri sanasto, voit käyttää avainsanoja tiedostosta tai toisesta lähteestä viedystä luettelosta. Seuraavassa esimerkissä luot avainsanasanaston, joka sisältää ulkoisessa sähköpostissa näytettävien sairauksien luettelon. Aloita muodostamalla yhteys Suojauksen & yhteensopivuus PowerShelliin.

 1. Kopioi avainsanat tekstitiedostoon ja varmista, että kukin avainsana on erillisellä rivillä.

 2. Tallenna tekstitiedosto Unicode-koodauksen avulla. Siirry Muistiossa kohtaan >TallennanimelläKoodaus>>Unicode.

 3. Lue tiedosto muuttujaan suorittamalla tämä cmdlet-komento:

  $fileData = [System.IO.File]::ReadAllBytes('<filename>')
  
 4. Luo sanasto suorittamalla tämä cmdlet-komento:

  New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
  

Avainsanasanasanakirjojen käyttäminen mukautetuissa luottamuksellisissa tietotyypeissä ja DLP-käytännöissä

Avainsanasanasanastoja voidaan käyttää osana mukautetun luottamuksellisen tietotyypin vastaavuusvaatimuksia tai itse luottamuksellisena tietotyyppinä. Molemmat edellyttävät mukautetun luottamuksellisen tietotyypin luomista. Luo arkaluontoinen tietotyyppi noudattamalla linkitetyn artikkelin ohjeita. Kun XML on käytössä, tarvitset XML:n GUID-tunnuksen, jotta voit käyttää sanastoa.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
  <Pattern confidenceLevel="75">
    <IdMatch idRef=". . ."/>
  </Pattern>
</Entity>

Saat sanaston käyttäjätiedot suorittamalla tämän komennon ja kopioimaan Identity-ominaisuuden arvon:

Get-DlpKeywordDictionary -Name "Diseases"

Komennon tuloste näyttää tältä:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

Liitä käyttäjätietojen arvo mukautetun luottamuksellisen tietotyypin XML-koodiin idRef-muodossa. Lataa seuraavaksi XML-tiedosto palvelimeen. Sanasto näkyy nyt luottamuksellisten tietotyyppien luettelossa, ja voit käyttää sitä suoraan käytännössä ja määrittää, kuinka monta avainsanaa tarvitaan vastaamaan toisiaan.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
   <Pattern confidenceLevel="85">
    <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
   </Pattern>
  </Entity>
  <LocalizedStrings>
   <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
    <Name default="true" langcode="en-us">Diseases</Name>
    <Description default="true" langcode="en-us">Detects various diseases</Description>
   </Resource>
  </LocalizedStrings>

Huomautus

Microsoft 365 Information Protection tukee kaksitavuisia merkistökieliä seuraaville:

 • kiina (yksinkertaistettu)
 • kiina (perinteinen)
 • Korean
 • Japanese

Tämä tuki on saatavilla luottamuksellisille tietotyypeille. Lisätietoja on ohjeaiheessa Kaksitavuisten merkistöjen julkaisutiedot (esikatselu).

Vihje

Jos haluat tunnistaa kiinan/japanin merkkejä ja yksittäisiä tavumerkkejä sisältäviä kuvioita tai tunnistaa kiinan/japanin ja englannin sisältäviä kuvioita, määritä avainsanan tai rekisterin kaksi varianttia.

 • Jos haluat esimerkiksi tunnistaa avainsanan, kuten "机密的document", käytä avainsanan kahta varianttia; jossa on välilyönti japanin- ja englanninkielisen tekstin välissä ja toinen ilman välilyöntiä japanin- ja englanninkielisen tekstin välissä. Sit-komentoon lisättävän avainsanan tulee siis olla "机密的 asiakirja" ja "机密的document". Jos haluat myös tunnistaa lauseen "東京オリンピック2020", kannattaa käyttää kahta muunnelmaa; "東京オリンピック 2020" ja "東京オリンピック2020".

Jos avainsanojen tai lauseiden luettelo sisältää myös muita kuin kiinan/japaninkielisiä sanoja (kuten vain englanti), on suositeltavaa luoda kaksi sanastoa tai avainsanaluetteloa. Yksi avainsanoille, jotka sisältävät kiinan/japanin/kaksitavuisia merkkejä, ja toinen vain englanniksi.

 • Jos esimerkiksi haluat luoda avainsanasanaston tai -luettelon, jossa on kolme ilmaisua "Erittäin luottamuksellinen", "機密性が高い" ja "机密的document", sinun pitäisi luoda kaksi avainsanaluetteloa.
  1. Erittäin luottamuksellinen
  2. 機密性が高い, 机密的document and 机密的 asiakirja

Kun luot rekisteriä käyttämällä kaksinkertaista tavuviivoja tai kaksinkertaista tavujaksoa, varmista, että molemmat merkit eivät pääse yhdysmerkin tai pisteviivan yli. Tässä on mallirekisteri viitettä varten:

 • (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Suosittelemme, että käytät merkkijonovastaavuutta avainsanaluettelon sanavastaavuus-arvon sijaan.