Keterampilan kognitif Deteksi Informasi Identifikasi Pribadi (PII)

Artikel
02/28/2024

Keterampilan Deteksi PII mengekstrak informasi pribadi dari teks input dan memberi Anda opsi untuk menyamarkannya. Keterampilan ini menggunakan model deteksi yang disediakan dalam Bahasa Azure AI.

Catatan

Keterampilan ini terikat ke layanan Azure AI dan memerlukan sumber daya yang dapat ditagih untuk transaksi yang melebihi 20 dokumen per pengindeks per hari. Eksekusi keterampilan bawaan dibebankan pada harga prabayar layanan Azure AI yang ada.

@odata.type

Microsoft.Skills.Text.PIIDetectionSkill

Batasan data

Ukuran maksimum rekaman harus 50.000 karakter sebagaimana diukur oleh String.Length. Anda dapat menggunakan keterampilan Pemisahan Teks untuk pemotongan data. Atur panjang halaman ke 5000 untuk hasil terbaik.

Parameter keterampilan

Parameter peka huruf besar/kecil dan semuanya bersifat opsional.

Nama Parameter	Deskripsi
`defaultLanguageCode`	(Opsional) Kode bahasa yang akan diterapkan ke dokumen yang tidak menentukan bahasa secara eksplisit. Jika kode bahasa default tidak ditentukan, bahasa Inggris (en) adalah kode bahasa default. Lihat daftar lengkap bahasa yang didukung.
`minimumPrecision`	Nilai antara 0,0 dan 1,0. Jika skor keyakinan (dalam `piiEntities` output) lebih rendah dari nilai yang ditetapkan `minimumPrecision` , entitas tidak dikembalikan atau ditutupi. Nilai defaultnya adalah 0,0.
`maskingMode`	Parameter yang menyediakan berbagai cara untuk menyamarkan informasi pribadi yang terdeteksi dalam teks input. Opsi berikut ini didukung: `"none"` (default): Tidak ada masking yang terjadi dan `maskedText` output tidak dikembalikan. `"replace"`: Mengganti entitas yang terdeteksi dengan karakter yang diberikan dalam parameter `maskingCharacter`. Karakter diulangi ke panjang entitas yang terdeteksi sehingga offset akan sesuai dengan teks input dan output `maskedText`dengan benar.
`maskingCharacter`	Karakter yang digunakan untuk menyamarkan teks jika parameter `maskingMode` diatur ke `replace`. Opsi berikut didukung: `*` (default). Parameter ini hanya dapat jika `null` `maskingMode` tidak diatur ke `replace`.
`domain`	(Opsional) Nilai string, jika ditentukan, mengatur domain ke subset kategori entitas. Nilai yang mungkin termasuk: `"phi"` (hanya mendeteksi informasi kesehatan rahasia), `"none"`.
`piiCategories`	(Opsional) Jika Anda ingin menentukan entitas mana yang terdeteksi dan dikembalikan, gunakan parameter opsional ini (didefinisikan sebagai daftar string) dengan kategori entitas yang sesuai. Parameter ini juga dapat memungkinkan Anda mendeteksi entitas yang tidak diaktifkan secara default untuk bahasa dokumen Anda. Lihat Kategori entitas Informasi Identifikasi Pribadi yang Didukung untuk daftar lengkapnya.
`modelVersion`	(Opsional) Menentukan versi model yang akan digunakan saat memanggil deteksi informasi yang dapat diidentifikasi secara pribadi. Ini default ke versi terbaru ketika tidak ditentukan. Kami sarankan Anda tidak menentukan nilai ini kecuali diperlukan.

Input keterampilan

Masukkan nama	Deskripsi
`languageCode`	String yang menunjukkan bahasa rekaman. Jika parameter ini tidak ditentukan, kode bahasa default digunakan untuk menganalisis rekaman. Lihat daftar lengkap bahasa yang didukung.
`text`	Teks yang akan dianalisis.

Output keterampilan

Nama output	Deskripsi
`piiEntities`	Array jenis kompleks yang berisi bidang berikut: `"text"` (Informasi identifikasi pribadi aktual seperti yang diekstrak) `"type"` `"subType"` `"score"` (Nilai yang lebih tinggi berarti lebih mungkin menjadi entitas nyata) `"offset"` (ke dalam teks input) `"length"` Lihat Kategori entitas Informasi Identifikasi Pribadi yang Didukung untuk daftar lengkapnya.
`maskedText`	Output ini bervariasi tergantung `maskingMode`pada . Jika `maskingMode` adalah `replace`, output adalah hasil string dari masking yang dilakukan melalui teks input, seperti yang `maskingMode`dijelaskan oleh . Jika `maskingMode` adalah `none`, tidak ada output.

Definisi sampel

  {
    "@odata.type": "#Microsoft.Skills.Text.PIIDetectionSkill",
    "defaultLanguageCode": "en",
    "minimumPrecision": 0.5,
    "maskingMode": "replace",
    "maskingCharacter": "*",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "piiEntities"
      },
      {
        "name": "maskedText"
      }
    ]
  }

Input sampel

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft employee with ssn 859-98-0987 is using our awesome API's."
           }
      }
    ]
}

Sampel output

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "piiEntities":[ 
           { 
              "text":"859-98-0987",
              "type":"U.S. Social Security Number (SSN)",
              "subtype":"",
              "offset":28,
              "length":11,
              "score":0.65
           }
        ],
        "maskedText": "Microsoft employee with ssn *********** is using our awesome API's."
      }
    }
  ]
}

Offset yang dikembalikan untuk entitas dalam output keterampilan ini langsung dikembalikan dari API Layanan Bahasa, yang berarti jika Anda menggunakannya untuk mengindeks ke dalam string asli, Anda harus menggunakan kelas StringInfo di .NET untuk mengekstrak konten yang benar. Untuk informasi selengkapnya, lihat Dukungan multibahasa dan emoji dalam fitur layanan Bahasa.

Kesalahan dan peringatan

Jika kode bahasa untuk dokumen tidak didukung, peringatan akan ditampilkan dan tidak ada entitas yang diekstraksi. Jika teks Anda kosong, peringatan akan ditampilkan. Jika teks Anda lebih besar dari 50.000 karakter, hanya 50.000 karakter pertama yang dianalisis dan peringatan dikeluarkan.

Jika keterampilan menampilkan peringatan, output maskedText mungkin kosong, yang dapat berdampak pada keterampilan downstream yang mengharapkan output. Karena alasan ini, pastikan untuk menyelidiki semua peringatan yang terkait dengan output yang hilang saat menulis definisi set keterampilan Anda.

Bagikan melalui