Apa itu deteksi Informasi Identifikasi Pribadi (PII) dalam Bahasa Azure AI?

Deteksi PII adalah salah satu fitur yang ditawarkan oleh Azure AI Language, kumpulan pembelajaran mesin dan algoritma AI di cloud untuk mengembangkan aplikasi cerdas yang melibatkan bahasa tertulis. Fitur deteksi PII dapat mengidentifikasi, mengategorikan, dan menyamarkan informasi sensitif dalam teks yang tidak terstruktur. Misalnya: nomor telepon, alamat email, dan bentuk identifikasi. Metode untuk menggunakan PII dalam percakapan berbeda dari kasus penggunaan lainnya, dan artikel untuk penggunaan ini terpisah.

  • Mulai cepat adalah instruksi awal untuk memandu Anda dalam membuat permintaan ke layanan.
  • Panduan berisi instruksi untuk menggunakan layanan dengan cara yang lebih spesifik atau disesuaikan.
  • Artikel konseptual ini memberikan penjelasan mendalam tentang fungsionalitas dan fitur layanan tersebut.

PII terbagi ke dalam dua bentuk:

  • PII - berfungsi pada teks yang tidak terstruktur.
  • PII Percakapan (pratinjau) - model yang disesuaikan untuk digunakan pada transkripsi percakapan.

Alur kerja umum

Untuk menggunakan fitur ini, Anda perlu mengirimkan data untuk analisis dan menangani output API dalam aplikasi Anda. Analisis dilakukan apa adanya, tanpa penyesuaian tambahan ke model yang digunakan pada data Anda.

  1. Buat sumber daya Bahasa Azure AI, yang memberi Anda akses ke fitur yang ditawarkan oleh Bahasa Azure AI. Ini menghasilkan kata sandi (disebut kunci) dan URL titik akhir yang Anda gunakan untuk mengautentikasi permintaan API.

  2. Buat permintaan menggunakan REST API atau pustaka klien untuk C#, Java, JavaScript, dan Python. Anda juga dapat mengirim panggilan asinkron dengan permintaan batch untuk menggabungkan permintaan API untuk beberapa fitur ke dalam satu panggilan.

  3. Kirim permintaan yang berisi data teks Anda. Kunci dan titik akhir Anda digunakan untuk autentikasi.

  4. Alirkan atau simpan respons secara lokal.

Dukungan dokumen asli

Dokumen asli mengacu pada format file yang digunakan untuk membuat dokumen asli seperti Microsoft Word (docx) atau file dokumen portabel (pdf). Dukungan dokumen asli menghilangkan kebutuhan akan praproses teks sebelum menggunakan kemampuan sumber daya Bahasa Azure AI. Saat ini, dukungan dokumen asli tersedia untuk kemampuan PiiEntityRecognition.

Saat ini PII mendukung format dokumen asli berikut:

Jenis file Ekstensi {i>file Deskripsi
SMS .txt Dokumen teks yang tidak diformat.
Adobe PDF .pdf Dokumen berformat file dokumen portabel.
Microsoft Word .docx File dokumen Microsoft Word.

Untuk informasi selengkapnya, lihatMenggunakan dokumen asli untuk pemrosesan bahasa

Mulai menggunakan deteksi PII

Untuk menggunakan deteksi PII, Anda mengirimkan teks untuk analisis dan menangani output API di aplikasi Anda. Analisis dilakukan apa adanya, tanpa penyesuaian pada model yang digunakan pada data Anda. Ada dua cara untuk menggunakan deteksi PII:

Opsi pengembangan Deskripsi
Studio bahasa Language Studio adalah platform berbasis web yang memungkinkan Anda mencoba penautan entitas dengan contoh teks tanpa akun Azure, dan data Anda sendiri saat mendaftar. Untuk informasi selengkapnya, lihat mulai cepat situs web Language Studio atau studio bahasa.
REST API atau Pustaka Klien (Azure SDK) Integrasikan deteksi PII ke dalam aplikasi Anda menggunakan REST API, atau pustaka klien yang tersedia dalam berbagai bahasa. Untuk informasi selengkapnya, lihat mulai cepat deteksi PII.

Dokumentasi referensi dan sampel kode

Saat Anda menggunakan fitur ini di aplikasi Anda, lihat dokumentasi referensi dan sampel berikut untuk Bahasa Azure AI:

Opsi pengembangan/bahasa Dokumentasi rujukan Sampel
REST API Dokumentasi REST API
C# Dokumentasi C# Sampel C++
Java Dokumentasi Java Sampel Java
JavaScript Dokumentasi JavaScript Sampel JavaScript
Python Dokumentasi Python Sampel Python

AI yang Bertanggung Jawab

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang menggunakannya, orang-orang yang terkena dampaknya, dan lingkungan penyebaran. Baca catatan transparansi untuk PII untuk mempelajari tentang penggunaan dan penyebaran AI yang bertanggung jawab di sistem Anda. Untuk informasi lebih lanjut, baca artikel berikut:

Skenario contoh

  • Menerapkan label sensitivitas - Misalnya, berdasarkan hasil dari layanan PII, label sensitivitas publik mungkin diterapkan ke dokumen yang tidak terdeteksi berisi entitas PII. Untuk dokumen yang alamat dan nomor telepon AS-nya dikenali, label rahasia mungkin diterapkan. Label yang sangat rahasia dapat digunakan untuk dokumen yang nomor perutean banknya dikenali.
  • Redact beberapa kategori informasi pribadi dari dokumen yang mendapatkan edaran yang lebih luas - Misalnya, jika catatan kontak pelanggan dapat diakses oleh perwakilan dukungan garis depan, perusahaan dapat meredaksi informasi pribadi pelanggan selain namanya dari versi riwayat pelanggan untuk menjaga privasi pelanggan.
  • Redaksi informasi pribadi untuk mengurangi bias tidak sadar - Misalnya, selama proses peninjauan lanjutan perusahaan, mereka dapat memblokir nama, alamat, dan nomor telepon untuk membantu mengurangi jenis kelamin yang tidak sadar atau bias lainnya.
  • Mengganti informasi pribadi dalam data sumber untuk pembelajaran mesin guna mengurangi ketidakadilan – Misalnya, jika Anda ingin menghapus nama yang mungkin mengungkapkan jenis kelamin saat melatih model pembelajaran mesin, Anda dapat menggunakan layanan untuk mengidentifikasi mereka dan menggantinya dengan tempat penampung generik untuk pelatihan model.
  • Menghapus informasi pribadi dari transkripsi pusat panggilan – Misalnya, jika Anda ingin menghapus nama atau data PII lain yang ada di antara agen dan pelanggan dalam skenario pusat panggilan. Anda dapat menggunakan layanan untuk mengidentifikasi dan menghapusnya.
  • Pembersihan data untuk ilmu data - PII dapat digunakan untuk membuat data siap bagi ilmuwan dan insinyur data agar dapat menggunakan data ini untuk melatih model pembelajaran mesin mereka. Menyamarkan data untuk memastikan bahwa data pelanggan tidak terekspos.

Langkah berikutnya

Ada dua cara untuk memulai menggunakan fitur penautan entitas:

  • Studio Bahasa adalah platform berbasis web yang dapat Anda gunakan untuk mencoba beberapa fitur layanan Bahasa tanpa perlu menulis kode.
  • Artikel mulai cepat yang membahas petunjuk tentang cara membuat permintaan ke layanan menggunakan REST API dan SDK pustaka klien.