Mengenali entitas informasi pengidentifikasi pribadi (PII)
Deteksi PII (informasi identitas pribadi) adalah fitur yang ditawarkan oleh Bahasa Azure. Ini mengidentifikasi, mengategorikan, dan meredaksi informasi pengidentifikasi pribadi (PII) dalam teks yang tidak terstruktur. PII mencakup alamat email, nomor telepon, informasi pembayaran, dll.
Ada beberapa cara untuk memanggil API deteksi PII. Di sini, Anda menggunakan azure_ai ekstensi untuk memproses PII dari teks dalam kueri SQL.
Prasyarat
Anda memerlukan server fleksibel Azure Database for PostgreSQL, dengan ekstensi azure_ai. Anda juga perlu mengotorisasinya dengan Azure Cognitive Services dengan mengatur kunci dan titik akhir sumber daya Bahasa.
Skenario
Gunakan deteksi PII untuk beberapa aplikasi, termasuk:
- Label sensitivitas: Mengategorikan dokumen atau email berdasarkan sensitivitas sesuai dengan jenis PII. Teks yang berisi nomor telepon mungkin ditandai rahasia, sedangkan kartu kredit atau nomor rekening bank akan diberi label sangat rahasia.
- Penyuntingan untuk dukungan dan operasi: Banyak tugas operasional, seperti triase insiden atau perutean dukungan, tidak memerlukan informasi pribadi. Perusahaan dapat menggunakan redaksi PII untuk memfilter informasi pelanggan yang tidak perlu untuk tugas karyawan.
- Kurangi informasi pribadi untuk mengurangi bias tidak sadar: Perusahaan dapat menghapus nama, alamat, dan informasi lainnya untuk membantu mengurangi jenis kelamin yang tidak sadar atau bias lainnya.
Mendeteksi PII di SQL dengan Azure Cognitive Services
Ekstensi azure_ai server fleksibel Azure Database for PostgreSQL menyediakan fungsi yang ditentukan pengguna (UDF) untuk mengakses kemampuan AI dari dalam SQL secara langsung. API deteksi PII diakses melalui fungsi azure_cognitive.recognize_pii_entities yang disediakan oleh azure_ai.
azure_cognitive.recognize_pii_entities(
text text,
language text,
timeout_ms integer DEFAULT 3600000,
throw_on_error boolean DEFAULT true,
domain text DEFAULT 'none'::text,
disable_service_logs boolean DEFAULT false
)
Parameter yang diperlukan adalah text, input, dan language, bahasa tempat text ditulis. Misalnya, en-us adalah bahasa Inggris AS, dan fr berbahasa Prancis. Lihat dukungan bahasa untuk daftar lengkap bahasa yang tersedia.
Secara bawaan, pengenalan entitas dihentikan jika tidak selesai dalam 3.600.000 ms = 1 jam. Anda dapat menyesuaikan penundaan ini dengan mengubah timeout_ms.
Jika terjadi kesalahan, perilaku defaultnya adalah melemparkan pengecualian, yang mengakibatkan pembatalan transaksi. Anda dapat menonaktifkan perilaku ini dengan mengatur throw_on_error ke false.
Parameter domain dapat digunakan untuk menyesuaikan jenis data pribadi yang diidentifikasi. Saat ini, default none menggunakan PII umum, dan domain phi mengidentifikasi Informasi Kesehatan Pribadi.
Lihat dokumentasi ekstensi Azure Cognitive Services untuk dokumentasi parameter lengkap.
Misalnya, memanggil kueri ini:
SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');
Memberikan hasil ini:
("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")
Layanan PII mendeteksi nomor telepon dengan skor keyakinan 0,8 dan alamat dengan skor keyakinan 1. Ini juga mengembalikan input dengan dua titik data PII diredaksi.
Anda bisa menggunakan kolom tabel untuk teks input:
SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;
Yang mengembalikan (dengan \x diaktifkan untuk tampilan yang diperluas):
recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")
Ringkasan
Deteksi PII mengidentifikasi dan mengategorikan informasi identitas pribadi dalam teks input yang tidak terstruktur. Model bahasa Azure Cognitive Services melakukan pekerjaan berat, dan