Azure AI 語言中的個人識別資訊 (PII) 偵測是什麼?
自 2024 年 6 月起,我們開始提供交談 PII 服務的正式發行支援 (僅限英文)。 客戶現在可以修訂文字記錄、聊天和其他以對話風格撰寫的文字 (即帶有「嗯」、「啊」的文字、多位發言者,以及為了讓表達更清晰而拼寫出的字詞),對 AI 品質、Azure SLA 支援和實際執行環境支援以及企業級安全性更有信心。
PII 偵測是 Azure AI 語言所提供的其中一項功能,這是雲端中機器學習和 AI 演算法的集合,用於開發涉及書面語言的智慧型應用程式。 PII 偵測功能可以識別、分類及修訂非結構化文字中的敏感資訊。 例如:電話號碼、電子郵件地址和身分識別格式。 Azure AI 語言支援一般文字 PII 修訂,以及交談 PII,此為特製化模型,可用於處理語音轉譯以及會議和通話文字記錄中更為非正式的交談語氣。 此服務亦支援原生文件 PII 修訂,其中輸入和輸出是結構化文件檔案。
一般流程
若要使用此功能,您要提交資料以進行分析,並在您的應用程式中處理 API 輸出。 分析會按原樣執行,對您資料所使用的模型不會新增自訂項目。
建立 Azure AI 語言資源,其會授與您 Azure AI 語言所提供功能的存取權。 接著會產生密碼 (稱為金鑰),以及您用來驗證 API 要求的端點 URL。
使用 REST API 或適用於 C#、JAVA、JavaScript 和 Python 的用戶端程式庫來建立要求。 您也可以使用批次要求傳送非同步呼叫,以便將多個功能的 API 要求合併成單一呼叫。
傳送包含文字資料的要求。 您的金鑰和端點會用於驗證。
將回應串流處理或儲存至本機。
原生文件支援
原生文件是指用來建立原始文件的檔案格式,例如 Microsoft Word (docx) 或可攜式文件檔案 (pdf)。 原生文件支援代表在使用 Azure AI 語言資源功能之前,不再需要進行文字前置處理。 目前,原生文件支援適用於 PiiEntityRecognition 功能。
目前 PII 支援下列原生文件格式:
檔案類型 | 副檔名 | 描述 |
---|---|---|
Text | .txt |
未格式化的文字文件。 |
Adobe PDF | .pdf |
可攜式文件檔案格式的文件。 |
Microsoft Word | .docx |
Microsoft Word 文件檔案。 |
如需詳細資訊,請參閱使用原生文件進行語言處理
開始使用 PII 偵測
若要使用 PII 偵測,您可以提交文字以進行分析,並在您的應用程式中處理 API 輸出。 分析是按原樣執行,對針對您的資料所使用的模型不會進行自訂。 有兩種使用 PII 偵測的方式:
開發選項 | 描述 |
---|---|
Language Studio | Language Studio 是以 Web 為基礎的平台,可讓您在沒有 Azure 帳戶的情況下嘗試使用文字範例進行實體連結,以及在註冊時使用自己的資料。 如需詳細資訊,請參閱 Language Studio 網站或 Language Studio 快速入門。 |
REST API 或用戶端程式庫 (Azure SDK) | 使用 REST API 或以各種語言提供的用戶端程式庫,將 PII 偵測整合至您的應用程式。 如需詳細資訊,請參閱 PII 偵測快速入門。 |
參考文件和程式碼範例
當您在應用程式中使用此功能時,請參閱下列 Azure AI 語言的參考文件和範例:
開發選項/語言 | 參考文件 | 範例 |
---|---|---|
REST API | REST API 文件 (英文) | |
C# | C# 文件 | C# 範例 |
Java | Java 文件 | Java 範例 |
JavaScript | JavaScript 文件 | JavaScript 範例 \(英文\) |
Python | Python 文件 | Python 範例 |
負責 AI
AI 系統不僅包含技術,也包含使用該技術的人員、受其影響的人員及所部署的環境。 閱讀 PII 的透明度資訊,了解系統中負責任的 AI 使用和部署。 如需詳細資訊,請參閱下列文章:
範例案例
- 套用敏感度標籤 - 例如,根據 PII 服務的結果,公用敏感度標籤可能會套用至未偵測到 PII 實體的文件。 對於辨識出美國位址和電話號碼的文件,則可能會套用機密標籤。 高度機密標籤可能會用於辨識出銀行路由編號的文件。
- 將某些種類的個人資訊從廣為流傳的文件中刪減:例如,如果第一線支援代表人員可以存取客戶連絡記錄,公司可以從客戶歷程記錄版本中刪減客戶姓名以外的個人資訊,以保障客戶的隱私權。
- 刪減個人資訊以減少潛意識的偏差:例如,在履歷檢閱流程期間,公司可以遮蓋名稱、位址和電話號碼,以降低潛意識的性別或其他偏差。
- 取代機器學習來源資料中的個人資訊以減少不公平性 – 例如,如果您想要移除在定型機器學習模型時可能洩露性別的姓名,您可以使用此服務來識別它們,並利用模型定型的通用預留位置來予以取代。
- 從客服中心謄寫內容中移除個人資訊 – 例如,如果您想要移除發生在客服中心案例中代理人員與客戶之間的姓名或其他 PII 資料。 您可以使用服務來識別和移除這些姓名。
- 資料科學的資料清理 - PII 可用來為資料科學家和工程師準備好資料,讓他們能夠使用這些資料來定型其機器學習模型。 刪減資料以確保客戶資料不會遭到公開。
下一步
有兩種方式可以使用實體連結功能:
- Language Studio 是 Web 型平台,可讓您嘗試數種語言服務功能,而無須撰寫程式碼。
- 參閱快速入門文章,以了解如何使用 REST API 和用戶端程式庫 SDK 對服務提出要求。