Azure AI 語言中的個人識別資訊 (PII) 偵測是什麼?
PII 偵測是 Azure AI 語言所提供的其中一項功能,這是雲端中機器學習和 AI 演算法的集合,用於開發涉及書面語言的智慧型應用程式。 PII 偵測功能可以在 非結構化文字中識別、分類和修訂 敏感性資訊。 例如:電話號碼、電子郵件地址和識別形式。 在交談中使用 PII 的方法與其他使用案例不同,而此用途的文章則不同。
PII 分成兩個圖形:
- PII - 適用於非結構化文字。
- 交談 PII (預覽) - 量身打造的模型,可處理交談轉譯。
一般流程
若要使用這項功能,您可以提交資料以供分析和處理應用程式中的 API 輸出。 分析會依目前方式執行,且不會對數據所使用的模型新增自定義。
建立 Azure AI 語言資源,其會授與您 Azure AI 語言所提供功能的存取權。 它會產生密碼(稱為金鑰),以及您用來驗證 API 要求的端點 URL。
使用 REST API 或 C#、Java、JavaScript 和 Python 的用戶端連結庫建立要求。 您也可以使用批次要求傳送異步呼叫,將多個功能的 API 要求合併成單一呼叫。
傳送包含文字數據的要求。 您的金鑰和端點會用於驗證。
在本機串流或儲存回應。
原生文件支援
原生檔是指用來建立源文件的檔格式,例如 Microsoft Word (docx) 或可攜式檔案 (pdf)。 原生文件支援不需要在使用 Azure AI 語言資源功能之前先進行文字前置處理。 目前,原生文件支援適用於 PiiEntityRecognition 功能。
PII 目前支援下列原生檔案格式:
檔案類型 | 副檔名 | 描述 |
---|---|---|
Text | .txt |
未格式化的文字檔。 |
Adobe PDF | .pdf |
可攜式檔檔格式的檔。 |
Microsoft Word | .docx |
Microsoft Word 文件檔。 |
如需詳細資訊, 請參閱使用原生文件來處理語言
開始使用 PII 偵測
若要使用 PII 偵測,您可以提交文字以進行分析並處理應用程式中的 API 輸出。 分析是按原樣執行,對針對您的資料所使用的模型不會進行自訂。 有兩種使用 PII 偵測的方式:
開發選項 | 描述 |
---|---|
Language Studio | Language Studio 是以 Web 為基礎的平台,可讓您在沒有 Azure 帳戶的情況下嘗試使用文字範例進行實體連結,以及在註冊時使用自己的資料。 如需詳細資訊,請參閱 Language Studio 網站或 Language Studio 快速入門。 |
REST API 或用戶端連結庫 (Azure SDK) | 使用 REST API 或以各種語言提供的用戶端程式庫,將 PII 偵測整合至您的應用程式。 如需詳細資訊,請參閱 PII 偵測快速入門。 |
參考檔和程式代碼範例
當您在應用程式中使用此功能時,請參閱下列 Azure AI 語言的參考文件和範例:
開發選項/ 語言 | 參考文件 | 範例 |
---|---|---|
REST API | REST API 檔 | |
C# | C# 文件 | C# 範例 |
Java | Java 檔 | Java 範例 |
JavaScript | JavaScript 文件 | JavaScript 範例 |
Python | Python 檔 | Python 範例 |
負責 AI
AI 系統不僅包含技術,也包括使用它的人員、受其影響的人員,以及部署環境。 閱讀 PII 的透明度附註,以了解系統中負責任的 AI 使用和部署。 如需詳細資訊,請參閱下列文章:
範例案例
- 套用敏感度標籤 - 例如,根據 PII 服務的結果,公用敏感度標籤可能會套用至未偵測到任何 PII 實體的檔。 對於辨識美國位址和電話號碼的檔,可能會套用機密標籤。 高度機密標籤可用於可辨識銀行路由號碼的檔。
- 從獲得更廣泛流通 的檔中,修訂某些類別的個人資訊 - 例如,如果客戶聯繫人記錄可供前線支援代表存取,則除了客戶歷程記錄版本的名稱之外,公司還可以修訂客戶的個人資訊,以保留客戶的隱私權。
- 為了減少無意識偏見 而修訂個人資訊 - 例如,在公司的履歷審查過程中,他們可以封鎖名稱、位址和電話號碼,以協助減少無意識的性別或其他偏見。
- 取代機器學習源數據中的個人資訊以減少不公平性 – 例如,如果您想要移除在定型機器學習模型時顯示性別的名稱,您可以使用服務來識別它們,並以模型定型的泛型佔位元取代它們。
- 從通話中心轉譯 中移除個人資訊 – 例如,如果您想要移除代理程式與客戶在通話中心案例中發生的名稱或其他 PII 數據。 您可以使用服務來識別和移除它們。
- 數據科學 的數據清除 - PII 可用來讓數據科學家和工程師能夠使用這些數據來定型其機器學習模型。 修訂數據以確定客戶數據不會公開。
下一步
有兩種方式可以開始使用實體連結功能:
- Language Studio 是一個網頁式平臺,可讓您嘗試數個語言服務功能,而不需要撰寫程式代碼。
- 快速入門 文章 ,說明如何使用 REST API 和用戶端連結庫 SDK 向服務提出要求。