Azure AI Studio 中的內容篩選

發行項
06/13/2024

重要

本文所述的部分功能可能僅適用於預覽版。此預覽版本沒有服務等級協定，不建議將其用於生產工作負載。可能不支援特定功能，或可能已經限制功能。如需詳細資訊，請參閱 Microsoft Azure 預覽版增補使用條款。

Azure AI Studio 包含內容篩選系統，可與核心模型和 DALL-E 映射產生模型搭配運作。

重要

內容篩選系統不適用於 Azure OpenAI 服務中 Whisper 模型處理的提示和完成。深入了解 Azure OpenAI 中的 Whisper 模型。

運作方式

此內容篩選系統是由 Azure AI 內容安全性所提供，其運作方式是透過一組旨在偵測及防止有害內容輸出的分類模型來執行提示輸入和完成輸出。 API 設定和應用程式設計的變化可能會影響完成，因而篩選行為。

透過 Azure OpenAI 模型部署，您可以使用預設內容篩選，或建立您自己的內容篩選器（稍後所述）。默認內容篩選也適用於模型目錄中 Azure AI 所策劃的其他文字模型，但這些模型尚未提供自定義內容篩選。透過 模型即服務 提供的模型預設會啟用內容篩選，且無法設定。

語言支援

內容篩選模型已針對下列語言進行訓練及測試：英文、德文、日文、西班牙文、法文、義大利文、葡萄牙文和中文。不過，服務可在許多其他語言下運作，但品質會有所不同。在所有情況下，您應該執行自己的測試，以確保其適用於您的應用程式。

建立內容篩選

如何建立內容篩選？

針對 Azure AI Studio 中的任何模型部署，您可以直接使用預設內容篩選條件，但您可能想要擁有更多控制權。例如，您可以讓篩選更嚴格或更寬大，或啟用更進階的功能，例如提示盾牌和受保護的材料偵測。

請遵循下列步驟來建立內容篩選：

移至 AI Studio 並選取專案。
從左窗格中選取 [內容篩選 ]，然後選取 [ + 新增內容篩選]。
在 [ 基本資訊] 頁面上，輸入內容篩選的名稱。選取要與內容篩選相關聯的連線。然後選取下一步。
在 [ 輸入篩選] 頁面上，您可以設定輸入提示的篩選條件。例如，您可以啟用提示防護，以進行越獄攻擊。然後選取下一步。

內容會依類別加上批注，並根據您設定的閾值封鎖。針對暴力、仇恨、性及自我傷害類別，調整滑桿以阻止高、中或低嚴重性的內容。
在 [ 輸出篩選] 頁面上，您可以設定輸出完成的篩選條件。例如，您可以啟用受保護材料偵測的篩選。然後選取下一步。

內容會依每個類別加上批注，並根據臨界值加以封鎖。針對暴力內容、仇恨內容、性內容和自殘內容類別，調整閾值，以封鎖同等或更高嚴重性等級的有害內容。
您可以選擇性地在 [ 部署] 頁面上，將內容篩選條件與部署產生關聯。您也可以稍後將內容篩選與部署產生關聯。然後選取建立。

內容篩選組態是在 AI Studio 中的中樞層級建立。深入瞭解 Azure OpenAI 檔中的可設定性。
在 [ 檢閱] 頁面上，檢閱設定，然後選取 [ 建立篩選]。

如何套用內容篩選？

當您建立部署時，會設定預設內容篩選。您也可以將自訂內容篩選套用至您的部署。

請遵循下列步驟，將內容篩選套用至部署：

移至 AI Studio 並選取專案。
選取 [ 部署] ，然後選擇其中一個部署，然後選取 [ 編輯]。
在 [ 更新部署] 視窗中，選取您要套用至部署的內容篩選。

現在，您可以至遊樂場測試內容篩選是否如預期般運作！

內容篩選類別和可設定性

您可以將封鎖清單套用為輸入或輸出篩選條件，或兩者皆可套用。 在 [輸入篩選和/或輸出篩選] 頁面上啟用 [封鎖清單] 選項。從下拉式清單中選取一或多個封鎖清單，或使用內建粗話封鎖清單。您可以將多個封鎖清單合併到相同的篩選。

類別

類別	描述
仇恨	仇恨類別描述語言攻擊或使用，其包括基於群體的某些差異特性，包括但不限於種族、族群、國籍、性別認同和表現、性取向、宗教、移民身分、能力狀態、個人外表和體型，而產生與個人或身分群體有關的貶抑或歧視性語言。
色情	色情類別描述與生理器官和生殖器、情愛關係、以性愛或親暱詞彙描繪行為、身體性行為相關的語言，包括描繪為違反個人意願的侵犯或強迫性暴力行為、賣淫、色情片和虐待。
暴力	暴力類別描述與意圖損害、傷害、毀壞或殺害某人或某物；描述武器等身體動作相關的語言。
自殘	自殘類別描述的語言與身體動作相關，其意圖為刻意損害、傷害或毀壞某人自己的身體或自殺。

嚴重性層級

類別	描述
Safe	內容可能與暴力、自殘、色情或仇恨類別相關，但詞彙用於一般、新聞、科學、醫學和類似的專業內容，適合大多數受眾。
低	表達偏見、評判性或固執觀點的內容，包括使用冒犯性的語言、刻板印象、探索虛構世界的使用案例 (例如遊戲、文學)，以及低強度的描寫。
中	針對特定身分群體使用攻擊性、侮辱性、嘲笑、恐嚇或貶低性語言的內容，包括以中等強度描寫尋求和執行有害指示、幻想、頌揚、宣揚傷害。
高	顯示明確和嚴重有害指示、動作、損害或虐待的內容，包括贊同、頌揚或宣揚嚴重有害行為、極端或非法形式的傷害、激進或未經同意的權力交換或濫用。

可設定性 (預覽)

GPT 模型系列的預設內容篩選組態會設定為針對所有四個內容傷害類別（仇恨、暴力、性及自我傷害）的中等嚴重性臨界值進行篩選，並同時適用於提示（文字、多強制回應文字/影像）和完成（文字）。這表示在嚴重性層級中或高層級偵測到的內容會經過篩選，而在嚴重性層級低時偵測到的內容則不會依內容篩選來篩選。針對 DALL-E，預設嚴重性臨界值會針對提示（文字）和完成（影像）設定為低，因此在嚴重性層級低、中或高時偵測到的內容會經過篩選。可設定性功能於預覽中提供，並允許客戶分別調整提示和完成的設定，以篩選不同嚴重性層級的每個內容類別的內容，如下表所示：

篩選的嚴重性	可針對提示設定	可針對完成設定	Description
低、中等、高	Yes	Yes	最嚴格的篩選設定。偵測到的嚴重性層級為低、中和高的內容將被篩選。
中、高	Yes	Yes	偵測到嚴重性層級為低的內容不會被篩選，中和高的內容將被篩選。
高	Yes	Yes	偵測到嚴重性層級為低和中的內容不會被篩選。僅篩選嚴重性層級為高的內容。需要核准¹。
沒有篩選	如果已核准¹	如果已核准¹	無論偵測到的嚴重性層級如何，都不會篩選任何內容。需要核准¹。

¹ 針對 Azure OpenAI 模型，只有獲核准內容篩選的客戶才有完整的內容篩選控制，包括將內容篩選設定為僅高嚴重性層級或關閉內容篩選。透過此表單申請已修改的內容篩選：Azure OpenAI 有限存取權檢閱：修改的內容篩選和濫用監視 (microsoft.com) (英文)

客戶須負責確保整合 Azure OpenAI 的應用程式符合規範。

其他輸入篩選

您也可以為產生的 AI 案例啟用特殊篩選：

越獄攻擊：越獄攻擊是使用者提示，其設計目的是要引發產生 AI 模型，以展示其定型的行為，以避免或打破系統訊息中設定的規則。
間接攻擊：間接攻擊，也稱為間接提示攻擊或跨網域提示插入攻擊，是潛在的弱點，其中第三方將惡意指示放在產生 AI 系統可以存取和處理的文件內。

其他輸出篩選條件

您也可以開啟下列特殊輸出篩選：

受保護的文字內容：受保護的材料文字描述已知的文字內容（例如歌曲歌詞、文章、食譜和選取的 Web 內容），這些內容可由大型語言模型輸出。
程序代碼的受保護數據：受保護的材料程式代碼描述與公用存放庫的一組原始程式碼相符的原始程式碼，這些原始程式碼可由大型語言模型輸出，而不需要適當的來源存放庫引文。
基礎性：地面偵測篩選器會偵測大型語言模型（LLM）的文字回應是否以使用者所提供的來源數據為根據。

下一步

深入了解驅動 Azure OpenAI 的基礎模型。
Azure AI Studio 內容篩選是由 Azure AI 內容安全所提供。
深入了解以了解並降低與應用程式相關聯的風險：Azure OpenAI 模型的負責任 AI 做法概觀。

共用方式為