雜湊並上傳敏感性資訊來源資料表,以取得精確資料比對敏感性資訊類型
本文示範如何雜湊並上傳您的敏感性資訊來源資料表。
提示
如果您不是 E5 客戶,請使用 90 天Microsoft Purview 解決方案試用版來探索其他 Purview 功能如何協助貴組織管理數據安全性與合規性需求。 立即從 Microsoft Purview 合規性入口網站試用中樞開始。 瞭解 有關註冊和試用版條款的詳細數據。
適用於
雜湊並上傳敏感性資訊來源資料表
在此階段中,您:
- 設定自定義安全組和用戶帳戶。
- 設定 EDM) 上傳代理程式工具 (精確數據比對。
- 使用 EDM 上傳代理程式工具搭配 salt 值,對敏感性資訊來源資料表進行雜湊,然後上傳。
您可以使用 兩部計算機方法 或 單一計算機方法 來 哈希和上傳敏感數據,如哈希和上傳數據中所述。 最佳做法是使用兩部計算機來分隔哈希和上傳敏感數據的程式。 在兩部計算機之間分隔步驟,有助於確保您的實際數據永遠不會在計算機上以純文本格式提供,因為計算機連線到因特網而可能遭到入侵。 這也可讓您更輕鬆地找出遇到的任何問題。
先決條件
技術需求
- Microsoft 365 的公司或學校帳戶。 此帳戶必須新增至 EDM_DataUploaders 安全組。
- 具有下列其中一個作業系統的計算機。 這部計算機會執行 EDM上傳代理程式。
- Windows 10
- Windows Server 2016 與 .NET 4.6.2 版
- Windows Server 2019
- 您用於上傳資料之電腦上的目錄。 此目錄包含:
- EDM 上傳代理程式。
- .csv、.tsv 或管道 (中的敏感性信息數據檔 |) 格式。 根據預設,EDM 上傳代理程式會預期您的數據檔為 .csv 格式。 > [!提示]
您可以藉由指出「 (索引標籤) 」或「 (|」,使用檔案搭配以索引標籤或管線分隔的數據, (而非逗號) ) 」 選項與
/ColumnSeparated
參數。 例如:EdmUploadAgent.exe /UploadData /DataStoreName PatientRecords /DataFile C:\Edm\Hash\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5
- 輸出具有完成哈希程式時所建立的 和 salt 檔案。
- edm.xml 檔案中 的數據存放區名稱。 我們的範例使用
PatientRecords
。
安全組和用戶帳戶需求
將一或多個使用者新增至 EDM_DataUploaders 安全組。 (這些是管理敏感性資訊資料庫的使用者。)
精確數據比對架構
如果您針對新體驗使用EDM架構和敏感性資訊類型工具,或針對傳統體驗使用EDM敏感性資訊類型/規則套件,則必須下載該架構來哈希您的敏感性資訊源數據表。 如需詳細資訊,請 參閱匯出 XML 格式的 EDM 架構檔案。
若要下載此 EDM 架構,請開啟命令提示字元視窗並執行下列命令:
EdmUploadAgent.exe /SaveSchema /DataStoreName <schema name> /OutputDir <path to output folder>
數據格式化需求
在您哈希並上傳敏感數據之前,請先在數據表中搜尋任何可能造成剖析內容問題的特殊字元。
您可以使用具有下列語法的 EDM 上傳代理程式,驗證資料表是否為適當的格式:
EdmUploadAgent.exe /ValidateData /DataFile [data file] /Schema [schema file]
常見的格式化問題
- 不相符的數據行數目: 這可能是因為 EDM 解譯為數據行分隔符的數據表中值內有逗號或引號字元。 除非它們圍繞整個值,否則單引號和雙引號可能會導致工具誤判個別數據行的開頭和結尾。
- 值內的單引號字元或逗號: 例如,如果某個人的姓名包含單引號 (例如 Tom O') 或城市名稱開頭為單引號 (例如 's-Distributornhage) ,您必須修改用來產生敏感性資訊數據表的數據匯出程式,並以雙引號括住這類數據行。
- 值內的雙引號字元: 最佳做法是使用表格的製表分隔格式。 索引標籤分隔數據表較不容易受到這類問題的影響。
哈希並上傳您的數據
您的敏感性資訊源數據表會格式化為純文本。 藉由針對哈希步驟使用一部計算機和另一部計算機進行上傳步驟,您可以保護您的數據,避免在直接連線到您Microsoft 365 租使用者的計算機上以純文本公開數據。
重要事項
此方法需要 在這兩部計算機上安裝相同版本的EDM上傳代理程式。 然後,您可以將哈希檔案和 Salt 檔案從安全計算機複製到可直接連線到您Microsoft 365 租使用者的電腦。
在安全環境中的電腦上,於命令提示字元視窗中執行下列命令:
EdmUploadAgent.exe /CreateHash /DataFile [data file] /HashLocation [hash file location] /Schema [Schema file] /AllowedBadLinesPercentage [value]
例如:EdmUploadAgent.exe /CreateHash /DataFile C:\Edm\Data\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5
如果您未指定 /
Salt <saltvalue>
選項,這會輸出具有這些擴展名的哈希檔案和 Salt 檔案:- EdmHash
- EdmSalt
安全地將這些檔案複製到您用來上傳敏感性資訊源數據表的電腦 (例如, PatientRecords.csv) 至您的租使用者。
授權 EDM 上傳代理程式:
- 以系統管理員身分開啟命令提示字元視窗。
- 切換至安裝 EDM 上傳代理程式的目錄。 (建議的目錄為 C:\EDM\Data.)
- 執行下列命令:
EDM Upload Agent.exe /Authorize
重要事項
您必須從其安裝所在的資料夾執行EDM上傳代理程式,而且必須為資料檔指定完整路徑。
使用您的公司或學校Microsoft 365 帳戶登入。 (已新增至 EDM_DataUploaders 安全組的帳戶) 。 您的租戶信息將從用戶帳戶中提取出來以建立連接。
若要上傳哈希數據,請在命令提示字元視窗中執行下列命令:
EdmUploadAgent.exe /UploadHash /DataStoreName \<DataStoreName\> /HashFile \<HashedSourceFilePath\ /ColumnSeparator ["{Tab}"|"|"]
例如:
EdmUploadAgent.exe /UploadHash /DataStoreName PatientRecords /HashFile C:\\Edm\\Hash\\**PatientRecords.EdmHash**
若要確認敏感數據上傳成功,請在命令提示字元視窗中執行下列命令:
EdmUploadAgent.exe /GetDataStore
如果上傳成功,則會顯示資料存放區清單及其上次更新的時間。
若要顯示所有上傳至特定存放區的數據,以及更新時,請在命令提示字元視窗中執行下列命令:
EdmUploadAgent.exe /GetSession /DataStoreName <DataStoreName>
提示
若要在第一次建立哈希后自動執行哈希和上傳程式,請參閱 重新整理您的確切數據比對敏感性資訊源數據表檔案。
EDM 和雙位元組字元集語言
精確數據比對支援雙位元組字元,例如使用中文、日文和韓文的字元。 不過,它不支援以雙位元組字元編碼之相互關聯辨識項的字元串相符專案。 除非已啟用EDM的全球化,否則這兩者都不符合在分類內容中偵測到的多標記 CJK 文字,如下所述。 在所有情況下,SIT 都必須對應至任何多標記文字,包括主要欄位和相互關聯辨識項字段。
若要叫用雙位元組字元的精確數據比對,請採取下列步驟:
建立EDM敏感性資訊類型 (SIT) 設定為符合雙位元組字元集語言,例如日文漢字。
確定您已下載並安裝EDM上傳代理程式的17.01.0495.0版 (或更新版本)
將 EdmUploadAgent.exe.config 檔案的 globalization 參數更新為 true:
<add key=" IsGlobalizationEnabled" value="true">
哈希並上傳源數據表,其中包含要比對的數據。
後續步驟
針對新體驗: 測試完全符合敏感性資訊類型的數據
針對傳統體驗: 建立精確的數據比對敏感性資訊類型/規則套件