Eksportuj dane źródłowe dla dokładnego typu informacji poufnych opartych na dopasowaniu danych
Porada
Jeśli nie jesteś klientem E5, skorzystaj z 90-dniowej wersji próbnej rozwiązań Microsoft Purview, aby dowiedzieć się, w jaki sposób dodatkowe możliwości usługi Purview mogą pomóc organizacji w zarządzaniu potrzebami w zakresie zabezpieczeń danych i zgodności. Rozpocznij teraz w centrum portal zgodności Microsoft Purview Trials Hub. Dowiedz się więcej o warunkach rejestracji i wersji próbnej.
Informacje zawarte w tym artykule dotyczą
Tabela danych poufnych to plik tekstowy zawierający wiersze wartości, z którymi będziesz porównywać zawartość w dokumentach w celu identyfikowania poufnych danych. Te wartości mogą być danymi osobowymi, rekordami produktów lub innymi poufnymi danymi w postaci tekstowej, które chcesz wykryć w zawartości i podjąć działania ochronne.
Po wyeksportowaniu danych w jednym z obsługiwanych formatów możesz kontynuować tworzenie schematu EDM.
Definiowanie typu wrażliwego na EDM
Podczas definiowania typu wrażliwego na EDM jedną z najważniejszych decyzji jest zdefiniowanie pól podstawowych. Pola podstawowe muszą być zgodne z wykrywalnym wzorcem i definiowane jako pola (kolumny) z możliwością wyszukiwania w schemacie EDM. Pola pomocnicze nie muszą być zgodne z żadnym wzorcem, ponieważ zostaną porównane ze wszystkimi tekstami otaczającymi dopasowania do pól podstawowych.
Te reguły ułatwiają określenie kolumn, których należy używać jako pól podstawowych:
- Jeśli musisz wykryć poufne dane na podstawie obecności pojedynczej wartości pasującej do pola w poufnej tabeli danych, niezależnie od obecności innych poufnych danych otaczających tę kolumnę, ta kolumna musi być zdefiniowana jako podstawowy element dla typu EDM.
- Jeśli wiele kombinacji różnych pól w poufnej tabeli danych musi zostać wykrytych w zawartości, zidentyfikuj kolumny, które są wspólne dla większości takich kombinacji, i określ je jako podstawowe elementy i kombinacje innych pól jako elementy pomocnicze.
- Jeśli kolumna, której chcesz użyć jako pola podstawowego, nie jest zgodna z wykrywalnym wzorcem, takim jak dowolny ciąg tekstowy lub jest zgodna z wykrywalnymi wzorcami, które byłyby obecne gdzieś w dużej części dokumentów lub wiadomości e-mail, spróbuj wybrać inne lepiej ustrukturyzowane kolumny jako elementy podstawowe.
Jeśli na przykład masz kolumny full name
, , date of birth
account number
, i Social Security Number
, nawet jeśli pierwszą i ostatnią nazwą są kolumny, które będą wspólne dla różnych kombinacji danych, które chcesz wykryć, takie ciągi nie są zgodne z łatwo rozpoznawalnymi wzorcami i mogą być trudne do zdefiniowania jako typ informacji poufnych. Dzieje się tak, ponieważ niektóre nazwy mogą nawet nie zaczynać się wielkimi literami, mogą być tworzone przez dwa, trzy lub więcej słów, a nawet mogą zawierać cyfry lub inne znaki nie alfabetyczne. Datę urodzenia można łatwiej zidentyfikować, ale ponieważ każda wiadomość e-mail i większość dokumentów będzie zawierać co najmniej jedną datę, nie jest to również dobry kandydat. Numery ubezpieczenia społecznego i numery kont są dobrymi kandydatami do użycia jako pole podstawowe.
Przykładowe szablony plików
Aby ułatwić wybieranie pól podstawowych, przygotowaliśmy kilka przykładowych szablonów plików dla następujących elementów:
- Dane dotyczące opieki zdrowotnej w Stanach Zjednoczonych
- Dane finansowe w Stanach Zjednoczonych
- Dane dotyczące ubezpieczeń w Stanach Zjednoczonych
Są to pliki wartości rozdzielone przecinkami (.csv), które mają najczęściej używane wartości w tych branżowych pionach jako nagłówki kolumn. Nagłówki kolumn powinny ułatwić podjęcie decyzji o polach podstawowych. Najlepszym rozwiązaniem jest wyeksportowanie tylko wymaganych danych źródłowych. Nagłówki kolumn sugerują najbardziej odpowiednie pola.
W wierszach są również generowane przez firmę Microsoft wartości syntetyczne.
Aby dowiedzieć się, jak używać przykładowych szablonów plików, przejdź do tematu Jak używać przykładowych szablonów plików.
Zapisywanie poufnych danych w formacie .csv, tsv lub rozdzielanym potokami
Zidentyfikuj informacje poufne, których chcesz użyć. Wyeksportuj dane do aplikacji, takiej jak Microsoft Excel, i zapisz plik w pliku tekstowym. Plik można zapisać w formacie .csv (wartości rozdzielane przecinkami), tsv (wartości rozdzielone tabulatorami) lub w formacie rozdzielanym potokami (|). Format tsv jest zalecany w przypadkach, gdy wartości danych mogą zawierać przecinki, takie jak adresy ulic. Plik danych może zawierać maksymalnie:
- Maksymalnie 100 milionów wierszy poufnych danych
- Maksymalnie 32 kolumny (pola) na źródło danych
- Maksymalnie dziesięć kolumn (pól) oznaczonych jako możliwe do wyszukiwania
Ustrukturyzuj dane poufne w pliku .csv lub tsv, tak aby pierwszy wiersz zawierał nazwy pól używanych do klasyfikacji opartej na rozwiązaniu EDM. W pliku mogą znajdować się nazwy pól, takie jak "ssn", "birthdate", "firstname", "lastname". Nazwy nagłówków kolumn nie mogą zawierać spacji ani podkreślenia. Przykładowy plik .csv używany w tym artykule nosi nazwę PatientRecords.csv, a jego kolumny to PatientID, MRN, LastName, FirstName, SSN i inne.
Zwróć uwagę na format pól danych poufnych; w szczególności pola, które mogą zawierać przecinki w ich zawartości. Na przykład adres ulicy zawierający wartość "Seattle, WA" zostanie przeanalizowany jako dwa oddzielne pola, jeśli wybrano format .csv. Aby tego uniknąć, użyj formatu tsv lub otoczył przecinek zawierający wartości podwójnym cudzysłowem w tabeli danych poufnych. Jeśli przecinki zawierające wartości zawierają również spacje, musisz utworzyć niestandardowy interfejs SIT zgodny z odpowiednim formatem. Na przykład sit, który wykrywa ciąg wielosłowny z przecinkami i spacjami w nim.
Następny krok
- Aby uzyskać nowe środowisko: utwórz przykładowy plik EDM SIT dla nowego środowiska
lub
- W przypadku środowiska klasycznego: utwórz schemat dla dokładnych typów informacji poufnych opartych na dopasowaniu danych