GDPR és CCPA-megfelelőség a Delta Lake-nek
Ez a cikk azt ismerteti, hogyan használhatja a Delta Lake-t az Azure Databricksben az általános adatvédelmi rendelet (GDPR) és a kaliforniai fogyasztóvédelmi törvény (CCPA) megfelelőségének kezelésére a data lake-hez. A megfelelőséghez gyakran ponttörlésekre vagy egyes rekordok törlésére van szükség egy nagy adatgyűjteményben. A Delta Lake felgyorsítja az ACID-tranzakciókkal rendelkező nagy adattavak ponttörlését, lehetővé téve a személyes idenfiable információk (PII) megkeresését és eltávolítását a fogyasztói GDPR- vagy CCPA-kérelmekre válaszul.
Az adatmodell megtervezése a megfelelőség érdekében
Az adatok megfelelőséghez való modellezése fontos lépés a PII kezelésében. Az adatfogyasztók igényeitől függően számos járható út áll rendelkezésre.
Az egyik gyakran alkalmazott módszer a személyes információelemek (azonosítók) álnevesítése vagy megfordítható tokenizálása olyan kulcsokra (álnevesítésekre), amelyek külsőleg nem azonosíthatók. Az álnevesítésen keresztüli megfelelőség gondos tervezést igényel, beleértve a következőket:
- Az információk tárolása az azonosítók helyett az álnevekkel kapcsolatos módon.
- Szigorú szabályzatok fenntartása az azonosítókat és álneveket kombináló adatok elérésére és használatára vonatkozóan.
- Folyamatok vagy tárolási szabályzatok a nyers adatok eltávolításához.
- Az álnevesítések és az azonosítók közötti kapcsolat megkeresésére és törlésére szolgáló logika.
A Delta Lake leegyszerűsíti a ponttörléseket
A Delta Lake számos adatkiugrási optimalizálással rendelkezik. A ponttörlések felgyorsítása érdekében a Databricks a Z-order használatát javasolja a műveletek során DELETE
használt mezőkön.
A Delta Lake megőrzi a táblaelőzményeket, és elérhetővé teszi időponthoz kötött lekérdezésekhez és visszaállításokhoz. A VÁKUUM függvény eltávolítja azokat az adatfájlokat, amelyekre a Delta-tábla már nem hivatkozik, és amelyek régebbiek a megadott megőrzési küszöbértéknél, és véglegesen törli az adatokat. Az alapértelmezett beállításokról és javaslatokról további információt a Delta Lake-táblaelőzmények használatában című témakörben talál.
Feljegyzés
A törlési vektorokkal rendelkező táblák esetében a mögöttes rekordok végleges törléséhez is futnia REORG TABLE ... APPLY (PURGE)
kell. Lásd: Módosítások alkalmazása parquet-adatfájlokra.