Megosztás a következőn keresztül:


GDPR és CCPA-megfelelőség a Delta Lake-nek

Ez a cikk azt ismerteti, hogyan használhatja a Delta Lake-t az Azure Databricksben az általános adatvédelmi rendelet (GDPR) és a kaliforniai fogyasztóvédelmi törvény (CCPA) megfelelőségének kezelésére a data lake-hez. A megfelelőséghez gyakran ponttörlésekre vagy egyes rekordok törlésére van szükség egy nagy adatgyűjteményben. A Delta Lake felgyorsítja az ACID-tranzakciókkal rendelkező nagy adattavak ponttörlését, lehetővé téve a személyes idenfiable információk (PII) megkeresését és eltávolítását a fogyasztói GDPR- vagy CCPA-kérelmekre válaszul.

Az adatmodell megtervezése a megfelelőség érdekében

Az adatok megfelelőséghez való modellezése fontos lépés a PII kezelésében. Az adatfogyasztók igényeitől függően számos járható út áll rendelkezésre.

Az egyik gyakran alkalmazott módszer a személyes információelemek (azonosítók) álnevesítése vagy megfordítható tokenizálása olyan kulcsokra (álnevesítésekre), amelyek külsőleg nem azonosíthatók. Az álnevesítésen keresztüli megfelelőség gondos tervezést igényel, beleértve a következőket:

  • Az információk tárolása az azonosítók helyett az álnevekkel kapcsolatos módon.
  • Szigorú szabályzatok fenntartása az azonosítókat és álneveket kombináló adatok elérésére és használatára vonatkozóan.
  • Folyamatok vagy tárolási szabályzatok a nyers adatok eltávolításához.
  • Az álnevesítések és az azonosítók közötti kapcsolat megkeresésére és törlésére szolgáló logika.

A Delta Lake leegyszerűsíti a ponttörléseket

A Delta Lake számos adatkiugrási optimalizálással rendelkezik. A ponttörlések felgyorsítása érdekében a Databricks a Z-order használatát javasolja a műveletek során DELETE használt mezőkön.

A Delta Lake megőrzi a táblaelőzményeket, és elérhetővé teszi időponthoz kötött lekérdezésekhez és visszaállításokhoz. A VÁKUUM függvény eltávolítja azokat az adatfájlokat, amelyekre a Delta-tábla már nem hivatkozik, és amelyek régebbiek a megadott megőrzési küszöbértéknél, és véglegesen törli az adatokat. Az alapértelmezett beállításokról és javaslatokról további információt a Delta Lake-táblaelőzmények használatában című témakörben talál.

Feljegyzés

A törlési vektorokkal rendelkező táblák esetében a mögöttes rekordok végleges törléséhez is futnia REORG TABLE ... APPLY (PURGE) kell. Lásd: Módosítások alkalmazása parquet-adatfájlokra.