Načtení tabulek datového skladu

Dokončeno

Na základní úrovni se načítání datového skladu obvykle dosahuje přidáním nových dat ze souborů v datovém jezeře do tabulek v datovém skladu. Příkaz COPY je efektivní způsob, jak tuto úlohu provést, jak je znázorněno v následujícím příkladu:

COPY INTO dbo.StageProducts
    (ProductID, ProductName, ProductCategory, Color, Size, ListPrice, Discontinued)
FROM 'https://mydatalake.blob.core.windows.net/data/stagedfiles/products/*.parquet'
WITH
(
    FILE_TYPE = 'PARQUET',
    MAXERRORS = 0,
    IDENTITY_INSERT = 'OFF'
);

Důležité informace o návrhu procesu načítání datového skladu

Jedním z nejběžnějších vzorů při načítání datového skladu je přenos dat ze zdrojových systémů do souborů v datovém jezeře, příjem dat souboru do pracovních tabulek a následné načtení dat z pracovních tabulek do tabulek dimenzí a faktů pomocí příkazů SQL. Načítání dat se obvykle provádí jako pravidelný dávkový proces, ve kterém se vkládání a aktualizace datového skladu koordinuje v pravidelných intervalech (například denně, týdně nebo měsíčně).

Ve většině případů byste měli implementovat proces načítání datového skladu, který provádí úlohy v následujícím pořadí:

  1. Ingestování nových dat, která se mají načíst do datového jezera, použití čištění před načtením nebo transformace podle potřeby.
  2. Načtěte data ze souborů do pracovních tabulek v relačním datovém skladu.
  3. Načtěte tabulky dimenzí z dat dimenzí v pracovních tabulkách, aktualizujte existující řádky nebo vložte nové řádky a podle potřeby vygenerujte náhradní hodnoty klíče.
  4. Načtěte tabulky faktů z dat faktů v pracovních tabulkách a vyhledejte odpovídající náhradní klíče pro související dimenze.
  5. Proveďte optimalizaci po načtení aktualizací indexů a statistik distribuce tabulek.

Po použití COPY příkazu k načtení dat do pracovních tabulek můžete použít kombinaci INSERTpříkazů , UPDATE, MERGEa CREATE TABLE AS SELECT (CTAS) k načtení fázovaných dat do dimenzí a tabulek faktů.

Poznámka:

Implementace efektivního řešení načítání datového skladu vyžaduje pečlivé zvážení správy náhradních klíčů, pomalu se měnících dimenzí a dalších složitostí, které jsou součástí schématu relačního datového skladu. Další informace o technikách načítání datového skladu najdete v tématu Načtení dat do modulu relačního datového skladu .