Sdílet prostřednictvím


Transformace strukturovaných souborů na tabulky Delta

Pomocí zjednodušených transformací můžete převést strukturované soubory na dotazovatelné tabulky Delta. Pokud už jsou zdrojová data v tabulkovém formátu, jako je CSV, Parquet nebo JSON, transformace souborů automaticky zkopírují a převedou tato data do formátu Delta Lake, abyste je mohli dotazovat pomocí SQL, Sparku nebo Power BI bez vytváření pipelines ETL.

Informace o nestrukturovaných textových souborech, které potřebují zpracování umělé inteligence, jako je sumarizace, překlad nebo analýza sentimentu, najdete v tématu Transformace zkratkami (s podporou AI).

Klávesové zkratky zůstávají vždy synchronizované se zdrojovými daty. Výpočetní prostředí Fabric Spark provede transformaci a zkopíruje data pomocí zástupce OneLake do spravované tabulky Delta. Díky automatickému zpracování schématu, schopnostem hlubokého zploštění a podpoře více formátů komprese, zjednodušené transformace eliminují složitost sestavování a údržby ETL pipelines.

Note

Transformace klávesových zkratek jsou momentálně ve veřejné ukázce a můžou se změnit.

Proč používat zkratkové transformace?

  • Automatický převod – Fabric kopíruje a převádí zdrojové soubory do formátu Delta bez ruční orchestraci pipeline.
  • Častá synchronizace – Fabric pravidelně zjišťuje stav zástupce každé dvě minuty a synchronizují změny.
  • Výstup Delta Lake – Výsledná tabulka je kompatibilní s jakýmkoli modulem Apache Spark.
  • Děděné řízení – zástupce přejímá historii OneLake, oprávnění a zásady Microsoft Purview.

Prerequisites

Requirement Details
Microsoft Fabric SKU Kapacita nebo zkušební verze, která podporuje úlohy Lakehouse.
Zdrojová data Složka, která obsahuje homogenní soubory CSV, Parquet nebo JSON.
Role pracovního prostoru Přispěvatel nebo vyšší

Podporované zdroje, formáty a cíle

Podporují se všechny zdroje dat podporované ve OneLake.

Formát zdrojového souboru Cíl Podporovaná rozšíření Podporované typy komprese Poznámky
CSV (UTF-8, UTF-16) Tabulka Delta Lake ve složce Lakehouse / Tables .csv, .txt (s oddělovačem), .tsv (tabulátorem oddělený), .psv (svislicí oddělený) .csv.gz, .csv.bz2 .csv.zip a .csv.snappy se nepodporují.
Parquet Tabulka Delta Lake ve složce Lakehouse / Tables .parquet .parquet.snappy, .parquet.gzip, .parquet.lz4, .parquet.brotli, .parquet.zstd
JSON Tabulka Delta Lake ve složce Lakehouse / Tables .json, .jsonl, .ndjson .json.gz, .json.bz2, .jsonl.gz, .ndjson.gz, .jsonl.bz2, .ndjson.bz2 .json.zip a .json.snappy se nepodporují.

Nastavení transformace zkratky

  1. V lakehouse vyberte Nové zástupce tabulky v části Tabulky, což je Transformace zástupce (ukázka). Vyberte zdroj (například Azure Data Lake, Azure Blob Storage, Dataverse, Amazon S3, GCP, SharePoint, OneDrive a další).

    Snímek obrazovky znázorňující vytvoření zkratky tabulky.

  2. Zvolte soubor, konfigurujte transformaci a vytvořte zástupce – Přejděte na existující zástupce OneLake, který odkazuje na složku se soubory CSV, nakonfigurujte parametry a zahajte vytváření.

    • Oddělovač v souborech CSV – Vyberte znak použitý k oddělení sloupců (čárka, středník, svislá čára, tabulátor, ampersand, mezera).
    • První řádek jako záhlaví – Určuje, jestli první řádek obsahuje názvy sloupců.
    • Zkrácený název tabulky – Zadejte popisný název; Fabric ho vytvoří v adresáři /Tables.
  3. Sledujte aktualizace a zobrazte protokoly pro transparentnost v centru pro správu monitorování zástupců.

Výpočetní prostředí Fabric Spark zkopíruje data do tabulky Delta a zobrazuje průběh v podokně Spravovat zástupce . Transformace zkratek jsou k dispozici v položkách Lakehouse. Vytvoří tabulky Delta Lake ve složce Lakehouse / Tables .

Jak funguje synchronizace

Po počátečním načtení výpočetní prostředí Fabric Spark:

  • Dotazuje cíl zástupce každé dvě minuty.
  • Rozpozná nové nebo upravené soubory a odpovídajícím způsobem připojí nebo přepíše řádky.
  • Rozpozná odstraněné soubory a odebere odpovídající řádky.

Monitorování a řešení potíží

Transformace zkratek zahrnují monitorování a zpracování chyb, které vám pomůžou sledovat stav příjmu dat a diagnostikovat problémy.

  1. Otevřete jezero a klikněte pravým tlačítkem myši na zástupce, který vaši transformaci předá.

  2. Vyberte Spravovat zástupce.

  3. V podokně podrobností můžete zobrazit:

    • Stav – výsledek poslední kontroly a aktuální stav synchronizace
    • Historie aktualizace – Chronologický seznam synchronizačních operací s počty řádků a všemi podrobnostmi o chybách

    Snímek obrazovky znázorňující centrum monitorování pro zobrazení stavu transformace

  4. Prohlédněte si více podrobností v protokolech pro odstraňování problémů.

    Snímek obrazovky, který ukazuje, jak získat přístup k

Omezení

Aktuální omezení transformací klávesových zkratek:

  • Zdrojový formát: Podporují se jenom soubory CSV, JSON a Parquet.
    • Nepodporované datové typy pro CSV: Sloupce se smíšenými datovými typy, Timestamp_Nanos, komplexní logické typy – MAP/LIST/STRUCT, Surový binární kód
    • Nepodporované datové typy pro Parquet: Timestamp_nanos, desetinné číslo s int32/INT64, INT96, nepřiřazené celočíselné typy – UINT_8/UINT_16/UINT_64, komplexní logické typy – MAP/LIST/STRUCT
    • Nepodporované datové typy pro JSON: Smíšené datové typy v poli, nezpracované binární objekty blob ve formátu JSON Timestamp_Nanos
  • Konzistence schématu souborů: Soubory musí sdílet stejné schéma.
  • Dostupnost pracovního prostoru: K dispozici pouze v položkách Lakehouse (nikoli v databázích Data Warehouses nebo KQL).
  • Operace zápisu: Transformace jsou optimalizované pro čtení; přímé příkazy MERGE INTO nebo DELETE v cílové tabulce transformace nejsou podporované.
  • Zploštění datového typu Pole ve formátu JSON: Datový typ Pole se uchovává v tabulce Delta a data jsou přístupná pomocí Spark SQL a PySpark. V případě dalších transformací lze pro stříbrnou vrstvu použít materializovaná zobrazení jezera Fabric.
  • Hloubka zploštění ve formátu JSON: Vnořené struktury jsou zploštěny do nejvýše pěti úrovní. Hlubší vnoření vyžaduje předběžné zpracování.

Informace o nových funkcích a vydáních najdete v cestovní mapě Fabric a na blogu aktualizace Fabric.

Vyčištění

Pokud chcete synchronizaci zastavit, odstraňte zástupce transformace z Lakehouse Exploreru.

Odstranění transformace neodebere podkladové soubory.