Konfigurera Lakehouse i en kopieringsaktivitet
Den här artikeln beskriver hur du använder kopieringsaktiviteten i en datapipeline för att kopiera data från och till Fabric Lakehouse. Som standard skrivs data till Lakehouse Table i V-Order och du kan gå till Delta Lake-tabelloptimering och V-Order för mer information.
Format som stöds
Lakehouse stöder följande filformat. Se varje artikel för formatbaserade inställningar.
- Avro-format
- Binärt format
- Avgränsat textformat
- Excel-format
- JSON-format
- ORC-format
- Parquet-format
- XML-format
Konfiguration som stöds
För konfigurationen av varje flik under kopieringsaktivitet går du till följande avsnitt.
Allmänt
För flikkonfigurationen Allmänt går du till Allmänt.
Källa
Följande egenskaper stöds för Lakehouse under fliken Källa i en kopieringsaktivitet.
Följande egenskaper krävs:
Datalagertyp: Välj Arbetsyta.
Datalagertyp för arbetsyta: Välj Lakehouse i listan över datalagertyper.
Lakehouse: Välj ett befintligt Lakehouse från arbetsytan. Om det inte finns någon skapar du ett nytt Lakehouse genom att välja Nytt. Om du använder Lägg till dynamiskt innehåll för att ange lakehouse lägger du till en parameter och anger Lakehouse-objekt-ID som parametervärde. Om du vill hämta ditt Lakehouse-objekt-ID öppnar du Lakehouse på din arbetsyta och ID:t är efter
/lakehouses/
i url:en.Rotmapp: Välj Tabeller eller filer, vilket anger den virtuella vyn för det hanterade eller ohanterade området i din sjö. Mer information finns i Lakehouse-introduktionen.
- Om du väljer Tabeller:
- Tabellnamn: Välj en befintlig tabell i tabelllistan eller ange ett tabellnamn som källa.
- Under Avancerat kan du ange följande fält:
- Tidsstämpel: Ange för att köra frågor mot en äldre ögonblicksbild efter tidsstämpel.
- Version: Ange om du vill köra frågor mot en äldre ögonblicksbild efter version.
- Ytterligare kolumner: Lägg till ytterligare datakolumner i lagringskällans relativa sökväg eller statiska värde. Uttrycket stöds för det senare.
- Om du väljer Filer:
Filsökvägstyp: Du kan välja Filsökväg, Sökväg till jokertecken eller Lista över filer som filsökvägstyp. I följande lista beskrivs konfigurationen för varje inställning:
Filsökväg: Välj Bläddra för att välja den fil som du vill kopiera eller fyll i sökvägen manuellt.
Sökväg till jokerteckenfil: Ange mappen eller filsökvägen med jokertecken under ditt angivna ohanterade lakehouse-område (under Filer) för att filtrera källmappar eller -filer. Tillåtna jokertecken är:
*
(matchar noll eller fler tecken) och?
(matchar noll eller enskilt tecken). Använd^
för att fly om mappen eller filnamnet har jokertecken eller det här escape-tecknet inuti.Sökväg till jokerteckenmapp: Sökvägen till mappen under den angivna containern. Om du vill använda ett jokertecken för att filtrera mappen hoppar du över den här inställningen och anger den informationen i inställningarna för aktivitetskällan.
Namn på jokerteckenfil: Filnamnet under det angivna ohanterade området i Lakehouse (under Filer) och mappsökvägen.
Lista över filer: Anger att en angiven filuppsättning ska kopieras.
- Mappsökväg: Pekar på en mapp som innehåller filer som du vill kopiera.
- Sökväg till fillista: Pekar på en textfil som innehåller en lista över filer som du vill kopiera, en fil per rad, vilket är den relativa sökvägen till den konfigurerade filsökvägen.
Rekursivt: Anger om data läse rekursivt från undermapparna eller endast från den angivna mappen. Om det är aktiverat bearbetas alla filer i indatamappen och dess undermappar rekursivt. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer.
Filformat: Välj filformatet i listrutan. Välj knappen Inställningar för att konfigurera filformatet. För inställningar för olika filformat, se artiklar i format som stöds för detaljerad information.
Under Avancerat kan du ange följande fält:
- Filtrera efter senast ändrad: Filer filtreras baserat på de senast ändrade datumen. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer.
- Starttid: Filerna väljs om deras senaste ändringstid är större än eller lika med den konfigurerade tiden.
- Sluttid: Filerna väljs om deras senaste ändringstid är mindre än den konfigurerade tiden.
- Aktivera partitionsidentifiering: För filer som är partitionerade anger du om du vill parsa partitionerna från filsökvägen och lägga till dem som extra källkolumner.
- Partitionsrotsökväg: När partitionsidentifiering är aktiverat anger du den absoluta rotsökvägen för att läsa partitionerade mappar som datakolumner.
- Maximalt antal samtidiga anslutningar: Anger den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.
- Filtrera efter senast ändrad: Filer filtreras baserat på de senast ändrade datumen. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer.
- Om du väljer Tabeller:
Mål
Följande egenskaper stöds för Lakehouse under fliken Mål för en kopieringsaktivitet.
Följande egenskaper krävs:
Datalagertyp: Välj Arbetsyta.
Datalagertyp för arbetsyta: Välj Lakehouse i listan över datalagertyper.
Lakehouse: Välj ett befintligt Lakehouse från arbetsytan. Om det inte finns någon skapar du ett nytt Lakehouse genom att välja Nytt. Om du använder Lägg till dynamiskt innehåll för att ange lakehouse lägger du till en parameter och anger Lakehouse-objekt-ID som parametervärde. Om du vill hämta ditt Lakehouse-objekt-ID öppnar du Lakehouse på din arbetsyta och ID:t är efter
/lakehouses/
i url:en.Rotmapp: Välj Tabeller eller filer, vilket anger den virtuella vyn för det hanterade eller ohanterade området i din sjö. Mer information finns i Lakehouse-introduktionen.
Om du väljer Tabeller:
Tabellnamn: Välj en befintlig tabell i tabelllistan eller ange ett tabellnamn som mål.
Under Avancerat kan du ange följande fält:
- Maximalt antal rader per fil: Ange maximalt antal rader per fil när du skriver data till Lakehouse.
- Tabellåtgärder: Ange åtgärden mot den valda tabellen.
- Lägg till: Lägg till nya värden i en befintlig tabell.
- Aktivera partition: Med det här valet kan du skapa partitioner i en mappstruktur baserat på en eller flera kolumner. Varje distinkt kolumnvärde (par) är en ny partition. Till exempel "year=2000/month=01/file".
- Partitionskolumnnamn: Välj från målkolumnerna i schemamappningen när du lägger till data i en ny tabell. När du lägger till data i en befintlig tabell som redan har partitioner härleds partitionskolumnerna automatiskt från den befintliga tabellen. Datatyper som stöds är sträng, heltal, booleskt värde och datetime. Formatet respekterar typkonverteringsinställningarna under fliken Mappning .
- Aktivera partition: Med det här valet kan du skapa partitioner i en mappstruktur baserat på en eller flera kolumner. Varje distinkt kolumnvärde (par) är en ny partition. Till exempel "year=2000/month=01/file".
- Skriv över: Skriv över befintliga data och scheman i tabellen med hjälp av de nya värdena. Om den här åtgärden har valts kan du aktivera partitionen i måltabellen:
- Aktivera partition: Med det här valet kan du skapa partitioner i en mappstruktur baserat på en eller flera kolumner. Varje distinkt kolumnvärde (par) är en ny partition. Till exempel "year=2000/month=01/file".
- Partitionskolumnnamn: Välj från målkolumnerna i schemamappningen. Datatyper som stöds är sträng, heltal, booleskt värde och datetime. Formatet respekterar typkonverteringsinställningarna under fliken Mappning .
- Aktivera partition: Med det här valet kan du skapa partitioner i en mappstruktur baserat på en eller flera kolumner. Varje distinkt kolumnvärde (par) är en ny partition. Till exempel "year=2000/month=01/file".
- Lägg till: Lägg till nya värden i en befintlig tabell.
- Maximalt antal samtidiga anslutningar: Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.
Om du väljer Filer:
Filsökväg: Välj Bläddra för att välja den fil som du vill kopiera eller fyll i sökvägen manuellt.
Filformat: Välj filformatet i listrutan. Välj Inställningar för att konfigurera filformatet. För inställningar för olika filformat, se artiklar i format som stöds för detaljerad information.
Under Avancerat kan du ange följande fält:
Kopieringsbeteende: Definierar kopieringsbeteendet när källan är filer från ett filbaserat datalager. Du kan välja Lägg till dynamiskt innehåll, Ingen, Platta ut hierarki eller Bevara hierarki som kopieringsbeteende. Konfigurationen av varje inställning är:
Lägg till dynamiskt innehåll: Om du vill ange ett uttryck för ett egenskapsvärde väljer du Lägg till dynamiskt innehåll. Det här fältet öppnar uttrycksverktyget där du kan skapa uttryck från systemvariabler som stöds, aktivitetsutdata, funktioner och användardefinierade variabler eller parametrar. Mer information om uttrycksspråket finns i Uttryck och funktioner.
Ingen: Välj den här markeringen om du inte vill använda något kopieringsbeteende.
Platta ut hierarki: Alla filer från källmappen är på den första nivån i målmappen. Målfilerna har automatiskt genererade namn.
Bevara hierarkin: Bevarar filhierarkin i målmappen. Den relativa sökvägen för en källfil till källmappen är identisk med den relativa sökvägen för en målfil till målmappen.
Maximalt antal samtidiga anslutningar: Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.
Blockstorlek (MB): Ange blockstorleken i MB när du skriver data till Lakehouse. Det tillåtna värdet är mellan 4 MB och 100 MB.
Metadata: Ange anpassade metadata när du kopierar till måldatalagret. Varje objekt under matrisen
metadata
representerar en extra kolumn.name
Definierar namnet på metadatanyckelnvalue
och anger nyckelns datavärde. Om funktionen bevara attribut används kommer angivna metadata att kopplas/skrivas över med källfilens metadata. De tillåtna datavärdena är:
Mappning
Om du inte använder Lakehouse-tabellen som måldatalager går du till Mappning för flikkonfigurationen Mappning.
Om du använder Lakehouse-tabellen som måldatalager, förutom konfigurationen i Mappning, kan du redigera typen för målkolumnerna. När du har valt Importera scheman kan du ange kolumntypen i målet.
Till exempel är typen för PersonID-kolumnen i källan int och du kan ändra den till strängtyp vid mappning till målkolumn.
Kommentar
Redigering av måltypen stöds för närvarande inte när källan är decimaltyp.
Om du väljer Binärt som filformat stöds inte mappning.
Inställningar
För konfigurationen av Inställningar-fliken går du till Inställningar.
Tabellsammanfattning
Följande tabeller innehåller mer information om en kopieringsaktivitet i Lakehouse.
Källinformation
Name | Beskrivning | Värde | Obligatoriskt | JSON-skriptegenskap |
---|---|---|---|---|
Typ av datalager | Din datalagertyp. | Arbetsyta | Ja | / |
Datalagertyp för arbetsyta | Avsnittet för att välja datalagertyp för arbetsytan. | Sjöhus | Ja | type |
Sjöhus | Lakehouse som du använder som källa. | <din Lakehouse> | Ja | workspaceId artifactId |
Rotmappen | Typ av rotmapp. | * Tabeller * Filer |
Nej | rootFolder: Tabell eller filer |
Tabellnamn | Namnet på tabellen som ska läsa data. | <tabellnamn> | Ja när du väljer Tabeller i rotmappen | Tabell (under typeProperties ->source ->typeProperties ) |
Tidsstämpel | Tidsstämpeln för att fråga en äldre ögonblicksbild. | <Tidsstämpel> | Nej | timestampAsOf |
Version: | Versionen för att köra frågor mot en äldre ögonblicksbild. | <Version> | Nej | versionAsOf |
Ytterligare kolumner | Ytterligare datakolumner för att lagra källfilernas relativa sökväg eller statiska värde. Uttrycket stöds för det senare. | *Namn *Värde |
Nej | additionalColumns: *Namn *Värde |
Filsökvägstyp | Typ av filsökväg som du använder. | * Filsökväg * Sökväg till jokerteckenfil * Lista över filer |
Ja | / |
Filsökväg | Kopiera från sökvägen till en mapp/fil under källdatalagret. Använd när du väljer Filsökväg i Filsökvägstyp. | <filsökväg> | Ja när du väljer Filsökväg | * folderPath *Filnamn |
Sökvägar med jokertecken | Mappsökvägen med jokertecken under källdatalagret som konfigurerats för att filtrera källmappar. Använd när du väljer Sökväg till jokertecken i Filsökvägstyp. | <sökvägar med jokertecken> | Ja när du väljer sökväg till jokerteckenfil | * jokerteckenFolderPath * jokerteckenFilnamn |
Mappsökväg | Pekar på en mapp som innehåller filer som du vill kopiera. Använd när du väljer Lista över filer i Filsökvägstyp. | <mappsökväg> | Nej | folderPath |
Sökväg till fillista | Anger att en angiven filuppsättning ska kopieras. Peka på en textfil som innehåller en lista över filer som du vill kopiera, en fil per rad, vilket är den relativa sökvägen till den konfigurerade sökvägen. Använd när du väljer Lista över filer i Filsökvägstyp. | <sökväg till fillista> | Nej | fileListPath |
Rekursivt | Bearbeta alla filer i indatamappen och dess undermappar rekursivt eller bara de i den valda mappen. Den här inställningen inaktiveras när en enskild fil har valts. | markera eller avmarkera | Nej | Rekursiv: sant eller falskt |
Filformat | Formatet på filen som du använder. | <filformat> | Ja | typ (under formatSettings ):AvgränsadTextRead Inställningar |
Filtrera efter senast ändrad | Filerna med senast ändrad tid i intervallet [Starttid, Sluttid) filtreras för vidare bearbetning. Tiden tillämpas på UTC-tidszonen i formatet yyyy-mm-ddThh:mm:ss.fffZ .Den här egenskapen kan hoppas över, vilket innebär att inget filattributfilter tillämpas. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer. |
* Starttid * Sluttid |
Nej | modifiedDatetimeStart modifiedDatetimeEnd |
Aktivera partitionsidentifiering | Om du vill parsa partitionerna från filsökvägen och lägga till dem som extra källkolumner. | Markerad eller omarkerad | Nej | enablePartitionDiscovery: sant eller falskt (standard) |
Partitionsrotsökväg | Den absoluta partitionsrotsökvägen för att läsa partitionerade mappar som datakolumner. | <partitionens rotsökväg> | Nej | partitionRootPath |
Maximalt antal samtidiga anslutningar | Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ett värde behövs bara när du vill begränsa samtidiga anslutningar. | <maximalt antal samtidiga anslutningar> | Nej | maxConcurrent Anslut ions |
Målinformation
Name | Beskrivning | Värde | Obligatoriskt | JSON-skriptegenskap |
---|---|---|---|---|
Typ av datalager | Din datalagertyp. | Arbetsyta | Ja | / |
Datalagertyp för arbetsyta | Avsnittet för att välja datalagertyp för arbetsytan. | Sjöhus | Ja | type |
Sjöhus | Lakehouse som du använder som mål. | <din Lakehouse> | Ja | workspaceId artifactId |
Rotmappen | Typ av rotmapp. | * Tabeller * Filer |
Ja | rootFolder: Tabell eller filer |
Tabellnamn | Namnet på den tabell som du vill skriva data till. | <ditt tabellnamn> | Ja när du väljer Tabeller i rotmappen | Tabell (under typeProperties ->sink ->typeProperties ) |
Maximalt antal rader per fil | När du skriver data till en mapp kan du välja att skriva till flera filer och ange maximalt antal rader per fil. | <maximalt antal rader per flie> | Nej | maxRowsPerFile |
Tabellåtgärd | Lägg till nya värden i en befintlig tabell eller skriv över befintliga data och scheman i tabellen med hjälp av de nya värdena. | * Lägga till * Skriv över |
Nej | tableActionOption: Lägg till eller skriv över |
Maximalt antal samtidiga anslutningar | Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar. | <maximalt antal samtidiga anslutningar> | Nej | maxConcurrent Anslut ions |
Filsökväg | Skriv data till sökvägen till en mapp/fil under måldatalagret. | <filsökväg> | Nej | * folderPath *Filnamn |
Filformat | Formatet på filen som du använder. | <filformat> | Ja | typ (under formatSettings ):AvgränsadTextWrite Inställningar |
Kopieringsbeteende | Kopieringsbeteendet som definieras när källan är filer från ett filbaserat datalager. | * Lägga till dynamiskt innehåll * None * Platta ut hierarki * Bevara hierarkin |
Nej | copyBehavior: * FlatHierarchy * PreserveHierarchy |
Blockstorlek (MB) | Blockstorleken i MB som används för att skriva data till Lakehouse. Det tillåtna värdet är mellan 4 MB och 100 MB. | <blockstorlek> | Nej | blockSizeInMB |
Metadata | Den anpassade metadatauppsättningen vid kopiering till ett mål. | * $$LASTMODIFIED *Uttryck * Statiskt värde |
Nej | metadata |
Relaterat innehåll
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för