Delen via


Lakehouse configureren in een kopieeractiviteit

In dit artikel wordt beschreven hoe u de kopieeractiviteit in een gegevenspijplijn gebruikt om gegevens van en naar Fabric Lakehouse te kopiëren. Standaard worden gegevens geschreven naar Lakehouse Table in V-Order en kunt u naar Delta Lake-tabeloptimalisatie en V-Order gaan voor meer informatie.

Ondersteunde indeling

Lakehouse ondersteunt de volgende bestandsindelingen. Raadpleeg elk artikel voor op indeling gebaseerde instellingen.

Ondersteunde configuratie

Voor de configuratie van elk tabblad onder kopieeractiviteit gaat u respectievelijk naar de volgende secties.

Algemeen

Ga naar Algemeen voor de configuratie van het tabblad Algemeen.

Bron

De volgende eigenschappen worden ondersteund voor Lakehouse op het tabblad Bron van een kopieeractiviteit.

Schermopname van het brontabblad en de lijst met eigenschappen.

De volgende eigenschappen zijn vereist:

  • Verbinding: Selecteer een Lakehouse-verbinding in de lijst met verbindingen. Als er geen verbinding bestaat, maakt u een nieuwe Lakehouse-verbinding door onder aan de lijst met verbindingen meer te selecteren. Als u Dynamische inhoud gebruiken toepast om uw Lakehouse op te geven, voegt u een parameter toe en geeft u de Object-id van Lakehouse op als parameterwaarde. Als u uw Lakehouse-object-id wilt ophalen, opent u uw Lakehouse in uw werkruimte en bevindt de id zich na /lakehouses/in uw URL.

    Schermopname van de object-id van Lakehouse.

  • Hoofdmap: Selecteer tabellen of bestanden, die de virtuele weergave van het beheerde of onbeheerde gebied in uw lake aangeeft. Raadpleeg de inleiding tot Lakehouse voor meer informatie.

    • Als u Tabellen selecteert:

      • Tabelnaam: Kies een bestaande tabel in de tabellijst of geef een tabelnaam op als bron. U kunt ook Nieuw selecteren om een nieuwe tabel te maken.

        Schermopname van de tabelnaam.

      • Tabel: Wanneer u Lakehouse met schema's in de verbinding toepast, kiest u een bestaande tabel met een schema in de lijst met tabellen of geeft u een tabel op met een schema als bron. U kunt ook Nieuw selecteren om een nieuwe tabel te maken met een schema. Als u geen schemanaam opgeeft, gebruikt de service dbo als het standaardschema.

        Schermopname van de tabelnaam met het schema.

      • Onder Geavanceerd kunt u de volgende velden opgeven:

        • Tijdstempel: Geef een query op voor een oudere momentopname op tijdstempel.
        • Versie: Geef een query op voor een oudere momentopname per versie.
        • Aanvullende kolommen: voeg extra gegevenskolommen toe aan het relatieve pad of statische waarde van de bronbestanden van het archief. Expressie wordt ondersteund voor de laatste.

      Lezer versie 1 wordt ondersteund. U vindt de bijbehorende ondersteunde Delta Lake-functies in dit artikel.

    • Als u Bestanden selecteert:

      • Bestandstype: U kunt het bestandspad, het pad naar het jokerteken of de lijst met bestanden kiezen als bestandspadtype. In de volgende lijst wordt de configuratie van elke instelling beschreven:

        Schermopname van het bestandspad.

        • Bestandspad: selecteer Bladeren om het bestand te kiezen dat u wilt kopiëren of vul het pad handmatig in.

        • Pad naar jokertekens: geef de map of het bestandspad op met jokertekens onder het opgegeven onbeheerde gebied van Lakehouse (onder Bestanden) om uw bronmappen of bestanden te filteren. Toegestane jokertekens zijn: * (komt overeen met nul of meer tekens) en ? (komt overeen met nul of één teken). Gebruik ^ deze optie om te escapen als uw map of bestandsnaam jokerteken of dit escape-teken bevat.

          • Pad naar map met jokertekens: het pad naar de map onder de opgegeven container. Als u een jokerteken wilt gebruiken om de map te filteren, slaat u deze instelling over en geeft u die informatie op in de instellingen van de activiteitsbron.

          • Bestandsnaam met jokerteken: de bestandsnaam onder het opgegeven lakehouse-onbeheerde gebied (onder Bestanden) en het pad naar de map.

            Schermopname van het pad naar het jokertekenbestand.

        • Lijst met bestanden: Geeft aan dat een bepaalde bestandsset moet worden gekopieerd.

          • Mappad: verwijst naar een map die bestanden bevat die u wilt kopiëren.
          • Pad naar bestandslijst: verwijst naar een tekstbestand met een lijst met bestanden die u wilt kopiëren, één bestand per regel. Dit is het relatieve pad naar het bestandspad dat is geconfigureerd.

          Schermopname van het pad naar de bestandslijst.

      • Recursief: Geeft aan of de gegevens recursief worden gelezen uit de submappen of alleen uit de opgegeven map. Indien ingeschakeld, worden alle bestanden in de invoermap en de bijbehorende submappen recursief verwerkt. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden.

      • Bestandsindeling: Selecteer uw bestandsindeling in de vervolgkeuzelijst. Selecteer de knop Instellingen om de bestandsindeling te configureren. Raadpleeg voor instellingen van verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie.

      • Onder Geavanceerd kunt u de volgende velden opgeven:

        • Filteren op laatst gewijzigd: Bestanden worden gefilterd op basis van de datums van de laatste wijziging. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden.
          • Begintijd: de bestanden worden geselecteerd als de laatste wijzigingstijd groter is dan of gelijk is aan de geconfigureerde tijd.
          • Eindtijd: de bestanden worden geselecteerd als de laatst gewijzigde tijd kleiner is dan de geconfigureerde tijd.
        • Partitiedetectie inschakelen: geef voor bestanden die zijn gepartitioneerd op of de partities van het bestandspad moeten worden geparseerd en als extra bronkolommen moeten worden toegevoegd.
          • Hoofdpad partitie: wanneer partitiedetectie is ingeschakeld, geeft u het absolute hoofdpad op om gepartitioneerde mappen als gegevenskolommen te lezen.
        • Maximum aantal gelijktijdige verbindingen: geeft de bovengrens aan van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.

Bestemming

De volgende eigenschappen worden ondersteund voor Lakehouse op het tabblad Bestemming van een kopieeractiviteit.

Schermopname van het doeltabblad.

De volgende eigenschappen zijn vereist:

  • Verbinding: Selecteer een Lakehouse-verbinding in de lijst met verbindingen. Als er geen verbinding bestaat, maakt u een nieuwe Lakehouse-verbinding door onder aan de lijst met verbindingen meer te selecteren. Als u Dynamische inhoud gebruiken toepast om uw Lakehouse op te geven, voegt u een parameter toe en geeft u de Object-id van Lakehouse op als parameterwaarde. Als u uw Lakehouse-object-id wilt ophalen, opent u uw Lakehouse in uw werkruimte en bevindt de id zich na /lakehouses/in uw URL.

    Schermopname van de object-id van Lakehouse.

  • Hoofdmap: Selecteer tabellen of bestanden, die de virtuele weergave van het beheerde of onbeheerde gebied in uw lake aangeeft. Raadpleeg de inleiding tot Lakehouse voor meer informatie.

    • Als u Tabellen selecteert:

      • Tabelnaam: Kies een bestaande tabel in de tabellijst of geef een tabelnaam op als doel. U kunt ook Nieuw selecteren om een nieuwe tabel te maken.

        Schermopname van de tabelnaam.

      • Tabel: Wanneer u Lakehouse met schema's in de verbinding toepast, kiest u een bestaande tabel met een schema in de lijst met tabellen of geeft u een tabel op met een schema als doel. U kunt ook Nieuw selecteren om een nieuwe tabel te maken met een schema. Als u geen schemanaam opgeeft, gebruikt de service dbo als het standaardschema.

        Schermopname van de tabelnaam met het schema.

      • Onder Geavanceerd kunt u de volgende velden opgeven:

        • Tabelacties: Geef de bewerking op voor de geselecteerde tabel.

          • Toevoegen: Nieuwe waarden toevoegen aan bestaande tabel.

            • Partitie inschakelen: Met deze selectie kunt u partities maken in een mapstructuur op basis van een of meerdere kolommen. Elke afzonderlijke kolomwaarde (paar) is een nieuwe partitie. Bijvoorbeeld 'year=2000/month=01/file'.
              • Naam van partitiekolom: selecteer uit de doelkolommen in schematoewijzing wanneer u gegevens toevoegt aan een nieuwe tabel. Wanneer u gegevens toevoegt aan een bestaande tabel met al partities, worden de partitiekolommen automatisch afgeleid van de bestaande tabel. Ondersteunde gegevenstypen zijn tekenreeks, geheel getal, Booleaanse waarde en datum/tijd. Opmaak respecteert de instellingen voor typeconversie op het tabblad Toewijzing .
          • Overschrijven: overschrijf de bestaande gegevens en het bestaande schema in de tabel met behulp van de nieuwe waarden. Als deze bewerking is geselecteerd, kunt u partitie inschakelen in de doeltabel:

            • Partitie inschakelen: Met deze selectie kunt u partities maken in een mapstructuur op basis van een of meerdere kolommen. Elke afzonderlijke kolomwaarde (paar) is een nieuwe partitie. Bijvoorbeeld 'year=2000/month=01/file'.
              • Naam van partitiekolom: selecteer uit de doelkolommen in schematoewijzing. Ondersteunde gegevenstypen zijn tekenreeks, geheel getal, Booleaanse waarde en datum/tijd. Opmaak respecteert de instellingen voor typeconversie op het tabblad Toewijzing .

            Het biedt ondersteuning voor Delta Lake-tijdreizen. De overschreven tabel bevat deltalogboeken voor de vorige versies, waartoe u toegang hebt in uw Lakehouse. U kunt ook de vorige versietabel uit Lakehouse kopiëren door Versie op te geven in de bron van de kopieeractiviteit.

        • Maximum aantal gelijktijdige verbindingen: de bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.

      Writer versie 2 wordt ondersteund. U vindt de bijbehorende ondersteunde Delta Lake-functies in dit artikel.

    • Als u Bestanden selecteert:

      • Bestandspad: selecteer Bladeren om het bestand te kiezen dat u wilt kopiëren of vul het pad handmatig in.

        Schermopname van het bestandspad in de bestemming.

      • Bestandsindeling: Selecteer uw bestandsindeling in de vervolgkeuzelijst. Selecteer Instellingen om de bestandsindeling te configureren. Raadpleeg voor instellingen van verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie.

      • Onder Geavanceerd kunt u de volgende velden opgeven:

        • Kopieergedrag: Definieert het kopieergedrag wanneer de bron bestanden uit een bestandsgegevensarchief is. U kunt hiërarchie platmaken, bestanden samenvoegen, hiërarchie behouden of dynamische inhoud toevoegen als uw kopieergedrag. De configuratie van elke instelling is:

          • Platgemaakte hiërarchie: alle bestanden uit de bronmap bevinden zich op het eerste niveau van de doelmap. De doelbestanden hebben automatisch gegenereerde namen.

          • Bestanden samenvoegen: hiermee worden alle bestanden uit de bronmap samengevoegd tot één bestand. Als de bestandsnaam is opgegeven, is de naam van het samengevoegde bestand de opgegeven naam. Anders is het een automatisch gegenereerde bestandsnaam.

          • Hiërarchie behouden: behoudt de bestandshiërarchie in de doelmap. Het relatieve pad van een bronbestand naar de bronmap is identiek aan het relatieve pad van een doelbestand naar de doelmap.

          • Dynamische inhoud toevoegen: Als u een expressie voor een eigenschapswaarde wilt opgeven, selecteert u Dynamische inhoud toevoegen. In dit veld wordt de opbouwfunctie voor expressies geopend, waarin u expressies kunt bouwen op basis van ondersteunde systeemvariabelen, activiteitsuitvoer, functies en door de gebruiker opgegeven variabelen of parameters. Ga naar Expressies en functies voor meer informatie over de expressietaal.

            Schermopname van kopieergedrag.

        • Maximum aantal gelijktijdige verbindingen: de bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken.

        • Blokgrootte (MB): geef de blokgrootte in MB op bij het schrijven van gegevens naar Lakehouse. De toegestane waarde ligt tussen 4 MB en 100 MB.

        • Metagegevens: aangepaste metagegevens instellen bij het kopiëren naar het doelgegevensarchief. Elk object onder de metadata matrix vertegenwoordigt een extra kolom. De name naam van de metagegevenssleutel wordt gedefinieerd en de value gegevenswaarde van die sleutel wordt aangegeven. Als de kenmerkfunctie behouden wordt gebruikt, worden de opgegeven metagegevens samengevoegd/overschreven met de metagegevens van het bronbestand. De toegestane gegevenswaarden zijn:

          • $$LASTMODIFIED: een gereserveerde variabele geeft aan dat de laatste wijzigingstijd van de bronbestanden moet worden opgeslagen. Alleen van toepassing op een bron op basis van bestanden met binaire indeling.

          • Expression

          • Statische waarde

            Schermopname van metagegevens.

Toewijzing

Als u voor de configuratie van het tabblad Toewijzing geen Lakehouse-tabel als doelgegevensarchief toepast, gaat u naar Toewijzing.

Als u Lakehouse-tabel toepast als doelgegevensarchief, met uitzondering van de configuratie in Toewijzing, kunt u het type voor de doelkolommen bewerken. Nadat u Importschema's hebt geselecteerd, kunt u het kolomtype opgeven in uw bestemming.

Het type voor de kolom PersonID in de bron is bijvoorbeeld int en u kunt dit wijzigen in het tekenreekstype bij het toewijzen aan de doelkolom.

Schermopname van het type doelkolom toewijzen.

Notitie

Het bewerken van het doeltype wordt momenteel niet ondersteund wanneer uw bron decimaal is.

Als u Binair als bestandsindeling kiest, wordt toewijzing niet ondersteund.

Instellingen

Ga naar Instellingen voor de configuratie van het tabblad Instellingen.

Tabelsamenvatting

De volgende tabellen bevatten meer informatie over een kopieeractiviteit in Lakehouse.

Brongegevens

Name Beschrijving Waarde Vereist JSON-scripteigenschap
Verbinding De sectie om uw verbinding te selecteren. < uw Lakehouse-verbinding> Ja workspaceId
artifactId
Hoofdmap Het type van de hoofdmap. Tabellen
Bestanden
Nee rootFolder:
Tabel of bestanden
Tabelnaam De naam van de tabel die u wilt lezen. <de tabelnaam> Ja wanneer u Tabellen selecteert in de hoofdmap table
Tabel De naam van de tabel met een schema dat u gegevens wilt lezen wanneer u Lakehouse met schema's als verbinding toepast. <uw tabel met een schema> Ja wanneer u Tabellen selecteert in de hoofdmap /
Voor tabel
schemanaam De naam van het schema. <uw schemanaam>
(de standaardwaarde is dbo)
Nee (onder source ->datasetSettings ->typeProperties)
schema
tabelnaam De naam van de tabel. <de tabelnaam> Ja table
Tijdstempel De tijdstempel om een query uit te voeren op een oudere momentopname. <tijdstempel> Nee timestampAsOf
Versie De versie om een query uit te voeren op een oudere momentopname. <version> Nee versionAsOf
Aanvullende kolommen Aanvullende gegevenskolommen voor het opslaan van het relatieve pad of de statische waarde van bronbestanden. Expressie wordt ondersteund voor de laatste. • Naam
•Waarde
Nee additionalColumns:
•naam
•waarde
Bestandstype Het type van het bestandspad dat u gebruikt. Bestandspad
Pad naar jokertekens
Lijst met bestanden
Ja wanneer u Bestanden in de hoofdmap selecteert /
Bestandspad Kopieer van het pad naar een map/bestand onder het brongegevensarchief. <bestandspad> Ja bij het kiezen van bestandspad • folderPath
•Bestandsnaam
Jokertekenpaden Het pad naar de map met jokertekens onder het brongegevensarchief dat is geconfigureerd voor het filteren van bronmappen. <jokertekenpaden> Ja bij het kiezen van het pad naar het jokertekenbestand • jokertekenFolderPath
• wildcardFileName
Mappad Verwijst naar een map met bestanden die u wilt kopiëren. <pad naar map> Nee folderPath
Pad naar bestandslijst Geeft aan om een bepaalde bestandsset te kopiëren. Wijs een tekstbestand aan met een lijst met bestanden die u wilt kopiëren, één bestand per regel. Dit is het relatieve pad naar het pad dat is geconfigureerd. <pad naar bestandslijst> Nee fileListPath
Recursief Alle bestanden in de invoermap en de bijbehorende submappen recursief verwerken of alleen de bestanden in de geselecteerde map. Deze instelling is uitgeschakeld wanneer één bestand is geselecteerd. selecteren of de selectie opheffen Nee recursief:
waar of onwaar
Bestandsindeling De bestandsindeling voor uw brongegevens. Raadpleeg voor de informatie over verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie. / Ja wanneer u Bestanden in de hoofdmap selecteert /
Filteren op laatst gewijzigd De bestanden met de laatst gewijzigde tijd in het bereik [Begintijd, Eindtijd) worden gefilterd op verdere verwerking.

De tijd wordt toegepast op UTC-tijdzone in de notatie van yyyy-mm-ddThh:mm:ss.fffZ.

Deze eigenschap kan worden overgeslagen, wat betekent dat er geen filter voor bestandskenmerken wordt toegepast. Deze eigenschap is niet van toepassing wanneer u het bestandstype configureert als Lijst met bestanden.
Begintijd
Eindtijd
Nee modifiedDatetimeStart
modifiedDatetimeEnd
Partitiedetectie inschakelen Of u de partities van het bestandspad wilt parseren en als extra bronkolommen wilt toevoegen. Geselecteerd of niet geselecteerd Nee enablePartitionDiscovery:
waar of onwaar (standaard)
Hoofdpad van partitie Het absolute partitiehoofdpad voor het lezen van gepartitioneerde mappen als gegevenskolommen. <uw partitiehoofdpad> Nee partitionRootPath
Maximum aantal gelijktijdige verbindingen De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Er is alleen een waarde nodig wanneer u gelijktijdige verbindingen wilt beperken. <maximum aantal gelijktijdige verbindingen> Nee maxConcurrentConnections

Doelgegevens

Name Beschrijving Waarde Vereist JSON-scripteigenschap
Verbinding De sectie om uw verbinding te selecteren. < uw Lakehouse-verbinding> Ja workspaceId
artifactId
Hoofdmap Het type van de hoofdmap. Tabellen
Bestanden
Ja rootFolder:
Tabel of bestanden
Tabelnaam De naam van de tabel waarnaar u gegevens wilt schrijven. <de tabelnaam> Ja wanneer u Tabellen selecteert in de hoofdmap table
Tabel De naam van de tabel met een schema waarnaar u gegevens wilt schrijven wanneer u Lakehouse met schema's als verbinding toepast. <uw tabel met een schema> Ja wanneer u Tabellen selecteert in de hoofdmap /
Voor tabel
schemanaam De naam van het schema. <uw schemanaam>
(de standaardwaarde is dbo)
Nee (onder sink ->datasetSettings ->typeProperties)
schema
tabelnaam De naam van de tabel. <de tabelnaam> Ja table
Tabelactie Voeg nieuwe waarden toe aan een bestaande tabel of overschrijf de bestaande gegevens en het schema in de tabel met behulp van de nieuwe waarden. Toevoegen
Overschrijven
Nee tableActionOption:
Append or OverwriteSchema
Partities inschakelen Met deze selectie kunt u partities maken in een mapstructuur op basis van een of meer kolommen. Elke afzonderlijke kolomwaarde (paar) is een nieuwe partitie. Bijvoorbeeld 'year=2000/month=01/file'. Geselecteerd of niet geselecteerd Nee partitionOption:
PartitionByKey of Geen
Partitiekolommen De doelkolommen in schematoewijzing. <uw partitiekolommen> Nee partitionNameList
Bestandspad Schrijf gegevens naar het pad naar een map/bestand onder het doelgegevensarchief. <bestandspad> Nee • folderPath
•Bestandsnaam
Bestandsindeling De bestandsindeling voor uw doelgegevens. Raadpleeg voor de informatie over verschillende bestandsindelingen artikelen in ondersteunde indeling voor gedetailleerde informatie. / Ja wanneer u Bestanden in de hoofdmap selecteert /
Gedrag van kopiëren Het kopieergedrag dat is gedefinieerd wanneer de bron bestanden is uit een gegevensarchief op basis van bestanden. Platgemaakte hiërarchie
Bestanden samenvoegen
Hiërarchie behouden
Dynamische inhoud toevoegen
Nee copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Maximum aantal gelijktijdige verbindingen De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken. <maximum aantal gelijktijdige verbindingen> Nee maxConcurrentConnections
Blokgrootte (MB) De blokgrootte in MB die wordt gebruikt voor het schrijven van gegevens naar Lakehouse. De toegestane waarde ligt tussen 4 MB en 100 MB. <blokgrootte> Nee blockSizeInMB
Metagegevens De aangepaste metagegevens die zijn ingesteld bij het kopiëren naar een bestemming. $$LASTMODIFIED
•Uitdrukking
• Statische waarde
Nee metagegevens