Retningslinjer for ydeevne i Fabric Data Warehouse

Gælder for:✅ Warehouse i Microsoft Fabric

Denne artikel indeholder bedste praksis for dataindtagelse, tabelstyring, dataforberedelse, statistik og forespørgsler i lager- og SQL-analyseslutpunkter. Justering og optimering af ydeevnen kan give unikke udfordringer, men de giver også værdifulde muligheder for at maksimere funktionerne i dine dataløsninger.

Tips

For omfattende tværarbejdsbelastningsvejledning om optimeringsstrategier for Delta-tabeller, herunder anbefalinger til tabeller skrevet af Spark eller mirroring, som forbruges af Fabric Data Warehouse, se Cross-workload table maintenance and optimization.

For at overvåge ydeevnen på dit lager, se Monitor Fabric Data warehouse.

Forespørgselsydeevne

Statistik

Statistikker er permanente objekter, der repræsenterer data i kolonnerne i tabellerne. Forespørgselsoptimering bruger statistikker til at vælge og beregne omkostningerne for en forespørgselsplan. Fabric Data Warehouse og Lakehouse SQL analytics-endpoints bruger og vedligeholder automatisk histogramstatistikker, gennemsnitlig kolonnelængdestatistik og tabellkardinalitetsstatistikker. For mere information, se Statistics in Fabric Data Warehouse.

T-SQL-kommandoerne CREATE STATISTICS og UPDATE STATISTICS understøttes for histogramstatistik med en enkelt kolonne. Du kan udnytte disse, hvis der er et stort nok vindue mellem dine tabeltransformationer og din forespørgselsarbejdsbelastning, f.eks. under et vedligeholdelsesvindue eller anden nedetid. Dette reducerer sandsynligheden for, at dine SELECT forespørgsler først skal opdatere statistikker.
Prøv at definere tabelskema, der bevarer datatypeparitet i almindelige kolonnesammenligninger. Hvis du f.eks. ved, at kolonner ofte sammenlignes med hinanden i en WHERE delsætning eller bruges som JOIN ... ON prædikat, skal du sørge for, at datatyperne stemmer overens. Hvis det ikke er muligt at bruge nøjagtigt de samme datatyper, skal du bruge lignende datatyper, der er kompatible til implicit konvertering. Undgå eksplicitte datakonverteringer. Du kan få flere oplysninger under Konvertering af datatype.

Tips

For Lakehouse-brugere kan den ACE-Cardinality statistik bruge oplysninger fra dine tabellers Delta-logfiler til at være mere nøjagtige. Sørg for, at dine Spark-genererede Delta-tabeller indeholder tabelrækkeantal med: spark.conf.set("spark.databricks.delta.stats.collect", "true"). Du kan få flere oplysninger under Konfigurer og administrer automatiseret tabelstatistik i Fabric Spark.

Når du filtrerer lakehouse-tabeller på tidsstempelkolonnen før Apache Spark-kørsel 3.5.0, genereres der ikke statistik på rækkegruppeniveau for tidsstempelkolonner. Denne mangel på statistikker gør det vanskeligt for systemer, f.eks. Fabric Warehouse, at anvende eliminering af rækkegrupper (også kendt som data, der springer over eller prædikerer pushdown), hvilket er optimering af ydeevnen, der springer irrelevante rækkegrupper over under udførelse af forespørgsler. Uden disse statistikker kan filtrering af forespørgsler, der involverer tidsstempelkolonner, være nødvendigt at scanne flere data, hvilket medfører en betydelig forringelse af ydeevnen. Du kan opgradere Apache Spark-runtime i Fabric. Apache Spark 3.5.0 og nyere versioner kan generere statistikker på rækkegruppeniveau for tidsstempelkolonner. Du skal derefter genoprette tabellen og indtage dataene for at få genereret statistik på rækkegruppeniveau.

Ydeevne for kold cache

Den første eksekvering af en forespørgsel i Fabric Data Warehouse kan være uventet langsommere end efterfølgende kørsler. Dette kaldes en kold start, der skyldes systeminitialisering eller skaleringsaktiviteter, der forbereder miljøet til behandling.

Kulden starter typisk, når:

Data indlæses fra OneLake i hukommelsen, fordi de åbnes for første gang og endnu ikke cachelagres.
Hvis data tilgås for første gang, forsinkes udførelsen af forespørgsler, indtil de nødvendige statistikker genereres automatisk.
Fabric Data Warehouse pauser automatisk noder efter en periode med inaktivitet for at reducere omkostningerne og tilføjer noder som en del af autoskaleringen. Det tager typisk mindre end et sekund at genoptage eller oprette noder.

Disse handlinger kan øge forespørgslens varighed. Koldstart kan være delvis. Nogle beregningsnoder, data eller statistikker er muligvis allerede tilgængelige eller cachelagret i hukommelsen, mens forespørgslen venter på, at andre bliver tilgængelige.

In-memory og diskcaching i Fabric Data Warehouse er fuldt gennemsigtig og automatisk aktiveret. Caching minimerer intelligent behovet for remote storage-læsninger ved at udnytte lokale caches. Fabric Data Warehouse anvender forfinede access-mønstre for at forbedre datalæsninger fra storage og øge forespørgselsudførelseshastigheden. Du kan få flere oplysninger under Cachelagring i Fabric-datawarehousing.

Du kan opdage cold start-effekter forårsaget af at hente data fra fjern storage ind i hukommelsen ved at forespørge queryinsights.exec_requests_history-visningen. Kontrollér kolonnen data_scanned_remote_storage_mb :

Værdien i, der ikke er nul, data_scanned_remote_storage_mb angiver en kold start. Data blev hentet fra OneLake under udførelse af forespørgslen. Efterfølgende visninger skal være klart hurtigere i queryinsights.exec_requests_history.
En nulværdi i data_scanned_remote_storage_mb er den perfekte tilstand, hvor alle data cachelagres. Der var ikke behov for nodeændringer eller data fra OneLake for at levere forespørgselsresultaterne.

Vigtige oplysninger

Bedøm ikke forespørgselsydeevnen baseret på den første udførelse. Kontrollér data_scanned_remote_storage_mb altid, om forespørgslen blev påvirket af kold start. Efterfølgende udførelser er ofte betydeligt hurtigere og repræsenterer den faktiske ydeevne, hvilket vil sænke den gennemsnitlige udførelsestid.

Forespørgsler på tabeller med strengkolonner

Brug den mindste strengkolonnelængde, der kan rumme værdier. Fabric Warehouse bliver konstant bedre; Du kan dog opleve en ikke-optimal ydeevne, hvis du bruger store strengdatatyper, især store objekter (LOB'er). For en customer_name kolonnes datatype skal du f.eks. overveje dine forretningsmæssige krav og forventede data og bruge en passende længde n , når du erklærer varchar(n), f.eks . varchar(100), i stedet for varchar(8000) eller varchar(max). Statistikker og estimering af forespørgselsomkostninger er mere nøjagtige, når datatypens længde er mere præcis i forhold til de faktiske data.

I Fabric Data Warehouse T-SQL, se vejledning for at vælge den passende længde for strengdatatyper.
Lakehouse-tabelstrengkolonner uden defineret længde i Spark genkendes af Fabric Warehouse som varchar(8000). Du opnår optimal ydeevne ved at bruge sætningen CREATE TABLE i SparkSQL til at definere strengkolonnen som varchar(n), hvor n er den maksimale kolonnelængde, der kan rumme værdier.

Transaktioner og samtidighed

Fabric Data Warehouse er bygget på en moderne, cloud-native arkitektur, der kombinerer transaktionsintegritet, snapshot-isolering og distribueret compute for at levere høj samtidighed og konsistens i stor skala. Du kan få flere oplysninger under Transaktioner i lagertabeller.

Fabric Data Warehouse understøtter ACID-kompatible transaktioner ved hjælp af snapshot-isolation. Det betyder:

Læse- og skrivehandlinger kan grupperes i en enkelt transaktion ved hjælp af standard-T-SQL (BEGIN TRANSACTION, COMMIT, ROLLBACK)
Alt eller intet-semantik: Hvis en transaktion strækker sig over flere tabeller, og én handling mislykkes, annulleres hele transaktionen.
Læs konsistens: SELECT Forespørgsler i en transaktion ser et ensartet snapshot af dataene, der ikke påvirkes af samtidige skrivninger.

Understøttelse af Fabric Warehouse-transaktioner:

DDL (Data Definition Language) i transaktioner: Du kan inkludere CREATE TABLE i en transaktionsblok.
Transaktioner på tværs af databaser: Understøttes i det samme arbejdsområde, herunder læsninger fra SQL Analytics-slutpunkter.
Parquet-baseret rollback: Da Fabric Data Warehouse gemmer data i uforanderlige Parquet-filer, er rollbacks hurtige. Annulleringer vender ganske enkelt tilbage til tidligere filversioner.
Automatisk datakomprimering og checkpointing:Datakomprimering optimerer storage- og læseydelsen ved at sammenflette små Parquet-filer og fjerne logisk slettede rækker.
Automatisk kontrol: Hver skrivehandling (INSERT, UPDATE, DELETE) føjer en ny JSON-logfil til Delta Lake-transaktionsloggen. Med tiden kan dette resultere i hundreder eller tusindvis af logfiler, især i streamingscenarier eller scenarier med høj frekvensindtagelse. Automatisk kontrol forbedrer effektiviteten af læsning af metadata ved at opsummere transaktionslogge i en enkelt kontrolpunktfil. Uden kontrolpunkter skal alle læsninger scanne hele transaktionsloggens historik. Med kontrolpunkter er de eneste logfiler, der læses, den seneste kontrolpunktsfil og logfilerne efter den. Dette reducerer I/O- og metadataparsing drastisk, især for store eller ofte opdaterede tabeller.

Både komprimering og kontrol er afgørende for tabeltilstanden, især i miljøer med lang eller høj samtidighed.

Samtidighedskontrol og isolation

Fabric Data Warehouse bruger udelukkende snapshot-isolation. Forsøg på at ændre isolationsniveauet via T-SQL ignoreres.

Bedste fremgangsmåder i forbindelse med transaktioner

Brug eksplicitte transaktioner med omhu. Altid COMMIT eller ROLLBACK. Lad ikke transaktioner være åbne.
- Bevar kortlivede transaktioner. Undgå langvarige transaktioner, der indeholder låse unødigt, især for eksplicitte transaktioner, der indeholder DDLs. Dette kan medføre strid med SELECT sætninger i systemkatalogvisninger (f.eks. sys.tables) og kan medføre problemer med Fabric-portalen, der er afhængig af systemkatalogvisninger.
Tilføj genprøvningslogik med forsinkelse i pipelines eller apps for at håndtere midlertidige konflikter.
- Brug eksponentiel backoff for at undgå nye forsøgsstorme, der forværrer midlertidige netværksafbrydelser.
- For mere information, se Forsøg igen.
Overvåg låse og konflikter på lageret.
- Brug sys.dm_tran_locks til at undersøge de aktuelle låse.

Reducer størrelsen på returnerede datasæt

Forespørgsler med stor datastørrelse i mellemliggende udførelse af forespørgsler eller i det endelige forespørgselsresultat kan opleve et større problem med forespørgselsydeevnen. Hvis du vil reducere størrelsen på det returnerede datasæt, skal du overveje følgende strategier:

Partition eller klynge (Liquid Clustering) store borde i Lakehouse.
Begræns antallet af returnerede kolonner. SELECT * kan være dyrt.
Begræns antallet af returnerede rækker. Udfør så meget datafiltrering på lageret som muligt, ikke i klientprogrammer.
- Prøv at filtrere, før du tilmelder dig, for at reducere datasættet tidligt i udførelsen af forespørgslen.
- Filtrer efter kolonner med lav kardinalitet for at reducere store datasæt tidligt før JOIN'er.
- Kolonner med høj kardinalitet er ideelle til filtrering og JOID'er. Disse bruges ofte i WHERE delsætninger og drager fordel af, at prædikat anvendes på et tidligere tidspunkt i udførelse af forespørgsler for at filtrere data fra.
I Fabric Data Warehouse, da primærnøgle- og unikke nøglebegrænsninger ikke håndhæves, er kolonner med disse begrænsninger ikke nødvendigvis gode kandidater til JOINs.

Forespørgselsplaner og forespørgselstip

I Fabric Data Warehouse genererer forespørgselsoptimereren en forespørgselsudførelsesplan for at finde den mest effektive måde at udføre en SQL-forespørgsel på. Erfarne brugere kan overveje at undersøge problemer med forespørgselsydeevnen med forespørgselsplanen eller ved at tilføje forespørgselstip.

Brugere kan bruge SHOWPLAN_XML i SQL Server Management Studio til at se planen uden at udføre forespørgslen.
Valgfrie forespørgselstip kan føjes til en SQL-sætning for at give flere instruktioner til forespørgselsoptimering, før der oprettes en plan. Tilføjelse af forespørgselstip kræver avanceret viden om forespørgselsarbejdsbelastninger, og de bruges derfor typisk, når der er implementeret andre bedste fremgangsmåder, men problemet fortsætter.

Ikke-skalerbare handlinger

Fabric Data Warehouse er bygget på en massivt parallel behandlingsarkitektur (MPP), hvor forespørgsler udføres på tværs af flere beregningsnoder. I nogle scenarier er udførelse af en enkelt node berettiget:

Hele udførelsen af forespørgselsplanen kræver kun én beregningsnode.
En planundertræ kan være inden for én beregningsnode.
Hele forespørgslen eller en del af forespørgslen skal udføres på en enkelt node for at opfylde forespørgslens semantik. F.eks TOP . handlinger, global sortering, forespørgsler, der kræver sortering af resultater fra parallelle udførelser for at producere et enkelt resultat eller sammenføjning af resultater for det sidste trin.

I disse tilfælde kan brugerne modtage en advarselsmeddelelse "En eller flere ikke-skalerbare handlinger registreres", og forespørgslen kan køre langsomt eller mislykkes efter en lang udførelse.

Overvej at reducere størrelsen af forespørgslens filtrerede datasæt.
Hvis forespørgslens semantik ikke kræver udførelse af en enkelt node, kan du prøve at gennemtvinge en distribueret forespørgselsplan med FORCE DISTRIBUTED PLAN, f.eks OPTION (FORCE DISTRIBUTED PLAN);. .

Forespørg SQL Analytics-slutpunktet

Du kan bruge SQL Analytics-slutpunktet til at forespørge Lakehouse-tabeller, der er udfyldt med Spark SQL, uden at kopiere eller indtage data til lageret.

Følgende bedste fremgangsmåder gælder for forespørgsler om lagerdata i Lakehouse via SQL Analytics-slutpunktet. Du kan finde flere oplysninger om ydeevnen for SQL-slutpunkter under Overvejelser i forbindelse med ydeevnen af SQL-analyseslutpunkt.

Tips

Følgende bedste praksis gælder for brug af Spark til at behandle data i et lakehouse, der kan forespørges af SQL Analytics-slutpunktet.

Udfør almindelig tabelvedligeholdelse for Lakehouse-tabeller

I Microsoft Fabric optimerer Warehouse automatisk datalayouts og udfører garbage collection og kompaktering. For en Lakehouse har du mere kontrol over bordvedligeholdelse. Tabeloptimering og støvsugning er nødvendige og kan reducere scanningstiden betydeligt for store datasæt. Tabelvedligeholdelse i Lakehouse udvides også til genveje og kan hjælpe dig med at forbedre ydeevnen betydeligt der.

Optimer lakehouse-tabeller eller -genveje med mange små filer

Hvis du har mange små filer, opstår der problemer med læsning af filmetadata. Brug kommandoen OPTIMIZE på Fabric-portalen eller i en notesbog til at kombinere små filer til større filer. Gentag denne proces, når antallet af filer ændres betydeligt.

Hvis du vil optimere et bord i et Fabric Lakehouse, skal du åbne Lakehouse på Fabric-portalen. Højreklik på tabellen i Stifinder, og vælg Vedligeholdelse. Vælg indstillinger på siden Kør vedligeholdelseskommandoer , og vælg derefter Kør nu.

Forespørgsels lakehouse-tabeller eller -genveje, der er placeret i det samme område

Fabric bruger beregning, hvor Fabric-kapaciteten er placeret. Forespørgsler på data, som i din egen Azure Data Lake Storage eller i OneLake, i en anden region, resulterer i ydelsesoverhead på grund af netværkslatens. Sørg for, at dataene er i det samme område. Afhængigt af dine krav til ydeevnen kan du overveje kun at bevare små tabeller, f.eks. dimensionstabeller, i et fjernområde.

Filtrer lakehouse-tabeller og -genveje på de samme kolonner

Hvis du ofte filtrerer tabelrækker efter bestemte kolonner, kan du overveje at partitionere tabellen.

Partitionering fungerer godt for kolonner med lav kardinalitet eller kolonner med forudsigelig kardinalitet, f.eks. år eller datoer. Du kan få flere oplysninger under Lakehouse-selvstudium – Forbered og transformér lakehouse-data og Indlæs data til Lakehouse ved hjælp af partition.

Klyngedannelse fungerer godt for kolonner med høj selektivitet. Hvis du har andre kolonner, som du ofte bruger til filtrering, bortset fra partitioneringskolonner, kan du overveje at gruppere tabellen ved hjælp af optimer med Spark SQL-syntaksen ZORDER BY. Du kan få flere oplysninger under Tabeloptimering af Delta Lake.

Dataklyngedannelse

Du kan også lave dataklynge på specifikke kolonner i CREATE TABLE og CREATE TABLE AS SELECT (CTAS) T-SQL-sætningerne. Dataklynge fungerer ved at gemme rækker med lignende værdier i tilstødende placeringer på storage under indlæsning.

Dataklyngedannelse bruger en pladsfyldende kurve til at organisere data på en måde, der bevarer lokalitet på tværs af flere dimensioner, hvilket betyder, at rækker med lignende værdier på tværs af klyngningskolonner lagres fysisk tæt sammen. Denne tilgang forbedrer forespørgselsydelsen markant ved at udføre filspring og reducere antallet af filer, der scannes.
Dataklyngemetadata indlejres i manifestet under indlæsning, hvilket gør det muligt for warehouse-motoren at træffe intelligente beslutninger om, hvilke filer der skal access under brugerforespørgsler. Disse metadata, kombineret med hvordan rækker med lignende værdier gemmes sammen, sikrer, at forespørgsler med filterprædikater kan springe hele filer og rækkegrupper over, der ligger uden for prædikatets område.

For eksempel: hvis en forespørgsel kun retter sig mod 10% af en tabels data, sikrer klyngedannelse, at kun filer, der indeholder data inden for filterets område, scannes, hvilket reducerer I/O- og beregningsforbrug. Større tabeller drager større fordel af dataklyngedannelse, da fordelene ved filspringning skalerer med datavolumen.

For fuldstændig information om dataklyngedannelse, se Dataklynge i Fabric Data Warehouse.
For en vejledning i dataclustering og hvordan man måler dens positive effekt på ydeevnen, se Use data clustering in Fabric Data Warehouse.

Optimering af datatype

At vælge de rigtige datatyper er afgørende for ydeevne og storage-effektivitet i dit lager. Følgende retningslinjer hjælper med at sikre, at dit skemadesign understøtter hurtige forespørgsler, effektiv storage og vedligeholdelse.

For mere information om datatyper understøttet af Fabric Data Warehouse, se Datatyper i Fabric Data Warehouse.

Tips

Hvis du bruger eksterne værktøjer til at generere tabeller eller forespørgsler, f.eks. med en kodebaseret udrulningsmetode, skal du omhyggeligt gennemse kolonnedatatyperne. Længder og forespørgsler for tegndatatyper skal følge disse bedste fremgangsmåder.

Tilpas datatyper til datasemantik

For at sikre både clarity og ydeevne er det vigtigt at tilpasse hver kolonnes datatype til den faktiske karakter og adfærd af de data, den gemmer.

Brug dato, klokkeslæt eller datetime2(n) til tidsmæssige værdier i stedet for at gemme dem som strenge.
Brug heltalstyper til numeriske værdier, medmindre formatering (f.eks. foranstillede nuller) er påkrævet.
Brug tegntyper (tegn, varchar), når det er vigtigt at bevare formateringen (f.eks. tal, der kan begynde med nul, produktkoder, tal med tankestreger).

Brug heltalstyper til heltal

Når du gemmer værdier, f.eks. identifikatorer, tællere eller andre heltal, foretrækkes heltalstyper (smallint, int, bigint) frem for decimaltal/. Heltalstyper kræver mindre storage end datatyper, der tillader cifre til højre for decimalpunktet. De muliggør derfor hurtigere aritmetiske handlinger og sammenligningshandlinger og forbedrer ydeevnen for indeksering og forespørgsler.

Vær opmærksom på værdiintervallerne for hver heltalsdatatype, som understøttes af Fabric Data Warehouse. Du kan få flere oplysninger , int, bigint, smallint (Transact-SQL).

Overvej brugen af decimal- og numerisk præcision og skalering

Hvis du skal bruge decimaltal/, skal du vælge den mindste præcision og skalering , der kan rumme dine data, når du opretter kolonnen. Overprovisioneringspræcision øger storage-kravene og kan forringe ydeevnen, efterhånden som data vokser.

Forudse dit lagers forventede vækst og behov. For eksempel, hvis du planlægger at gemme højst fire cifre til højre for decimalpunktet, brug decimal(9,4) eller decimal(19,4) for mest effektive storage.
Angiv altid præcision og skalering, når du opretter en numerisk decimalkolonne/. Når den oprettes i en tabel, der er defineret som bare decimal, uden at angive (p,s) for præcision og skalering, oprettes der en numerisk decimalkolonne/ som .decimal(18,0) En decimal med en præcision på 18 bruger 9 bytes storage pr. række. En skalering af 0 gemmer ikke data til højre for decimaltegnet. For mange virksomheder hele tal, smallint, int, bigint er meget mere effektive end decimal(18,0). For eksempel kan ethvert ni-cifret heltal gemmes som en datatype heltals for 4 bytes storage pr. række.

Du kan få flere oplysninger under decimaler og numeriske (Transact-SQL).

Overvej, hvornår du skal bruge varchar over tegn

Brug varchar(n) i stedet for char(n) for strengkolonner, medmindre udfyldning med fast længde udtrykkeligt er påkrævet. En varchar-kolonne gemmer kun den faktiske strenglængde pr. række plus en lille belastning og reducerer spildplads, hvilket forbedrer I/O-effektiviteten.

Brug varchar(n) til værdier som navne, adresser og beskrivelser, da de har meget variable værdier. Statistikker og estimering af forespørgselsomkostninger er mere nøjagtige, når datatypens længde er mere præcis i forhold til de faktiske data.
Brug char(n), når du ved, at strengen vil være en fast længde hver gang. Det giver f.eks. mening at gemme strengen 000000000 som et tegn(9), hvis strengen altid er præcis 9 numeriske tegn, der kan starte med et nul.
Længden n i kolonnens datatypedeklaration er de storage bytes. For multibyte-kodningstegnsæt som UTF-8, kodningen til Fabric Data Warehouse, optager latinske tegn og tal 1 byte storage. Der er dog Unicode-tegn, der kræver mere end 1 byte, f.eks. japanske tegn, der kræver 3 byte at gemme, så antallet af Unicode-tegn, der faktisk er gemt, kan være mindre end datatypelængden n. Du kan få flere oplysninger under argumenterne char og varchar.

Undgå kolonner, der kan være null, når det er muligt

Definer kolonner, som NOT NULL når datamodellen tillader det. Som standard tillader NULL en kolonne i en tabel værdier. Kolonner, der kan være null, har følgende egenskaber:

De tilføjer metadataomkostninger.
Kan reducere effektiviteten af forespørgselsoptimeringer og statistikker.
Kan påvirke ydeevnen i analyseforespørgsler i stor skala.

Dataindtagelse og -forberedelse i et lager

KOPIÉR TIL

Kommandoen T-SQL COPY INTO er den anbefalede måde at indlæse data fra Azure Data Lake Storage ind i Fabric Data Warehouse. Du kan få flere oplysninger og eksempler under Indfødning af data til dit lager ved hjælp af COPY-sætningen.

Overvej følgende anbefalinger for at få den bedste ydeevne:

Filstørrelse: Sørg for, at hver fil, du indtager, ideelt set er mellem 100 MB og 1 GB for maksimeret gennemløb. Dette hjælper med at optimere indtagelsesprocessen og forbedre ydeevnen.
Antal filer: For at maksimere parallelitet og forespørgselsydeevne skal du forsøge at generere et højt antal filer. Prioriter oprettelse af så mange filer som muligt, samtidig med at du bevarer en minimumfilstørrelse på 100 MB.
Parallel indlæsning: Anvend flere COPY INTO sætninger, der kører parallelt for at indlæse data i forskellige tabeller. Denne fremgangsmåde kan reducere ETL/ELT-vinduet betydeligt på grund af parallelitet.
Kapacitetsstørrelse: For større datamængder kan du overveje at skalere ud til større Fabric Capacity for at få de ekstra beregningsressourcer, der er nødvendige for at imødekomme yderligere antal parallelle behandlingsmængder og større datamængder.

Fabric Data Warehouse understøtter også BULK INSERT-sætning, som er et synonym for COPY INTO. Den samme anbefaling gælder for BULK INSERT sætningen.

CTAS eller INSERT

Brug CREATE TABLE AS SELECT (CTAS) eller INSERT kombineret med SELECT FROM Lakehouse tabel-/genvejskommandoer. Disse metoder kan være mere effektive og effektive end at bruge pipelines, hvilket muliggør hurtigere og mere pålidelige dataoverførsler. Du kan få flere oplysninger og eksempler under Indfødning af data i dit lager ved hjælp af Transact-SQL.

Begrebet at øge antallet af parallelitet og skalering til større Fabric Capacity gælder også for CTAS/INSERT-handlinger for at øge gennemløbet.

Læs data fra Azure Data Lake Storage eller Blob Storage med OPENROWSET

Funktionen OPENROWSET gør det muligt at læse CSV- eller Parquet-filer fra Azure Data Lake eller Azure Blob storage uden at skulle importere dem til Warehouse. Du kan finde flere oplysninger og eksempler under Gennemse filindhold ved hjælp af funktionen OPENROWSET.

For mere information og eksempler på forespørgsler af eksterne data, se Forespørg eksterne data lake-filer ved at bruge Fabric Data Warehouse eller SQL analytics endpoint.

Når du læser data ved hjælp af funktionen OPENROWSET, skal du overveje følgende anbefalinger for at få den bedste ydeevne:

Parket: Prøv at bruge Parquet i stedet for CSV, eller konvertér CSV til Parquet, hvis du ofte forespørger filerne. Parquet er et kolonneformat. Da data er komprimeret, er filstørrelserne mindre end CSV-filer, der indeholder de samme data. Fabric Data Warehouse springer de kolonner og rækker over, som ikke er nødvendige i en forespørgsel, hvis du læser Parquet-filer.
Filstørrelse: Sørg for, at hver fil, du indtager, ideelt set er mellem 100 MB og 1 GB for maksimeret gennemløb. Dette hjælper med at optimere indtagelsesprocessen og forbedre ydeevnen. Det er bedre at have lige store filer.
Antal filer: For at maksimere parallelitet og forespørgselsydeevne skal du forsøge at generere et højt antal filer. Prioriter oprettelse af så mange filer som muligt, samtidig med at du bevarer en minimumfilstørrelse på 100 MB.
Partition: Partitioner dine data ved at gemme partitioner i forskellige mapper eller filnavne, hvis arbejdsbelastningen filtrerer dem efter partitionskolonner.
Skøn: Prøv at angive ROWS_PER_BATCH , så det svarer til antallet af rækker i de underliggende filer, hvis du føler, at du ikke får den forventede ydeevne.
Kapacitetsstørrelse: I forbindelse med større datamængder kan du overveje at skalere ud til større SKU for at få flere beregningsressourcer, der er nødvendige for at imødekomme et ekstra antal parallelle behandlingsmængder og større datamængder.

Undgå trickle inserts, updates og deletes

For at sikre effektiv fillayout og optimal forespørgselsydelse i Fabric Data Warehouse, undgå at bruge mange små transaktioner INSERT, UPDATE og DELETE. Disse ændringer på rækkeniveau genererer en ny Parquet-fil for hver handling, hvilket resulterer i et stort antal små filer og fragmenterede rækkegrupper. Denne fragmentering medfører:

Øget ventetid for forespørgsler pga. ineffektiv filscanning.
Højere storage- og compute-omkostninger.
Større afhængighed af baggrundskomprimeringsprocesser.

Anbefalede fremgangsmåder:

Batch-transaktioner, der skrives ind i Fabric Data Warehouse.
- I stedet for mange små INSERT sætninger kan du f.eks. samle data før fase og indsætte data i én INSERT sætning.
Brug COPY INTO til masseindsætninger, og udfør opdateringer og sletninger i batches, når det er muligt.
Bevar mindst en importeret filstørrelse på 100 MB for at sikre effektiv rækkegruppedannelse.
Du kan finde flere vejledninger og bedste praksis for dataindtagelse under Bedste fremgangsmåder til indfødning af data i et lager.

Datakomprimering

I Fabric Data Warehouse er datakomprimering en baggrundsoptimeringsproces, der sammenlægger små, ineffektive Parquet-filer med færre, større filer. Disse filer oprettes ofte af hyppige trickle INSERT- , UPDATEeller DELETE -handlinger. Datakomprimering reducerer filfragmentering, forbedrer effektiviteten af rækkegrupper og forbedrer den overordnede ydeevne af forespørgsler.

Selvom Fabric Data Warehouse-motoren automatisk løser fragmentering over tid gennem datakomprimering, kan ydeevnen forringes, indtil processen er færdig. Datakompaktering kører automatisk uden brugerindgriben for Fabric Data Warehouse.

Datakomprimering gælder ikke for Lakehouse. For Lakehouse-tabeller, der tilgås via SQL-analyseendpoints, er det vigtigt at følge Lakehouse best practices og manuelt køre kommandoen OPTIMIZE efter væsentlige dataændringer for at opretholde optimal storage layout.

Undladelse af datakomprimering

Fabric Data Warehouse undgår intelligent og aktivt skrive-skrive-konflikter mellem baggrundskomprimeringsopgaver og brugerdrift. Fra og med oktober 2025 er datakomprimering aktiveret.

Komprimeringskontrol for delte låse, der opbevares af brugerforespørgsler. Hvis datakomprimering registrerer en lås, før den begynder, venter den og prøver igen senere. Hvis datakomprimering starter og registrerer en lås, før den bekræftes, afbrydes komprimeringen for at undgå en skrivekonflikt med brugerforespørgslen.

Skriv-skriv-konflikter med Fabric Data Warehouse baggrundsdatakompaktionstjenesten er stadig mulige. Det er muligt at oprette en skrive-skrive-konflikt med datakomprimering, f.eks. hvis et program bruger en eksplicit transaktion og udfører ikke-modstridende arbejde (som INSERT) før en modstridende handling (UPDATE, DELETE, MERGE). Datakomprimering kan bekræftes, hvilket medfører, at den eksplicitte transaktion senere mislykkes på grund af en konflikt. For mere information om skriv-skriv eller opdateringskonflikter, se Transaktioner i lagertabeller i Microsoft Fabric.

V-Order i Fabric Data Warehouse

V-Order er en skrivetidsoptimering af parquet-filformatet, der muliggør hurtige læsninger i Microsoft Fabric. V-Order i Fabric Data Warehouse forbedrer forespørgselsydelsen ved at anvende sortering og komprimering på tabelfiler.

Som standard er V-Order aktiveret på alle lagre for at sikre, at læsehandlinger, især analytiske forespørgsler, er så hurtige og effektive som muligt.

V-Order introducerer dog en lille indtagelsesbelastning, der er mærkbar i skrivetunge arbejdsbelastninger. Derfor bør deaktivering af V-Order kun tages i betragtning for lagre, der er strengt skrivetunge og ikke bruges til hyppige forespørgsler. Det er vigtigt at bemærke, at når V-Order er deaktiveret på et lager, kan den ikke aktiveres igen.

Før brugerne beslutter sig for at deaktivere V-Order, skal de grundigt teste deres arbejdsbelastningsydeevne for at sikre, at afvejningen er berettiget. Et almindeligt mønster er at bruge et staging-lager med V-Order deaktiveret for høj-gennemstrømning indlæsning, datatransformation og indlæse de underliggende data i et V-Order-aktiveret Data Warehouse for bedre læseydelse. For mere information, se Deaktiver V-ordre på lager i Microsoft Fabric.

Klon tabeller i stedet for at kopiere tabeller

Table-kloner i Fabric Data Warehouse giver en hurtig og effektiv måde at oprette tabeller på uden at kopiere data. Med en tilgang til kloning med nul kopiering er det kun tabellens metadata, der duplikeres, mens der refereres direkte til de underliggende datafiler fra OneLake. Dette giver brugerne mulighed for at oprette ensartede, pålidelige tabelkopier næsten med det samme, uden at der er brug for fuld dataduplikering.

Zero-copy kloner er ideelle til scenarier som udvikling, test og backup og tilbyder en højtydende, storage-effektiv løsning, der hjælper med at reducere infrastrukturomkostningerne.

Klonede tabeller kopierer også alle vigtige sikkerhedsfunktioner fra kilden, herunder Row-Level Security (RLS), Column-Level Security (CLS) og DDM (Dynamic Data Masking), uden at det er nødvendigt at anvende politikker igen efter kloning.
Kloner kan oprettes på et bestemt tidspunkt inden for dataopbevaringsperioden, hvilket understøtter tidsrejsefunktioner.
Klonede tabeller findes uafhængigt af deres kilde, ændringer af kilden påvirker ikke klonen, og ændringer af klonen påvirker ikke kilden. Enten kan kilden eller klonen slippes uafhængigt af hinanden.

Forespørgselsmetadatavisninger

Kørselshistorik for forespørgsel (30 dage)
- queryinsights.exec_requests_history
- queryinsights.exec_sessions_history
Aggregeret indsigt
- queryinsights.long_running_queries
- queryinsights.frequently_run_queries

Du kan få flere oplysninger om visningerne queryinsightsunder Forespørgselsindsigt i Fabric-datawarehousing.

DMV'er for forespørgselslivscyklus

Du kan få flere oplysninger om dmv'er for forespørgselslivscyklus under Overvåg forbindelser, sessioner og anmodninger ved hjælp af DMV'er.

Feedback

Var denne side nyttig?

Last updated on 2026-03-11

Retningslinjer for ydeevne i Fabric Data Warehouse

Forespørgselsydeevne

Statistik

Ydeevne for kold cache

Forespørgsler på tabeller med strengkolonner

Transaktioner og samtidighed

Samtidighedskontrol og isolation

Bedste fremgangsmåder i forbindelse med transaktioner

Reducer størrelsen på returnerede datasæt

Forespørgselsplaner og forespørgselstip

Ikke-skalerbare handlinger

Forespørg SQL Analytics-slutpunktet

Udfør almindelig tabelvedligeholdelse for Lakehouse-tabeller

Optimer lakehouse-tabeller eller -genveje med mange små filer

Forespørgsels lakehouse-tabeller eller -genveje, der er placeret i det samme område

Filtrer lakehouse-tabeller og -genveje på de samme kolonner

Dataklyngedannelse

Optimering af datatype

Tilpas datatyper til datasemantik

Brug heltalstyper til heltal

Overvej brugen af decimal- og numerisk præcision og skalering

Overvej, hvornår du skal bruge varchar over tegn

Undgå kolonner, der kan være null, når det er muligt

Dataindtagelse og -forberedelse i et lager

KOPIÉR TIL

CTAS eller INSERT

Læs data fra Azure Data Lake Storage eller Blob Storage med OPENROWSET

Undgå trickle inserts, updates og deletes

Datakomprimering

Undladelse af datakomprimering

V-Order i Fabric Data Warehouse

Klon tabeller i stedet for at kopiere tabeller

Forespørgselsmetadatavisninger

Relateret indhold

Feedback

Yderligere ressourcer