Notesbogvisualisering i Microsoft Fabric

Microsoft Fabric er en integreret analysetjeneste, der fremskynder tiden til indsigt på tværs af data warehouses og big data-systemer. Datavisualisering i notesbøger er en vigtig funktion, der giver dig mulighed for at få indsigt i dine data, hvilket hjælper brugerne med nemt at identificere mønstre, tendenser og afvigende værdier.

Når du arbejder med Apache Spark i Fabric, har du indbyggede muligheder for at visualisere data, herunder funktioner i Fabric-notesbogdiagram og adgang til populære biblioteker med åben kildekode.

Stofnotesbøger giver dig også mulighed for at konvertere tabelresultater til tilpassede diagrammer uden at skrive kode, hvilket giver dig en mere intuitiv og problemfri oplevelse af dataudforskning.

Indbygget visualiseringskommando – funktionen display()

Den indbyggede visualiseringsfunktion Fabric giver dig mulighed for at transformere Apache Spark DataFrames, Pandas DataFrames og SQL-forespørgselsresultater til omfattende, interaktive datavisualiseringer.

Ved hjælp af visningsfunktionen kan du gengive PySpark og Scala Spark DataFrames eller Resilient Distributed Datasets (RDD'er) som dynamiske tabeller eller diagrammer.

Du kan angive rækkeantallet for den dataramme, der gengives. Standardværdien er 1000. Notebook-vise outputwidget understøtter visning og profil højst 10.000 rækker i en dataramme.

Du kan bruge filterfunktionen på den globale værktøjslinje til at anvende brugerdefinerede regler på dine data. Filterbetingelsen anvendes på en angivet kolonne, og resultaterne afspejles i både tabel- og diagramvisningerne.

Outputtet fra SQL-sætningen anvender den samme outputwidget med display() som standard.

Avanceret datarammetabelvisning

Understøttelse af gratis valg i tabelvisning

Tabelvisningen gengives som standard, når kommandoen display() bruges i en Fabric-notesbog. Den omfattende prøveversion af dataramme tilbyder en intuitiv funktion til gratis valg, der er designet til at forbedre oplevelsen med dataanalyse ved at muliggøre fleksible, interaktive valgmuligheder. Denne funktion gør det nemt for brugerne at navigere og udforske datarammer på en effektiv måde.

valg af kolonne
- Enkelt kolonne: Klik på kolonneoverskriften for at markere hele kolonnen.
- Flere kolonner: Når du har valgt en enkelt kolonne, skal du trykke på skift og holde den nede og derefter klikke på en anden kolonneoverskrift for at markere flere kolonner.
rækkemarkering
- Enkelt række: Klik på en rækkeoverskrift for at markere hele rækken.
- Flere rækker: Når du har valgt en enkelt række, skal du trykke på skift og holde den nede og derefter klikke på en anden rækkeoverskrift for at markere flere rækker.
Eksempel på celleindhold: Få vist indholdet af de enkelte celler for at få et hurtigt og detaljeret indblik i dataene uden at skulle skrive yderligere kode.
Kolonneoversigt: Få en oversigt over hver kolonne, herunder datadistribution og nøglestatistikker, for hurtigt at forstå dataenes egenskaber.
valg af friområde: Markér et vilkårligt fortløbende segment i tabellen for at få en oversigt over de markerede celler i alt og de numeriske værdier i det markerede område.
Kopierer markeret indhold: I alle markeringssager kan du hurtigt kopiere det markerede indhold ved hjælp af genvejen 'Ctrl + C'. De valgte data kopieres i CSV-format, hvilket gør det nemt at behandle dem i andre programmer.

Understøttelse af dataprofilering via ruden Undersøg

Du kan profilere din dataramme ved at klikke på knappen Undersøg . Den indeholder den opsummerede datadistribution og viser statistikker for hver kolonne.
Hvert kort i sideruden "Undersøg" knyttes til en kolonne i datarammen. Du kan få vist flere oplysninger ved at klikke på kortet eller vælge en kolonne i tabellen.
Du kan få vist celledetaljerne ved at klikke på cellen i tabellen. Denne funktion er nyttig, når datarammen indeholder lang strengtype af indhold.

Udvidet visning af Rich DataFrame-diagram

Den forbedrede diagramvisning i kommandoen display() giver en mere intuitiv og dynamisk måde at visualisere dine data på.

Vigtige forbedringer:

Understøttelse af flere diagrammer: Tilføj op til fem diagrammer i en enkelt display() outputwidget ved at vælge Nyt diagram, så det er nemt at sammenligne på tværs af forskellige kolonner.
Anbefalinger til smartdiagrammer: Få en liste over foreslåede diagrammer, der er baseret på din DataFrame. Vælg at redigere en anbefalet visualisering eller oprette et brugerdefineret diagram fra bunden.

Fleksibel tilpasning: Tilpas dine visualiseringer med justerbare indstillinger, der tilpasses på baggrund af den valgte diagramtype.

Kategori	Grundlæggende indstillinger	Beskrivelse
	Diagramtype	Visningsfunktionen understøtter en lang række diagramtyper, herunder liggende søjlediagrammer, punktdiagrammer, kurvediagrammer, pivottabeller med mere.
Titel	Titel	Diagrammets titel.
Titel	Undertekst	Undertitlen på diagrammet med flere beskrivelser.
Data	X-akse	Angiv diagrammets nøgle.
Data	Y-akse	Angiv værdierne i diagrammet.
Forklaring	Vis forklaring	Aktivér/deaktiver forklaringen.
Forklaring	Placering	Tilpas placeringen af forklaringen.
Andet	Seriegruppe	Brug denne konfiguration til at bestemme grupperne for sammenlægningen.
Andet	Aggregering	Brug denne metode til at aggregere data i din visualisering.
Andet	Stablet	Konfigurer visningstypografien for resultatet.
Andet	Manglende værdier og NULL-værdier	Konfigurer, hvordan manglende eller NULL-diagramværdier vises.

Bemærk

Derudover kan du angive antallet af viste rækker med en standardindstilling på 1.000. Outputwidgetten til notesbogen understøtter visning og profilering af op til 10.000 rækker i en DataFrame. Vælg Sammenlægning over alle resultater , og vælg derefter Anvend for at anvende diagramoprettelsen fra hele datarammen. Et Spark-job udløses, når diagramindstillingen ændres. Det kan tage flere minutter at fuldføre beregningen og gengive diagrammet.

Kategori	Avancerede indstillinger	Beskrivelse
Farve	Tema	Definer diagrammets temafarvesæt.
X-akse	Mærkat	Angiv en etiket til X-aksen.
X-akse	Omfang	Angiv skalafunktionen for X-aksen.
X-akse	Interval	Angiv værdiområdet X-aksen.
Y-akse	Mærkat	Angiv en etiket til Y-aksen.
Y-akse	Omfang	Angiv skalafunktionen for Y-aksen.
Y-akse	Interval	Angiv Y-aksen for værdiområdet.
Skærm	Vis navne	Vis/skjul resultatnavnene i diagrammet.

Ændringerne af konfigurationer træder i kraft med det samme, og alle konfigurationerne gemmes automatisk i notesbogens indhold.

Du kan nemt omdøbe, duplikere, slette eller flytte diagrammer i menuen med diagramfanen. Du kan også trække og slippe faner for at omarrangere dem. Den første fane vises som standard, når notesbogen åbnes.
Der er en interaktiv værktøjslinje tilgængelig i den nye diagramoplevelse, når brugeren holder markøren over et diagram. Understøttelseshandlinger som zoom ind, zoom ud, vælg at zoome, nulstille, panorere, redigere anmærkninger osv.

Her er et eksempel på en diagramanmærkning.

display() oversigtsvisning

Brug display(df, summary = true) til at kontrollere statistikoversigten for en given Apache Spark DataFrame. Oversigten indeholder kolonnenavnet, kolonnetypen, entydige værdier og manglende værdier for hver kolonne. Du kan også vælge en bestemt kolonne for at se dens minimumværdi, maksimumværdi, middelværdi og standardafvigelse.

indstillingen displayHTML()

Fabric-notesbøger understøtter HTML-grafik ved hjælp af funktionen displayHTML .

Følgende billede er et eksempel på oprettelse af visualiseringer ved hjælp af D3.js.

Kør følgende kode for at oprette denne visualisering.

displayHTML("""<!DOCTYPE html>
<meta charset="utf-8">

<!-- Load d3.js -->
<script src="https://d3js.org/d3.v4.js"></script>

<!-- Create a div where the graph will take place -->
<div id="my_dataviz"></div>
<script>

// set the dimensions and margins of the graph
var margin = {top: 10, right: 30, bottom: 30, left: 40},
  width = 400 - margin.left - margin.right,
  height = 400 - margin.top - margin.bottom;

// append the svg object to the body of the page
var svg = d3.select("#my_dataviz")
.append("svg")
  .attr("width", width + margin.left + margin.right)
  .attr("height", height + margin.top + margin.bottom)
.append("g")
  .attr("transform",
        "translate(" + margin.left + "," + margin.top + ")");

// Create Data
var data = [12,19,11,13,12,22,13,4,15,16,18,19,20,12,11,9]

// Compute summary statistics used for the box:
var data_sorted = data.sort(d3.ascending)
var q1 = d3.quantile(data_sorted, .25)
var median = d3.quantile(data_sorted, .5)
var q3 = d3.quantile(data_sorted, .75)
var interQuantileRange = q3 - q1
var min = q1 - 1.5 * interQuantileRange
var max = q1 + 1.5 * interQuantileRange

// Show the Y scale
var y = d3.scaleLinear()
  .domain([0,24])
  .range([height, 0]);
svg.call(d3.axisLeft(y))

// a few features for the box
var center = 200
var width = 100

// Show the main vertical line
svg
.append("line")
  .attr("x1", center)
  .attr("x2", center)
  .attr("y1", y(min) )
  .attr("y2", y(max) )
  .attr("stroke", "black")

// Show the box
svg
.append("rect")
  .attr("x", center - width/2)
  .attr("y", y(q3) )
  .attr("height", (y(q1)-y(q3)) )
  .attr("width", width )
  .attr("stroke", "black")
  .style("fill", "#69b3a2")

// show median, min and max horizontal lines
svg
.selectAll("toto")
.data([min, median, max])
.enter()
.append("line")
  .attr("x1", center-width/2)
  .attr("x2", center+width/2)
  .attr("y1", function(d){ return(y(d))} )
  .attr("y2", function(d){ return(y(d))} )
  .attr("stroke", "black")
</script>

"""
)

Integrer en Power BI-rapport i en notesbog

Vigtigt

Denne funktion er en prøveversion.

Powerbiclient Python-pakken understøttes nu oprindeligt i Fabric-notesbøger. Du behøver ikke at foretage nogen ekstra konfiguration (f.eks. godkendelsesproces) på Spark runtime 3.4 for Fabric-notesbogen. Du skal blot importere powerbiclient og derefter fortsætte din udforskning. Du kan få mere at vide om, hvordan du bruger powerbiclient-pakken, i dokumentationen til powerbiclient.

Powerbiclient understøtter følgende vigtige funktioner.

Gengiv en eksisterende Power BI-rapport

Du kan nemt integrere og interagere med Power BI-rapporter i dine notesbøger med blot nogle få kodelinjer.

Følgende billede er et eksempel på gengivelse af eksisterende Power BI-rapport.

Kør følgende kode for at gengive en eksisterende Power BI-rapport.

from powerbiclient import Report

report_id="Your report id"
report = Report(group_id=None, report_id=report_id)

report

Opret rapportvisualiseringer fra en Spark DataFrame

Du kan bruge en Spark DataFrame i din notesbog til hurtigt at generere indsigtsfulde visualiseringer. Du kan også vælge Gem i den integrerede rapport for at oprette et rapportelement i et destinationsarbejdsområde.

Følgende billede er et eksempel på en QuickVisualize() fra en Spark DataFrame.

Kør følgende kode for at gengive en rapport fra en Spark DataFrame.

# Create a spark dataframe from a Lakehouse parquet table
sdf = spark.sql("SELECT * FROM testlakehouse.table LIMIT 1000")

# Create a Power BI report object from spark data frame
from powerbiclient import QuickVisualize, get_dataset_config
PBI_visualize = QuickVisualize(get_dataset_config(sdf))

# Render new report
PBI_visualize

Opret rapportvisualiseringer fra en pandas DataFrame

Du kan også oprette rapporter baseret på en pandas DataFrame i notesbogen.

Følgende billede er et eksempel på en QuickVisualize() fra en pandas DataFrame.

Kør følgende kode for at gengive en rapport fra en Spark DataFrame.

import pandas as pd

# Create a pandas dataframe from a URL
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/fips-unemp-16.csv")

# Create a pandas dataframe from a Lakehouse csv file
from powerbiclient import QuickVisualize, get_dataset_config

# Create a Power BI report object from your data
PBI_visualize = QuickVisualize(get_dataset_config(df))

# Render new report
PBI_visualize

Populære biblioteker

Når det kommer til datavisualisering, tilbyder Python flere grafbiblioteker, der er pakket med mange forskellige funktioner. Hver Apache Spark-pool i Fabric indeholder som standard et sæt organiserede og populære biblioteker med åben kildekode.

Matplotlib

Du kan gengive standardafbildningsbiblioteker, f.eks. Matplotlib, ved hjælp af de indbyggede gengivelsesfunktioner for hvert bibliotek.

Følgende billede er et eksempel på oprettelse af et liggende søjlediagram ved hjælp af Matplotlib.

Kør følgende eksempelkode for at tegne dette liggende søjlediagram.

# Bar chart

import matplotlib.pyplot as plt

x1 = [1, 3, 4, 5, 6, 7, 9]
y1 = [4, 7, 2, 4, 7, 8, 3]

x2 = [2, 4, 6, 8, 10]
y2 = [5, 6, 2, 6, 2]

plt.bar(x1, y1, label="Blue Bar", color='b')
plt.bar(x2, y2, label="Green Bar", color='g')
plt.plot()

plt.xlabel("bar number")
plt.ylabel("bar height")
plt.title("Bar Chart Example")
plt.legend()
plt.show()

Bokeh

Du kan gengive HTML- eller interaktive biblioteker, f.eks . bokeh, ved hjælp af displayHTML(df).

Følgende billede er et eksempel på afbildning af glyffer over et kort ved hjælp af bokeh.

Hvis du vil tegne dette billede, skal du køre følgende eksempelkode.

from bokeh.plotting import figure, output_file
from bokeh.tile_providers import get_provider, Vendors
from bokeh.embed import file_html
from bokeh.resources import CDN
from bokeh.models import ColumnDataSource

tile_provider = get_provider(Vendors.CARTODBPOSITRON)

# range bounds supplied in web mercator coordinates
p = figure(x_range=(-9000000,-8000000), y_range=(4000000,5000000),
           x_axis_type="mercator", y_axis_type="mercator")
p.add_tile(tile_provider)

# plot datapoints on the map
source = ColumnDataSource(
    data=dict(x=[ -8800000, -8500000 , -8800000],
              y=[4200000, 4500000, 4900000])
)

p.circle(x="x", y="y", size=15, fill_color="blue", fill_alpha=0.8, source=source)

# create an html document that embeds the Bokeh plot
html = file_html(p, CDN, "my plot1")

# display this html
displayHTML(html)

Plotly

Du kan gengive HTML- eller interaktive biblioteker, f.eks . Plotly, ved hjælp af displayHTML().