Adatok vizualizációja

Cikk
10/18/2023

Az Azure Synapse egy integrált elemzési szolgáltatás, amely felgyorsítja az elemzési időt az adattárházakban és a big data elemzési rendszerekben. Az adatvizualizáció kulcsfontosságú szerepet játszik abban, hogy betekintést nyerhet az adataiba. Megkönnyíti a nagy és kis méretű adatok megértését az emberek számára. Emellett megkönnyíti a minták, trendek és kiugró értékek észlelését adatcsoportokban.

Ha apache Sparkot használ az Azure Synapse Analyticsben, különböző beépített lehetőségek állnak rendelkezésre az adatok megjelenítéséhez, beleértve a Synapse-jegyzetfüzetdiagram beállításait, a népszerű nyílt forráskódú kódtárakhoz való hozzáférést, valamint a Synapse SQL-vel és a Power BI-val való integrációt.

Jegyzetfüzetdiagram beállításai

Azure Synapse-jegyzetfüzet használata esetén a táblázatos eredménynézetet testre szabott diagrammá alakíthatja a diagrambeállítások használatával. Itt anélkül jelenítheti meg az adatokat, hogy kódokat kellene írnia.

display(df) függvény

A display függvény lehetővé teszi, hogy az SQL-lekérdezéseket és az Apache Spark-adatkereteket és RDD-ket gazdag adatvizualizációkká alakítsa. A display függvény a PySparkban, a Scalában, a Java-ban, az R-ben és a .NET-ben létrehozott adatkereteken vagy RDD-ken használható.

A diagram beállításainak elérése:

A varázsparancsok kimenete %%sql alapértelmezés szerint a renderelt táblázat nézetben jelenik meg. A renderelt táblanézet létrehozásához meghívhatja display(df) a Spark DataFrames vagy a Rugalmas elosztott adathalmazok (RDD) függvényt is.
Ha már rendelkezik renderelt táblázatnézetsel, váltson a Diagram nézetre.

Mostantól testre szabhatja a vizualizációt a következő értékek megadásával:

Konfiguráció	Leírás
Diagram típusa	A `display` függvény számos diagramtípust támogat, beleértve a sávdiagramokat, a pontdiagramokat, a vonaldiagramokat stb.
Kulcs	Adja meg az x tengely értékeinek tartományát
Érték	Adja meg az y tengely értékeinek tartományát
Sorozatcsoport	Az összesítés csoportjainak meghatározására szolgál
Összesítés	A vizualizáció adatainak összesítési módszere

Megjegyzés:

Alapértelmezés szerint a display(df) függvény csak az adatok első 1000 sorát használja a diagramok megjelenítéséhez. Ellenőrizze az összes eredmény összesítését, és kattintson az Alkalmaz gombra. A diagramgenerálást a teljes adatkészletből fogja alkalmazni. A Spark-feladat akkor aktiválódik, amikor a diagrambeállítás megváltozik. Vegye figyelembe, hogy a számítás elvégzése és a diagram megjelenítése több percet is igénybe vehet.

Ha elkészült, megtekintheti és használhatja a végleges vizualizációt!

display(df) statisztikai adatok

display(df, summary = true) Az egyes oszlopok oszlopnevét, oszloptípusát, egyedi értékeit és hiányzó értékeit tartalmazó, adott Apache Spark DataFrame statisztikai összegzését is ellenőrizheti. Az adott oszlopban a minimális értéket, a maximális értéket, a középértéket és a szórást is megtekintheti. built-in-charts-summary

displayHTML() beállítás

Az Azure Synapse Analytics-jegyzetfüzetek a függvény használatával támogatják a displayHTML HTML-ábrákat.

Az alábbi kép egy példa vizualizációk D3.js használatával történő létrehozására.

d3-js-example

Futtassa a következő kódot a fenti vizualizáció létrehozásához.

displayHTML("""<!DOCTYPE html>
<meta charset="utf-8">

<!-- Load d3.js -->
<script src="https://d3js.org/d3.v4.js"></script>

<!-- Create a div where the graph will take place -->
<div id="my_dataviz"></div>
<script>

// set the dimensions and margins of the graph
var margin = {top: 10, right: 30, bottom: 30, left: 40},
  width = 400 - margin.left - margin.right,
  height = 400 - margin.top - margin.bottom;

// append the svg object to the body of the page
var svg = d3.select("#my_dataviz")
.append("svg")
  .attr("width", width + margin.left + margin.right)
  .attr("height", height + margin.top + margin.bottom)
.append("g")
  .attr("transform",
        "translate(" + margin.left + "," + margin.top + ")");

// Create Data
var data = [12,19,11,13,12,22,13,4,15,16,18,19,20,12,11,9]

// Compute summary statistics used for the box:
var data_sorted = data.sort(d3.ascending)
var q1 = d3.quantile(data_sorted, .25)
var median = d3.quantile(data_sorted, .5)
var q3 = d3.quantile(data_sorted, .75)
var interQuantileRange = q3 - q1
var min = q1 - 1.5 * interQuantileRange
var max = q1 + 1.5 * interQuantileRange

// Show the Y scale
var y = d3.scaleLinear()
  .domain([0,24])
  .range([height, 0]);
svg.call(d3.axisLeft(y))

// a few features for the box
var center = 200
var width = 100

// Show the main vertical line
svg
.append("line")
  .attr("x1", center)
  .attr("x2", center)
  .attr("y1", y(min) )
  .attr("y2", y(max) )
  .attr("stroke", "black")

// Show the box
svg
.append("rect")
  .attr("x", center - width/2)
  .attr("y", y(q3) )
  .attr("height", (y(q1)-y(q3)) )
  .attr("width", width )
  .attr("stroke", "black")
  .style("fill", "#69b3a2")

// show median, min and max horizontal lines
svg
.selectAll("toto")
.data([min, median, max])
.enter()
.append("line")
  .attr("x1", center-width/2)
  .attr("x2", center+width/2)
  .attr("y1", function(d){ return(y(d))} )
  .attr("y2", function(d){ return(y(d))} )
  .attr("stroke", "black")
</script>

"""
)

Python-kódtárak

Az adatvizualizációk terén a Python több gráftárat is kínál, amelyek számos különböző funkcióval rendelkeznek. Alapértelmezés szerint az Azure Synapse Analytics összes Apache Spark-készlete válogatott és népszerű nyílt forráskódú kódtárakat tartalmaz. Az Azure Synapse Analytics könyvtárkezelési képességeivel további kódtárakat és verziókat is hozzáadhat vagy kezelhet.

Matplotlib

Az egyes kódtárak beépített renderelési függvényeivel renderelheti a szabványos ábrázolási kódtárakat, például a Matplotlib-t.

Az alábbi kép egy példa sávdiagram matplotlib használatával történő létrehozására. Line graph example.

Futtassa az alábbi mintakódot a fenti kép rajzolásához.

# Bar chart

import matplotlib.pyplot as plt

x1 = [1, 3, 4, 5, 6, 7, 9]
y1 = [4, 7, 2, 4, 7, 8, 3]

x2 = [2, 4, 6, 8, 10]
y2 = [5, 6, 2, 6, 2]

plt.bar(x1, y1, label="Blue Bar", color='b')
plt.bar(x2, y2, label="Green Bar", color='g')
plt.plot()

plt.xlabel("bar number")
plt.ylabel("bar height")
plt.title("Bar Chart Example")
plt.legend()
plt.show()

Bokeh

Html- vagy interaktív kódtárakat ( például bokeh) displayHTML(df)a .

Az alábbi kép egy példa arra, hogy glyphs-eket ábrázol egy térképen bokeh használatával.

bokeh-example

Futtassa az alábbi mintakódot a fenti kép rajzolásához.

from bokeh.plotting import figure, output_file
from bokeh.tile_providers import get_provider, Vendors
from bokeh.embed import file_html
from bokeh.resources import CDN
from bokeh.models import ColumnDataSource

tile_provider = get_provider(Vendors.CARTODBPOSITRON)

# range bounds supplied in web mercator coordinates
p = figure(x_range=(-9000000,-8000000), y_range=(4000000,5000000),
           x_axis_type="mercator", y_axis_type="mercator")
p.add_tile(tile_provider)

# plot datapoints on the map
source = ColumnDataSource(
    data=dict(x=[ -8800000, -8500000 , -8800000],
              y=[4200000, 4500000, 4900000])
)

p.circle(x="x", y="y", size=15, fill_color="blue", fill_alpha=0.8, source=source)

# create an html document that embeds the Bokeh plot
html = file_html(p, CDN, "my plot1")

# display this html
displayHTML(html)

Plotly

A displayHTML() használatával HTML- vagy interaktív kódtárakat (például Plotly) jeleníthet meg.

Futtassa az alábbi mintakódot az alábbi kép rajzolásához.

plotly-example

from urllib.request import urlopen
import json
with urlopen('https://raw.githubusercontent.com/plotly/datasets/master/geojson-counties-fips.json') as response:
    counties = json.load(response)

import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/fips-unemp-16.csv",
                   dtype={"fips": str})

import plotly
import plotly.express as px

fig = px.choropleth(df, geojson=counties, locations='fips', color='unemp',
                           color_continuous_scale="Viridis",
                           range_color=(0, 12),
                           scope="usa",
                           labels={'unemp':'unemployment rate'}
                          )
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})

# create an html document that embeds the Plotly plot
h = plotly.offline.plot(fig, output_type='div')

# display this html
displayHTML(h)

Pandák

A pandas dataframe HTML-kimenetét alapértelmezett kimenetként tekintheti meg, a jegyzetfüzet automatikusan megjeleníti a stílusalapú HTML-tartalmat.

Panda graph example.

import pandas as pd 
import numpy as np 

df = pd.DataFrame([[38.0, 2.0, 18.0, 22.0, 21, np.nan],[19, 439, 6, 452, 226,232]], 

                  index=pd.Index(['Tumour (Positive)', 'Non-Tumour (Negative)'], name='Actual Label:'), 

                  columns=pd.MultiIndex.from_product([['Decision Tree', 'Regression', 'Random'],['Tumour', 'Non-Tumour']], names=['Model:', 'Predicted:'])) 

df

További kódtárak

Ezeken a kódtárakon túl az Azure Synapse Analytics-futtatókörnyezet a következő kódtárakat is tartalmazza, amelyeket gyakran használnak adatvizualizációkhoz:

Seaborn

A rendelkezésre álló kódtárakról és verziókról az Azure Synapse Analytics runtime dokumentációjában tájékozódhat.

R-kódtárak (előzetes verzió)

Az R-ökoszisztéma több gráfkódtárat is kínál, amelyek számos különböző funkcióval rendelkeznek. Alapértelmezés szerint az Azure Synapse Analytics összes Apache Spark-készlete válogatott és népszerű nyílt forráskódú kódtárakat tartalmaz. Az Azure Synapse Analytics könyvtárkezelési képességeivel további kódtárakat és verziókat is hozzáadhat vagy kezelhet.

ggplot2

A ggplot2 könyvtár népszerű az adatvizualizáció és a feltáró adatelemzés szempontjából.

Screenshot of a ggplot2 graph example.

library(ggplot2)
data(mpg, package="ggplot2") 
theme_set(theme_bw()) 

g <- ggplot(mpg, aes(cty, hwy))

# Scatterplot
g + geom_point() + 
  geom_smooth(method="lm", se=F) +
  labs(subtitle="mpg: city vs highway mileage", 
       y="hwy", 
       x="cty", 
       title="Scatterplot with overlapping points", 
       caption="Source: midwest")

rBokeh

Az rBokeh egy natív R-ábrázolási kódtár, amely interaktív ábrákat hoz létre, amelyeket a Bokeh vizualizációs könyvtára biztosít.

Az rBokeh telepítéséhez használja a következő parancsot:

install.packages("rbokeh")

A telepítés után az rBokeh használatával interaktív vizualizációkat hozhat létre.

Screenshot of a rBokeh graph example.

library(rbokeh)
p <- figure() %>%
  ly_points(Sepal.Length, Sepal.Width, data = iris,
    color = Species, glyph = Species,
    hover = list(Sepal.Length, Sepal.Width))

R ábrázolás

A Plotly R-gráftár interaktív , kiadványminőségű grafikonokat készít.

A Plotly telepítéséhez használja a következő parancsot:

install.packages("plotly")

A telepítés után a Plotly használatával interaktív vizualizációkat hozhat létre.

Screenshot of a Plotly graph example.

library(plotly) 

fig <- plot_ly() %>% 
  add_lines(x = c("a","b","c"), y = c(1,3,2))%>% 
  layout(title="sample figure", xaxis = list(title = 'x'), yaxis = list(title = 'y'), plot_bgcolor = "#c7daec") 

fig

Highcharter

A Highcharter egy R burkoló a Highcharts JavaScript-kódtárhoz és moduljaihoz.

A Highcharter telepítéséhez használja a következő parancsot:

install.packages("highcharter")

A telepítés után a Highcharter használatával interaktív vizualizációkat hozhat létre.

Screenshot of a Highcharter graph example.

library(magrittr)
library(highcharter)
hchart(mtcars, "scatter", hcaes(wt, mpg, z = drat, color = hp)) %>%
  hc_title(text = "Scatter chart with size and color")

Csatlakozás Power BI-ba az Apache Spark > SQL Igény szerinti használatával

Az Azure Synapse Analytics mélyen integrálható a Power BI-jal, így az adatszakértők elemzési megoldásokat hozhatnak létre.

Az Azure Synapse Analytics lehetővé teszi a különböző munkaterület számítási motorjai számára, hogy adatbázisokat és táblákat osszanak meg a Spark-készletek és a kiszolgáló nélküli SQL-készlet között. A megosztott metaadat-modell használatával igény szerinti SQL használatával kérdezheti le az Apache Spark-táblákat. Miután elkészült, csatlakoztathatja az igény szerinti SQL-végpontot a Power BI-hoz a szinkronizált Spark-táblák egyszerű lekérdezéséhez.

További lépések

További információ a Spark SQL DW Csatlakozás or: Synapse SQL-összekötő beállításáról
Az alapértelmezett kódtárak megtekintése: Azure Synapse Analytics-futtatókörnyezet

Megosztás a következőn keresztül: