Bagikan melalui


Visualisasi notebook di Microsoft Fabric

Microsoft Fabric adalah layanan analitik terintegrasi yang mempercepat waktu untuk wawasan di seluruh gudang data dan sistem analitik big data. Visualisasi data di notebook adalah komponen utama yang memungkinkan Anda mendapatkan wawasan tentang data Anda. Ini membantu membuat data besar dan kecil lebih mudah dipahami manusia. Proses ini juga memudahkan untuk mendeteksi pola, tren, dan titik luar dalam kelompok data.

Saat Anda menggunakan Apache Spark di Fabric, ada berbagai opsi bawaan untuk membantu Anda memvisualisasikan data Anda, termasuk opsi bagan notebook Fabric, dan akses ke pustaka sumber terbuka populer.

Saat menggunakan notebook Fabric, Anda bisa mengubah tampilan hasil tabular Anda menjadi bagan yang dikustomisasi menggunakan opsi bagan. Di sini, Anda dapat memvisualisasikan data Anda tanpa harus menulis kode apa pun.

Perintah visualisasi bawaan - fungsi display()

Fungsi visualisasi bawaan Fabric memungkinkan Anda mengubah Apache Spark DataFrames, Pandas DataFrames, dan hasil kueri SQL menjadi visualisasi data format yang kaya.

Anda dapat menggunakan fungsi tampilan pada dataframe yang dibuat di PySpark dan Scala pada fungsi Spark DataFrames atau Resilient Distributed Datasets (RDD) untuk menghasilkan tampilan tabel kerangka data dan tampilan bagan yang kaya.

Anda dapat menentukan jumlah baris kerangka data yang sedang dirender. Nilai defaultnya adalah 1000. Notebook menampilkan widget output mendukung tampilan dan profil 10000 baris dataframe paling banyak.

Cuplikan layar contoh menentukan rentang.

Anda dapat menggunakan fungsi filter pada toolbar global untuk menyaring data yang sesuai dengan aturan khusus Anda secara efisien. Kondisi diterapkan ke kolom yang ditentukan, dan hasil filter akan terlihat pada tampilan tabel dan bagan.

Cuplikan layar contoh penyesuaian kolom.

Hasil pernyataan SQL menggunakan widget output yang sama dengan display() sebagai default.

Tampilan tabel kerangka data yang kaya

Dukungan pilihan gratis pada tampilan tabel

Tampilan tabel dirender secara default saat menggunakan perintah display(). Pratinjau kerangka data yang kaya di notebook menawarkan fungsi pemilihan gratis yang dirancang untuk meningkatkan pengalaman analisis data melalui kemampuan pemilihan yang fleksibel dan intuitif. Fitur ini memungkinkan pengguna berinteraksi dengan dataframe secara lebih efisien dan mendapatkan wawasan yang lebih mendalam dengan mudah.

  • pemilihan kolom

    • Kolom tunggal: Klik header kolom untuk memilih seluruh kolom.
    • Beberapa kolom: Setelah memilih satu kolom, tekan dan tahan tombol 'Shift', lalu klik header kolom lain untuk memilih beberapa kolom.
  • Pilihan baris

    • Baris tunggal: Klik pada header baris untuk memilih seluruh baris.
    • Beberapa baris: Setelah memilih satu baris, tekan dan tahan tombol 'Shift', lalu klik header baris lain untuk memilih beberapa baris.
  • Pratinjau konten sel: Pratinjau konten masing-masing sel untuk melihat data dengan cepat dan terperinci tanpa perlu menulis kode tambahan.

  • Ringkasan kolom: Dapatkan ringkasan setiap kolom, termasuk distribusi data dan statistik utama, untuk memahami karakteristik data dengan cepat.

  • Pemilihan area bebas: Pilih segmen berkelanjutan tabel untuk mendapatkan gambaran umum tentang total sel yang dipilih dan nilai numerik di area yang dipilih.

  • Menyalin Konten yang Dipilih: Dalam semua kasus pilihan, Anda dapat dengan cepat menyalin konten yang dipilih menggunakan pintasan 'Ctrl + C'. Data yang dipilih disalin dalam format CSV, sehingga mudah diproses di aplikasi lain.

    Animasi GIF untuk dukungan seleksi bebas.

Dukungan pembuatan profil data melalui panel Inspeksi

GIF animasi pratinjau dataframe yang kaya.

  1. Anda dapat membuat profil dataframe Anda dengan mengklik tombol Inspeksi . Ini menyediakan distribusi data yang dirangkum dan memperlihatkan statistik setiap kolom.

  2. Setiap kartu di panel samping "Inspeksi" memetakan ke kolom dataframe, Anda bisa melihat detail selengkapnya dengan mengklik kartu atau memilih kolom dalam tabel.

  3. Anda bisa menampilkan detail sel dengan mengklik sel tabel. Fitur ini berguna ketika dataframe berisi jenis konten string panjang.

Tampilan bagan kerangka data kaya baru

Catatan

Saat ini, fitur tersebut sedang dalam pratinjau.

Tampilan bagan yang ditingkatkan tersedia pada perintah display(). Ini memberikan pengalaman yang lebih intuitif dan kuat untuk memvisualisasikan data Anda dengan menggunakan perintah display().

  1. Sekarang Anda dapat menambahkan hingga 5 bagan dalam satu widget output display() dengan mengklik Bagan baru, memungkinkan Anda membuat beberapa bagan berdasarkan kolom yang berbeda, dan membandingkan bagan dengan mudah.

  2. Anda bisa mendapatkan daftar rekomendasi bagan berdasarkan kerangka data target saat membuat bagan baru. Anda dapat memilih untuk mengedit bagan yang direkomendasikan atau membuat bagan Anda sendiri dari awal.

    ANIMASI GIF dari bagan yang disarankan.

  3. Sekarang Anda dapat menyesuaikan visualisasi Anda dengan menentukan pengaturan berikut. Opsi pengaturan mungkin berubah sesuai dengan tipe bagan yang dipilih:

    Kategori Pengaturan dasar Keterangan
    Jenis bagan Fungsi tampilan mendukung berbagai jenis bagan, termasuk bagan batang, plot sebar, grafik garis, tabel pivot, dan banyak lagi.
    Judul Judul Judul bagan.
    Judul Subtitel Subtitel bagan dengan deskripsi lainnya.
    Data Sumbu-X Tentukan kunci bagan.
    Data Sumbu Y Tentukan nilai bagan.
    Legenda Tampilkan Legenda Aktifkan/nonaktifkan legenda.
    Legenda Position Sesuaikan posisi legenda.
    Lainnya Grup rangkaian Gunakan konfigurasi ini untuk menentukan grup untuk agregasi.
    Lainnya Agregasi Gunakan metode ini untuk mengagregasi data dalam visualisasi Anda.
    Lainnya Tumpukan Konfigurasikan gaya tampilan hasil.

    Catatan

    Secara default, fungsi display(df) hanya mengambil 1.000 baris pertama dari data untuk merender bagan. Pilih Agregasi di semua hasil lalu pilih Terapkan untuk menerapkan pembuatan bagan dari seluruh kerangka data. Pekerjaan Spark dipicu saat pengaturan bagan berubah. Mungkin perlu waktu beberapa menit untuk menyelesaikan perhitungan dan merender bagan.

    Kategori Pengaturan tingkat lanjut Keterangan
    Warna Tema Tentukan kumpulan warna tema bagan.
    Sumbu-X Label Tentukan label untuk sumbu X.
    Sumbu-X Sisik Tentukan fungsi skala sumbu X.
    Sumbu-X Rentang Tentukan rentang nilai sumbu X.
    Sumbu Y Label Tentukan label untuk sumbu Y.
    Sumbu Y Sisik Tentukan fungsi skala sumbu Y.
    Sumbu Y Rentang Tentukan rentang nilai sumbu Y.
    Tampilan Perlihatkan label Perlihatkan/sembunyikan label hasil pada bagan.

    Perubahan konfigurasi segera berlaku, dan semua konfigurasi disimpan secara otomatis dalam konten buku catatan.

    Cuplikan layar contoh konfigurasi bagan.

  4. Anda dapat dengan mudah mengganti nama, menduplikasi, atau menghapus bagan di menu tab bagan.

    Cuplikan layar contoh bagan operasi.

  5. Toolbar interaktif tersedia dalam pengalaman bagan baru saat pengguna mengarahkan kursor ke bagan. Operasi dukungan seperti memperbesar, memperkecil, memilih untuk memperbesar, mengatur ulang, menggeser, dll.

    Cuplikan layar contoh toolbar bagan.

Tampilan bagan warisan

Catatan

Tampilan bagan warisan tidak akan digunakan lagi setelah tampilan bagan baru selesai dipratinjau.

GIF animasi tampilan bagan.

  1. Anda dapat beralih kembali ke tampilan bagan warisan dengan mengaktifkan 'Visualisasi baru'. Pengalaman baru diaktifkan secara default.

    Cuplikan layar contoh tombol visualisasi baru.

  2. Setelah Anda memiliki tampilan tabel yang dirender, beralihlah ke tampilan Bagan .

  3. Notebook Fabric secara otomatis merekomendasikan bagan berdasarkan kerangka data target, untuk membuat bagan bermakna dengan wawasan data.

  4. Sekarang Anda bisa mengustomisasi visualisasi Anda dengan menentukan nilai berikut:

    Konfigurasi Keterangan
    Jenis bagan Fungsi tampilan mendukung berbagai jenis bagan, termasuk bagan batang, plot sebar, grafik garis, dan banyak lagi.
    Tombol Tentukan rentang nilai untuk sumbu x.
    Nilai Tentukan rentang nilai untuk nilai sumbu y.
    Grup rangkaian Gunakan konfigurasi ini untuk menentukan grup untuk agregasi.
    Agregasi Gunakan metode ini untuk mengagregasi data dalam visualisasi Anda.

    Konfigurasi disimpan secara otomatis dalam konten output Notebook.

    Catatan

    Fungsi display(df) secara bawaan hanya mengambil 1.000 baris pertama data untuk merender bagan. Pilih Agregasi di semua hasil lalu pilih Terapkan untuk menerapkan pembuatan bagan dari seluruh kerangka data. Pekerjaan Spark dipicu saat pengaturan bagan berubah. Mungkin perlu waktu beberapa menit untuk menyelesaikan perhitungan dan merender bagan.

  5. Setelah pekerjaan selesai, Anda dapat melihat dan berinteraksi dengan visualisasi akhir Anda.

tampilan ringkasan display()

Gunakan display(df, summary = true) untuk memeriksa ringkasan statistik Apache Spark DataFrame tertentu. Ringkasan mencakup nama kolom, jenis kolom, nilai unik, dan nilai yang hilang untuk setiap kolom. Anda juga dapat memilih kolom tertentu untuk melihat nilai minimumnya, nilai maksimum, nilai rata-rata, dan simpang siur standar.

GIF animasi tampilan ringkasan.

opsi displayHTML()

Notebook Fabric mendukung grafis HTML menggunakan fungsi displayHTML .

Gambar berikut adalah contoh membuat visualisasi menggunakan D3.js.

Cuplikan layar contoh bagan yang dibuat menggunakan D3.js.

Untuk membuat visualisasi ini, jalankan kode berikut.

displayHTML("""<!DOCTYPE html>
<meta charset="utf-8">

<!-- Load d3.js -->
<script src="https://d3js.org/d3.v4.js"></script>

<!-- Create a div where the graph will take place -->
<div id="my_dataviz"></div>
<script>

// set the dimensions and margins of the graph
var margin = {top: 10, right: 30, bottom: 30, left: 40},
  width = 400 - margin.left - margin.right,
  height = 400 - margin.top - margin.bottom;

// append the svg object to the body of the page
var svg = d3.select("#my_dataviz")
.append("svg")
  .attr("width", width + margin.left + margin.right)
  .attr("height", height + margin.top + margin.bottom)
.append("g")
  .attr("transform",
        "translate(" + margin.left + "," + margin.top + ")");

// Create Data
var data = [12,19,11,13,12,22,13,4,15,16,18,19,20,12,11,9]

// Compute summary statistics used for the box:
var data_sorted = data.sort(d3.ascending)
var q1 = d3.quantile(data_sorted, .25)
var median = d3.quantile(data_sorted, .5)
var q3 = d3.quantile(data_sorted, .75)
var interQuantileRange = q3 - q1
var min = q1 - 1.5 * interQuantileRange
var max = q1 + 1.5 * interQuantileRange

// Show the Y scale
var y = d3.scaleLinear()
  .domain([0,24])
  .range([height, 0]);
svg.call(d3.axisLeft(y))

// a few features for the box
var center = 200
var width = 100

// Show the main vertical line
svg
.append("line")
  .attr("x1", center)
  .attr("x2", center)
  .attr("y1", y(min) )
  .attr("y2", y(max) )
  .attr("stroke", "black")

// Show the box
svg
.append("rect")
  .attr("x", center - width/2)
  .attr("y", y(q3) )
  .attr("height", (y(q1)-y(q3)) )
  .attr("width", width )
  .attr("stroke", "black")
  .style("fill", "#69b3a2")

// show median, min and max horizontal lines
svg
.selectAll("toto")
.data([min, median, max])
.enter()
.append("line")
  .attr("x1", center-width/2)
  .attr("x2", center+width/2)
  .attr("y1", function(d){ return(y(d))} )
  .attr("y2", function(d){ return(y(d))} )
  .attr("stroke", "black")
</script>

"""
)

Menyematkan laporan Power BI di buku catatan

Penting

Fitur ini sedang dalam Pratinjau. Informasi ini berkaitan dengan produk prarilis yang mungkin dimodifikasi secara substansial sebelum mencapai General Available. Microsoft tidak memberikan jaminan, tersurat maupun tersirat, sehubungan dengan informasi yang diberikan di sini.

Paket Powerbiclient Python sekarang didukung secara asli di notebook Fabric. Anda tidak perlu melakukan penyiapan tambahan (seperti proses autentikasi) pada fabric notebook Spark runtime 3.4. Cukup impor powerbiclient dan kemudian lanjutkan eksplorasi Anda. Untuk mempelajari selengkapnya tentang cara menggunakan paket powerbiclient, lihat dokumentasi powerbiclient.

Powerbiclient mendukung fitur utama berikut.

Merender laporan Power BI yang sudah ada

Anda dapat dengan mudah menyematkan dan berinteraksi dengan laporan Power BI di buku catatan Anda hanya dengan beberapa baris kode.

Gambar berikut adalah contoh penyajian laporan Power BI yang sudah ada.

Cuplikan layar visual spark yang menyajikan laporan Power BI.

Jalankan kode berikut untuk merender laporan Power BI yang sudah ada.

from powerbiclient import Report

report_id="Your report id"
report = Report(group_id=None, report_id=report_id)

report

Membuat visual laporan dari Spark DataFrame

Anda bisa menggunakan Spark DataFrame di buku catatan Anda untuk menghasilkan visualisasi yang berwawasan dengan cepat. Anda juga dapat memilih Simpan dalam laporan yang disematkan untuk membuat item laporan di ruang kerja target.

Gambar berikut adalah contoh QuickVisualize() dari Spark DataFrame.

Cuplikan layar laporan Power BI dari kerangka data.

Jalankan kode berikut untuk merender laporan dari Spark DataFrame.

# Create a spark dataframe from a Lakehouse parquet table
sdf = spark.sql("SELECT * FROM testlakehouse.table LIMIT 1000")

# Create a Power BI report object from spark data frame
from powerbiclient import QuickVisualize, get_dataset_config
PBI_visualize = QuickVisualize(get_dataset_config(sdf))

# Render new report
PBI_visualize

Membuat visual laporan dari pandas DataFrame

Anda juga dapat membuat laporan berdasarkan Pandas DataFrame di notebook.

Gambar berikut adalah contoh QuickVisualize() dari Pandas DataFrame.

Cuplikan layar laporan dari dataframe pandas.

Jalankan kode berikut untuk merender laporan dari Spark DataFrame.

import pandas as pd

# Create a pandas dataframe from a URL
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/fips-unemp-16.csv")

# Create a pandas dataframe from a Lakehouse csv file
from powerbiclient import QuickVisualize, get_dataset_config

# Create a Power BI report object from your data
PBI_visualize = QuickVisualize(get_dataset_config(df))

# Render new report
PBI_visualize

Dalam hal visualisasi data, Python menawarkan beberapa pustaka grafik yang dikemas dengan banyak fitur berbeda. Secara default, setiap kumpulan Apache Spark di Fabric berisi sekumpulan pustaka sumber terbuka yang dikumpulkan dan populer.

Matplotlib

Anda dapat merender pustaka plot standar, seperti Matplotlib, menggunakan fungsi rendering bawaan untuk setiap pustaka.

Gambar berikut adalah contoh pembuatan bagan batang menggunakan Matplotlib.

Cuplikan layar grafik garis yang dibuat dengan Matplotlib.

Cuplikan layar bagan batang yang dibuat dengan Matplotlib.

Jalankan kode sampel berikut untuk menggambar bagan batang ini.

# Bar chart

import matplotlib.pyplot as plt

x1 = [1, 3, 4, 5, 6, 7, 9]
y1 = [4, 7, 2, 4, 7, 8, 3]

x2 = [2, 4, 6, 8, 10]
y2 = [5, 6, 2, 6, 2]

plt.bar(x1, y1, label="Blue Bar", color='b')
plt.bar(x2, y2, label="Green Bar", color='g')
plt.plot()

plt.xlabel("bar number")
plt.ylabel("bar height")
plt.title("Bar Chart Example")
plt.legend()
plt.show()

Bokeh

Anda dapat merender HTML atau pustaka interaktif, seperti bokeh, menggunakan displayHTML(df).

Gambar berikut adalah contoh plot glif pada peta menggunakan bokeh.

Cuplikan layar contoh plot glyph di atas peta.

Untuk menggambar gambar ini, jalankan kode sampel berikut.

from bokeh.plotting import figure, output_file
from bokeh.tile_providers import get_provider, Vendors
from bokeh.embed import file_html
from bokeh.resources import CDN
from bokeh.models import ColumnDataSource

tile_provider = get_provider(Vendors.CARTODBPOSITRON)

# range bounds supplied in web mercator coordinates
p = figure(x_range=(-9000000,-8000000), y_range=(4000000,5000000),
           x_axis_type="mercator", y_axis_type="mercator")
p.add_tile(tile_provider)

# plot datapoints on the map
source = ColumnDataSource(
    data=dict(x=[ -8800000, -8500000 , -8800000],
              y=[4200000, 4500000, 4900000])
)

p.circle(x="x", y="y", size=15, fill_color="blue", fill_alpha=0.8, source=source)

# create an html document that embeds the Bokeh plot
html = file_html(p, CDN, "my plot1")

# display this html
displayHTML(html)

Plotly

Anda dapat merender HTML atau pustaka interaktif seperti Plotly, menggunakan displayHTML().

Untuk menggambar gambar ini, jalankan kode sampel berikut.

Cuplikan layar peta Amerika Serikat dibuat dengan plotly.

from urllib.request import urlopen
import json
with urlopen('https://raw.githubusercontent.com/plotly/datasets/master/geojson-counties-fips.json') as response:
    counties = json.load(response)

import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/fips-unemp-16.csv",
                   dtype={"fips": str})

import plotly
import plotly.express as px

fig = px.choropleth(df, geojson=counties, locations='fips', color='unemp',
                           color_continuous_scale="Viridis",
                           range_color=(0, 12),
                           scope="usa",
                           labels={'unemp':'unemployment rate'}
                          )
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})

# create an html document that embeds the Plotly plot
h = plotly.offline.plot(fig, output_type='div')

# display this html
displayHTML(h)

Pandas

Anda dapat melihat output HTML dari Pandas DataFrames sebagai output default. Notebook Fabric secara otomatis memperlihatkan konten HTML yang ditata.

Cuplikan layar tabel yang dibuat dengan panda.

import pandas as pd 
import numpy as np 

df = pd.DataFrame([[38.0, 2.0, 18.0, 22.0, 21, np.nan],[19, 439, 6, 452, 226,232]], 

                  index=pd.Index(['Tumour (Positive)', 'Non-Tumour (Negative)'], name='Actual Label:'), 

                  columns=pd.MultiIndex.from_product([['Decision Tree', 'Regression', 'Random'],['Tumour', 'Non-Tumour']], names=['Model:', 'Predicted:'])) 

df