Terminologi Azure Synapse Analytics

2025-02-04

Artikel ini memandu Anda melalui konsep dasar Azure Synapse Analytics.

Ruang kerja Synapse

Ruang kerja Synapse adalah batas kolaborasi yang aman untuk melakukan analitik perusahaan berbasis cloud di Azure. Ruang kerja disebarkan di wilayah tertentu dan memiliki akun Azure Data Lake Storage Gen2 terkait dan sistem file untuk menyimpan data sementara. Ruang kerja berada di bawah grup sumber daya.

Ruang kerja memungkinkan Anda melakukan analitik dengan SQL dan Apache spark. Sumber daya yang tersedia untuk analitik SQL dan Spark diatur ke dalam kumpulan SQL dan Spark.

Layanan Tertaut

Ruang kerja dapat berisi sejumlah layanan tertaut, pada dasarnya string koneksi yang menentukan informasi yang diperlukan ruang kerja untuk terhubung ke sumber daya eksternal.

Synapse SQL

Synapse SQL memungkinkan Anda melakukan analitik berbasis Transact-SQL (T-SQL) di ruang kerja Synapse. Synapse SQL memiliki dua model konsumsi: khusus dan tanpa server. Untuk model khusus, gunakan kumpulan SQL khusus. Ruang kerja dapat memiliki sejumlah kolam ini. Untuk menggunakan model tanpa server, gunakan kumpulan SQL tanpa server. Setiap ruang kerja memiliki salah satu kumpulan ini.

Di dalam Synapse Studio, Anda dapat bekerja dengan kumpulan SQL dengan menjalankan skrip SQL.

Catatan

Kumpulan SQL khusus di Azure Synapse berbeda dari kumpulan SQL khusus (sebelumnya SQL DW). Tidak semua fitur kumpulan SQL khusus di ruang kerja Azure Synapse berlaku untuk kumpulan SQL khusus (sebelumnya SQL DW), dan sebaliknya. Untuk mengaktifkan fitur ruang kerja untuk kumpulan SQL khusus yang ada (sebelumnya SQL DW), lihat Mengaktifkan fitur ruang kerja untuk kumpulan SQL khusus (sebelumnya SQL DW).

Apache Spark untuk Synapse

Untuk menggunakan analitik Spark, buat dan gunakan kumpulan Apache Spark tanpa server di ruang kerja Synapse Anda. Saat Anda mulai menggunakan kumpulan Spark, ruang kerja membuat sesi Spark untuk menangani sumber daya yang terkait dengan sesi tersebut.

Ada dua cara dalam Synapse untuk menggunakan Spark:

Spark Notebooks untuk ilmu data dan teknik menggunakan Scala, PySpark, C#, dan SparkSQL
Definisi kerja Spark untuk menjalankan pekerjaan Spark batch menggunakan file jar

SynapseML

SynapseML (sebelumnya dikenal sebagai MMLSpark) adalah pustaka sumber terbuka yang menyederhanakan pembuatan alur pembelajaran mesin (ML) yang dapat diskalakan secara besar-besaran. Ini adalah ekosistem alat yang digunakan untuk memperluas kerangka kerja Apache Spark ke beberapa arah baru. SynapseML menyatukan beberapa kerangka kerja pembelajaran mesin yang ada dan algoritma Microsoft baru menjadi satu API yang dapat diskalakan dan dapat digunakan di Python, R, Scala, .NET, dan Java. Untuk mempelajari lebih lanjut, lihat Apa itu SynapseML?

Pipelines

Alur adalah bagaimana Azure Synapse menyediakan integrasi data, memungkinkan Anda memindahkan data antara layanan dan mengatur aktivitas.

Alur adalah pengelompokan logis aktivitas yang melakukan tugas bersama-sama.
Aktivitas menentukan tindakan dalam alur untuk dilakukan pada data seperti menyalin data, atau menjalankan Notebook atau skrip SQL.
Aliran data adalah bentuk aktivitas tertentu yang memberikan pengalaman tanpa kode untuk melakukan transformasi data yang menggunakan Synapse Spark di bawah sampul.
Pemicu menjalankan alur. Ini dapat dijalankan secara manual atau otomatis (jadwal, jendela jatuh, atau berbasis peristiwa).
Himpunan data integrasi adalah tampilan data bernama yang hanya menunjuk atau mereferensikan data yang akan digunakan dalam aktivitas sebagai input dan output. Ini milik layanan tertaut.

Data Explorer (Pratinjau)

Azure Synapse Data Explorer memberi pelanggan pengalaman kueri interaktif untuk membuka wawasan dari data log dan telemetri.

Kumpulan Data Explorer adalah kluster khusus yang menyertakan dua atau beberapa simpul komputasi dengan penyimpanan SSD lokal (cache panas) untuk performa kueri yang dioptimalkan dan beberapa blob penyimpanan (cache dingin) untuk persistensi.
Database Data Explorer dihosting di kumpulan Data Explorer dan merupakan entitas logis yang terdiri dari kumpulan tabel dan objek database lainnya. Anda dapat memiliki lebih dari satu database per kumpulan.
Tabel adalah objek database yang berisi data yang diatur menggunakan model data relasional tradisional. Data disimpan dalam rekaman yang mematuhi skema tabel Data Explorer yang ditentukan dengan baik yang menentukan daftar kolom yang diurutkan, dengan setiap kolom memiliki nama dan jenis data skalar. Jenis data skalar dapat terstruktur (int, real, tanggalwaktu, atau rentang waktu), semi-terstruktur (dinamis), atau teks bebas (string). Jenis dinamis mirip dengan JSON karena dapat menampung nilai skalar tunggal, array, atau kamus nilai tersebut.
Tabel eksternal adalah tabel yang mereferensikan penyimpanan atau sumber data SQL di luar database Data Explorer. Mirip dengan tabel, tabel eksternal memiliki skema yang ditentukan dengan baik (daftar berurutan dari nama kolom dan pasangan jenis data). Tidak seperti tabel Data Explorer yang datanya diserap ke dalam kumpulan Data Explorer, tabel eksternal beroperasi pada data yang disimpan dan dikelola di luar kumpulan. Tabel eksternal tidak menyimpan data apa pun dan digunakan untuk membuat kueri atau mengekspor data ke penyimpanan data eksternal.

Bagikan melalui