Glosarium terminologi teknis Azure Databricks

Artikel
26/03/2025

Dalam artikel ini

A

daftar kontrol akses (ACL)

Daftar izin yang dilampirkan ke ruang kerja, kluster, pekerjaan, tabel, atau eksperimen. ACL menentukan pengguna atau proses sistem mana yang diberikan akses ke objek, dan operasi apa yang diizinkan pada aset. Setiap entri dalam ACL khas menentukan subjek dan operasi. Lihat Daftar kontrol akses.

mode akses

Fitur keamanan yang menentukan siapa yang dapat menggunakan sumber daya komputasi dan data yang dapat mereka akses saat menggunakan sumber daya komputasi. Setiap sumber daya komputasi di Azure Databricks memiliki mode akses. Lihat Mode akses.

Transaksi ACID

Transaksi database yang diproses dengan andal. ACID adalah singkatan dari atomitas, konsistensi, isolasi, durabilitas. Lihat Praktik terbaik untuk keandalan.

kecerdasan buatan (AI)

Kemampuan komputer untuk meniru perilaku manusia yang cerdas. Lihat AI dan pembelajaran mesin di Databricks.

Agen AI

Aplikasi dengan kemampuan penalaran kompleks yang memungkinkannya membuat rencananya sendiri dan menjalankan tugas sesuai dengan alat yang digunakannya. Lihat Apa itu sistem AI majemuk dan agen AI?.

Fungsi AI

Fungsi SQL bawaan yang memungkinkan Anda menerapkan AI pada data Anda langsung dari SQL di Azure Databricks. Lihat Menerapkan AI pada data menggunakan Azure Databricks AI Functions.

Taman bermain AI

Fitur Azure Databricks tempat pengguna dapat berinteraksi dengan, menguji, dan membandingkan model AI generatif yang disajikan di ruang kerja Azure Databricks Anda. Lihat Obrolan dengan LLM dan kembangkan prototipe aplikasi AI generatif menggunakan AI Playground.

deteksi anomali

Teknik dan alat yang digunakan untuk mengidentifikasi pola yang tidak biasa yang tidak sesuai dengan perilaku yang diharapkan dalam himpunan data. Azure Databricks memfasilitasi deteksi anomali melalui kemampuan pembelajaran mesin dan pemrosesan datanya.

Apache Spark

Sistem komputasi terdistribusi sumber terbuka yang digunakan untuk beban kerja big data. Lihat Apache Spark di Azure Databricks.

jaringan neural buatan (ANN)

Sistem komputasi yang meniru cara kerja neuron di otak manusia.

Aset

Entitas di ruang kerja Azure Databricks (misalnya, objek atau file).

log audit

Catatan aktivitas dan tindakan pengguna dalam lingkungan Azure Databricks, sangat penting untuk keamanan, kepatuhan, dan pemantauan operasional. Lihat Referensi log diagnostik.

Auto Loader

Fitur penyerapan data yang secara bertahap dan efisien memproses file data baru saat tiba di penyimpanan cloud tanpa penyiapan tambahan. Lihat Apa itu Pemuat Otomatis?.

AutoML

Fitur Azure Databricks yang menyederhanakan proses penerapan pembelajaran mesin ke himpunan data Anda dengan secara otomatis menemukan algoritma terbaik dan konfigurasi hyperparameter untuk Anda. Lihat Apa itu AutoML?.

riwayat data otomatis

Proses pelacakan dan visualisasi aliran data secara otomatis dari asalnya melalui berbagai transformasi ke bentuk akhirnya, penting untuk penelusuran kesalahan, kepatuhan, dan pemahaman dependensi data. Azure Databricks memfasilitasi ini melalui integrasi dengan alat silsilah data.

penyesuaian skala otomatis horizontal

Menambahkan atau menghapus pelaksana berdasarkan jumlah tugas yang menunggu untuk dijadwalkan. Ini terjadi secara dinamis selama satu pembaruan.

penyesuaian otomatis skala, vertikal

Meningkatkan atau mengurangi ukuran mesin (driver atau eksekutor) berdasarkan tekanan memori (atau kekurangannya). Ini hanya terjadi pada awal pembaruan baru.

Azure Databricks

Versi Databricks yang dioptimalkan untuk platform cloud Microsoft Azure.

B

pemrosesan berkelompok

Metode pemrosesan data yang memungkinkan Anda menentukan instruksi eksplisit untuk memproses sejumlah data statis dan tidak berubah tetap sebagai satu operasi. Azure Databricks menggunakan Spark SQL atau DataFrames. Lihat Streaming dan penggabungan bertahap.

deteksi dan mitigasi bias

Proses mengidentifikasi dan mengatasi bias dalam model data dan pembelajaran mesin untuk memastikan keadilan dan akurasi. Databricks menawarkan alat dan integrasi untuk membantu mendeteksi dan mengurangi bias. Lihat Pemantauan kewajaran dan bias untuk model klasifikasi.

kecerdasan bisnis (BI)

Strategi dan teknologi yang digunakan oleh perusahaan untuk analisis data dan manajemen informasi bisnis.

C

Catalog Explorer

Fitur Azure Databricks yang menyediakan UI untuk menjelajahi dan mengelola data, skema (database), tabel, model, fungsi, dan aset AI lainnya. Anda dapat menggunakannya untuk menemukan objek data dan pemilik, memahami hubungan data di seluruh tabel, dan mengelola izin dan berbagi. Lihat Apa itu Catalog Explorer?.

CICD atau CI/CD

Praktik gabungan integrasi berkelanjutan (CI) dan pengiriman berkelanjutan (CD). Lihat Apa itu CI/CD di Azure Databricks?.

data bersih

Data yang telah melalui proses pembersihan data, yang merupakan proses mendeteksi dan mengoreksi (atau menghapus) rekaman yang rusak atau tidak akurat dari kumpulan catatan, tabel, atau database dan mengacu pada mengidentifikasi bagian data yang tidak lengkap, salah, tidak akurat, atau tidak relevan dan kemudian mengganti, memodifikasi, atau menghapus data yang kotor atau kasar.

Kamar Bersih

Fitur Azure Databricks yang menggunakan Berbagi Delta dan komputasi tanpa server untuk menyediakan lingkungan yang aman dan melindungi privasi di mana beberapa pihak dapat berbagi data perusahaan sensitif dan berkolaborasi tanpa akses langsung ke data satu sama lain. Dengan Clean Rooms, pengguna dari akun Databricks lainnya dapat berkolaborasi untuk menghasilkan wawasan tentang proyek bersama, seperti kampanye iklan, keputusan investasi, atau penelitian dan pengembangan, tanpa berbagi akses ke data sensitif yang mendasar. Lihat Apa itu Azure Databricks Clean Rooms?.

penyedia platform awan

Perusahaan yang menyediakan platform komputasi cloud. Misalnya, Microsoft Azure, Amazon Web Services (AWS), dan Google Cloud Platform (GCP).

kluster

Sumber daya komputasi tanpa server yang digunakan dalam notebook, pekerjaan, dan DLT. Istilah komputasi telah menggantikan kluster di seluruh antarmuka pengguna Azure Databricks, tetapi masih digunakan dalam API Kluster dan dalam metadata.

sistem AI majemuk

Sistem yang menangani tugas AI dengan menggabungkan beberapa komponen yang berinteraksi. Sebaliknya, model AI adalah model statistik (misalnya, Transformer yang memprediksi token berikutnya dalam teks). Lihat Apa itu sistem AI majemuk dan agen AI?.

Komputasi

Mengacu pada sumber daya komputasi, yang merupakan elemen infrastruktur, baik perangkat keras atau perangkat lunak, yang memungkinkan pemecahan masalah dan pembuatan solusi melalui penerimaan, analisis, dan penyimpanan data. Komputasi.

pipa berkelanjutan

Alur yang memperbarui semua tabel terus menerus, saat data baru tiba dalam input tanpa berhenti. Lihat mode pipeline yang dipicu vs. berkelanjutan.

D

graf asiklik terarah (DAG)

Metode menggambarkan dependensi antara tugas dalam alur kerja atau rangkaian proses. Dalam model pemrosesan DAG, tugas diwakili sebagai simpul dalam grafik acyclic yang diarahkan, di mana tepi mewakili dependensi antar tugas.

katalog data

Alat manajemen metadata untuk mengelola sumber data, memberikan informasi tentang struktur, lokasi, dan penggunaan data. Azure Databricks terintegrasi dengan katalog data eksternal untuk manajemen metadata yang ditingkatkan.

tata kelola data

Praktik pengelolaan ketersediaan, integritas, keamanan, dan kegunaan data, yang melibatkan kebijakan, prosedur, dan teknologi untuk memastikan kualitas dan kepatuhan data.

pemasukan data

Proses mengimpor, mentransfer, memuat, dan memproses data dari berbagai sumber ke Azure Databricks untuk penyimpanan, analisis, dan pemrosesan.

data lake

Repositori penyimpanan besar yang menyimpan sejumlah besar data mentah dalam format aslinya sampai diperlukan.

Data Lakehouse

Sistem manajemen data yang menggabungkan manfaat data lake dan gudang data. Data lakehouse menyediakan kemampuan penyimpanan dan pemrosesan yang dapat diskalakan untuk organisasi modern yang ingin menghindari sistem terisolasi untuk memproses beban kerja yang berbeda, seperti pembelajaran mesin (ML) dan kecerdasan bisnis (BI). Data lakehouse dapat membantu membangun satu sumber kebenaran, menghilangkan biaya redundan, dan memastikan kesegaran data. Lihat Apa itu data lakehouse?.

sistem aliran data

Serangkaian tahapan di mana data dihasilkan, dikumpulkan, diproses, dan dipindahkan ke tujuan. Databricks memfasilitasi pembuatan dan pengelolaan alur data yang kompleks untuk pemrosesan data batch dan real-time.

privasi data

Praktik melindungi data pribadi dari akses, penggunaan, pengungkapan, atau pencurian yang tidak sah. Azure Databricks menekankan fitur privasi dan keamanan data yang kuat, termasuk enkripsi end-to-end, kontrol akses berbasis peran, dan kepatuhan terhadap peraturan perlindungan data utama, untuk melindungi informasi sensitif dan memastikan tata kelola data.

visualisasi data

Pendekatan manajemen data yang memungkinkan aplikasi untuk mengambil dan memanipulasi data tanpa memerlukan detail teknis tentang data, seperti bagaimana data diformat atau di mana data tersebut berada secara fisik. Azure Databricks dapat berfungsi sebagai bagian dari lapisan virtualisasi data dengan menyediakan akses dan analisis data yang mulus di seluruh sumber yang berbeda.

pergudangan data

Mengacu pada pengumpulan dan penyimpanan data dari beberapa sumber sehingga dapat dengan cepat diakses untuk wawasan dan pelaporan bisnis. Arsitektur lakehouse dan Databricks SQL membawa kapabilitas penyimpanan data di awan ke danau data Anda. Lihat Apa itu pergudangan data di Azure Databricks?.

Databricks

Platform analitik terbuka terpadu untuk membangun, menyebarkan, berbagi, dan memelihara data, analitik, dan solusi AI tingkat perusahaan dalam skala besar. Platform Data Intelligence Databricks terintegrasi dengan penyimpanan dan keamanan cloud di akun cloud Anda, serta mengelola dan menyebarkan infrastruktur cloud atas nama Anda. Lihat Apa itu Azure Databricks?.

Databricks AI/BI

Produk kecerdasan bisnis yang menyediakan pemahaman tentang semantik data Anda dan memungkinkan analisis data layanan mandiri. AI/BI dibangun di atas sistem AI majemuk yang menarik wawasan dari siklus hidup penuh data Anda di seluruh platform Databricks, termasuk alur ETL, silsilah data, dan kueri lainnya. Lihat Apa itu Databricks AI/BI?.

Paket Aset Databricks

Alat untuk memfasilitasi adopsi praktik terbaik rekayasa perangkat lunak, termasuk kontrol sumber, tinjauan kode, pengujian, dan integrasi dan pengiriman berkelanjutan (CI/CD), untuk data dan proyek AI Anda. Bundel memungkinkan untuk menjelaskan sumber daya Azure Databricks seperti pekerjaan, alur, dan notebook sebagai file sumber. Lihat Apa itu Bundel Aset Databricks?.

Asisten Databricks

Program pendamping berbasis AI dan agen pendukung yang meningkatkan efisiensi Anda saat membuat buku catatan, kueri, dasbor, dan file. Ini dapat membantu Anda menjawab pertanyaan dengan cepat dengan membuat, mengoptimalkan, menyelesaikan, menjelaskan, dan memperbaiki kode dan pertanyaan. Lihat Apa itu Asisten Databricks?.

Databricks CLI

Antarmuka baris perintah untuk Azure Databricks yang memungkinkan pengguna mengelola dan mengotomatiskan ruang kerja Databricks dan menyebarkan pekerjaan, buku catatan, dan pustaka. Lihat Apa itu Databricks CLI?.

Databricks Connect

Pustaka klien yang memungkinkan pengembang menyambungkan IDE, notebook, dan alat favorit mereka dengan Azure Databricks untuk menghitung dan mengeksekusi kode Spark dari jarak jauh. Lihat Apa itu Databricks Connect?.

Layanan Kontainer Databricks

Fitur Azure Databricks yang memungkinkan Anda menentukan gambar Docker saat membuat komputasi. Lihat Menyesuaikan kontainer dengan Databricks Container Service.

Databricks Marketplace

Forum terbuka untuk bertukar produk data. Penyedia harus memiliki akun Azure Databricks, tetapi penerima dapat menjadi siapa saja. Aset marketplace mencakup himpunan data, notebook Azure Databricks, Azure Databricks Solution Accelerators, dan model pembelajaran mesin (AI). Himpunan data biasanya tersedia sebagai katalog data tabular, meskipun data non-tabular, dalam bentuk volume Azure Databricks, juga didukung. Lihat Apa itu Databricks Marketplace?.

Databricks Runtime

Runtime yang dioptimalkan untuk analisis big data. Databricks juga menawarkan Databricks Runtime untuk Pembelajaran Mesin yang dioptimalkan untuk beban kerja pembelajaran mesin. Lihat Databricks Runtime dan Versi dan kompatibilitas catatan rilis Databricks Runtime.

Databricks SQL (DBSQL)

Kumpulan layanan yang membawa kemampuan dan performa pergudangan data ke data lake yang sudah ada. Azure Databricks SQL mendukung format terbuka dan ANSI SQL standar. Editor SQL dalam platform dan alat dasbor memungkinkan anggota tim untuk berkolaborasi dengan pengguna Azure Databricks lainnya langsung di ruang kerja. Lihat Apa itu pergudangan data di Azure Databricks?.

DatabricksIQ

Mesin inteligensi data yang mendukung Platform Databricks. Ini adalah sistem AI majemuk yang menggabungkan penggunaan model AI, pengambilan, peringkat, dan sistem personalisasi untuk memahami semantik data dan pola penggunaan organisasi Anda. Lihat Fitur yang didukung DatabricksIQ.

DBUs

Unit Databricks (DBU) adalah unit daya pemrosesan yang dinormalisasi pada Platform Databricks Lakehouse yang digunakan untuk tujuan pengukuran dan harga. Jumlah DBU yang dikonsumsi oleh beban kerja dipengaruhi oleh metrik pemrosesan, yang dapat mencakup sumber daya komputasi yang digunakan dan jumlah data yang diproses. Lihat Konsep Azure Databricks.

DataFrame

Struktur data yang menata data ke dalam tabel baris dan kolom dua dimensi, sama seperti spreadsheet. DataFrame adalah salah satu struktur data paling umum yang digunakan dalam analitik data modern karena merupakan cara yang fleksibel dan intuitif untuk menyimpan dan bekerja dengan data. Lihat Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames.

Dataset

Kumpulan data terstruktur yang diatur dan disimpan bersama-sama untuk analisis atau pemrosesan. Data dalam himpunan data biasanya terkait dalam beberapa cara dan diambil dari satu sumber atau ditujukan untuk satu proyek.

Delta Lake

Lapisan penyimpanan sumber terbuka yang membawa keandalan ke data lake. Delta Lake menyediakan transaksi ACID, penanganan metadata yang dapat diskalakan, dan menyatukan streaming dan pemrosesan data batch. Harap lihat Apa itu Delta Lake?.

DLT

Kerangka kerja deklaratif untuk membangun alur pemrosesan data yang andal, dapat dipertahankan, dan dapat diuji. Anda menentukan transformasi yang akan dilakukan pada data Anda dan DLT mengelola orkestrasi tugas, manajemen kluster, pemantauan, kualitas data, dan penanganan kesalahan. Lihat Apa itu DLT?.

himpunan data DLT

Tabel streaming, tampilan materialisasi, dan tampilan yang dipelihara sebagai hasil dari kueri deklaratif.

Delta Sharing

Memungkinkan Anda berbagi data dan aset AI di Azure Databricks dengan pengguna di luar organisasi Anda, baik pengguna tersebut menggunakan Azure Databricks atau tidak. Juga tersedia sebagai proyek sumber terbuka untuk berbagi data tabular, menggunakannya di Azure Databricks menambahkan kemampuan untuk berbagi data non-tabular, tidak terstruktur (volume), model AI, tampilan, data yang difilter, dan notebook. Lihat Apa itu Berbagi Delta?.

tabel Delta

Format tabel data default di Azure Databricks dan merupakan fitur dari kerangka kerja data sumber terbuka Delta Lake. Tabel Delta biasanya digunakan untuk data lake, di mana data diserap melalui streaming atau dalam batch besar. Lihat Apa itu tabel?.

E

ETL (Ekstrak, Transformasi, Muat)

Pendekatan modern untuk integrasi data yang mengekstrak data dari sumber, memuatnya ke dalam sistem target, lalu mengubahnya dalam sistem target. Lihat Menjalankan beban kerja ETL pertama Anda di Azure Databricks.

F

Penyimpanan Fitur

Repositori pusat untuk menyimpan, mengelola, dan melayani fitur untuk model pembelajaran mesin. Lihat Rekayasa fitur dan penyajian.

arus

Aliran adalah komponen dalam jalur DLT yang membaca data, mengubahnya, dan menulisnya ke destinasi.

model dasar

Model ML besar telah dilatih sebelumnya dengan niat bahwa model tersebut akan disempurnakan untuk pemahaman bahasa dan tugas pembuatan yang lebih spesifik. Lihat Model API Foundation Databricks.

G

AI generatif

Jenis kecerdasan buatan yang berfokus pada kemampuan komputer untuk menggunakan model untuk membuat konten seperti gambar, teks, kode, dan data sintetis. Aplikasi AI generatif dibangun di atas model AI generatif: model bahasa besar (LLM) dan model fondasi. Lihat AI dan pembelajaran mesin di Databricks.

J

pekerjaan

Unit utama untuk menjadwalkan dan mengatur beban kerja produksi di Azure Databricks. Pekerjaan Azure Databricks terdiri dari satu atau beberapa tugas. Lihat Orkestrasi menggunakan Tugas Databricks.

L

Lakeflow Connect

Menawarkan konektor bawaan untuk penyerapan dari aplikasi dan database perusahaan. Alur penyerapan yang dihasilkan diatur oleh Unity Catalog dan didukung oleh komputasi tanpa server dan DLT. Lihat Lakeflow Connect.

Lakehouse Federation

Platform penyatuan kueri untuk Azure Databricks. Istilah federasi kueri menjelaskan kumpulan fitur yang memungkinkan pengguna dan sistem menjalankan kueri terhadap beberapa sumber data tanpa perlu memigrasikan semua data ke sistem terpadu. Azure Databricks menggunakan Unity Catalog untuk mengelola federasi kueri. Lihat Apa itu Federasi Lakehouse?.

Lakehouse Monitoring

Memantau properti statistik dan kualitas data di semua tabel di akun Anda. Anda juga dapat menggunakannya untuk melacak performa model pembelajaran mesin dan titik akhir penyajian model dengan memantau tabel inferensi yang berisi input dan prediksi model. Lihat Pengenalan Databricks Lakehouse Monitoring.

model bahasa besar (LLM)

Model pemrosesan bahasa alami (NLP) yang dirancang untuk tugas-tugas seperti menjawab pertanyaan terbuka, obrolan, ringkasan konten, eksekusi instruksi hampir sewenang-wenang, terjemahan, dan pembuatan konten dan kode. LLM dilatih dari himpunan data besar menggunakan algoritma pembelajaran mesin tingkat lanjut untuk mempelajari pola dan struktur bahasa manusia. Lihat Model bahasa besar (LLM) di Databricks.

perpustakaan

Paket kode yang tersedia untuk buku catatan atau pekerjaan yang berjalan di kluster Anda. Runtime Databricks mencakup banyak perpustakaan, dan Anda juga dapat mengunggah perpustakaan Anda sendiri. Lihat Pustaka.

M

tampilan materialisasi

Tampilan yang telah dikomputasi dan disimpan sehingga dapat dikueri dengan latensi yang lebih rendah atau berulang kali tanpa komputasi redundan. Lihat Gunakan tampilan materialisasi di Databricks SQL.

medallion architecture

Pola desain data yang digunakan untuk secara logis mengorganisasikan data dalam lakehouse, dengan tujuan meningkatkan struktur dan kualitas data secara bertahap dan progresif saat data mengalir melalui setiap lapisan arsitektur (dari tabel lapisan Perunggu ⇒ Perak ⇒ Emas). Apa itu arsitektur 'medallion lakehouse'?.

metastore

Komponen yang menyimpan semua informasi struktur berbagai tabel dan partisi di gudang data, termasuk informasi jenis kolom dan kolom, serializer dan deserializer yang diperlukan untuk membaca dan menulis data, dan file yang sesuai tempat data disimpan. Lihat Metastores.

MLflow

Platform sumber terbuka untuk mengelola siklus hidup pembelajaran mesin end-to-end, termasuk eksperimen, reproduktifitas, dan penyebaran. MLflow di Azure Databricks adalah layanan terkelola penuh dengan fungsionalitas tambahan untuk pelanggan perusahaan, menyediakan penyebaran MLflow terkelola yang dapat diskalakan dan aman. Lihat MLflow untuk agen AI generatif dan siklus hidup model ML.

pelatihan model

Proses pelatihan pembelajaran mesin dan model pembelajaran mendalam di Azure Databricks menggunakan banyak pustaka sumber terbuka populer. Lihat Melatih model AI dan ML.

Mosaik AI

Fitur yang menyediakan alat terpadu untuk membangun, menyebarkan, mengevaluasi, dan mengatur solusi AI dan ML — mulai dari membangun model ML prediktif hingga aplikasi AI generatif terbaru. Lihat AI dan pembelajaran mesin di Databricks.

Pelayanan Model AI Mosaic

Antarmuka terpadu untuk mengimplementasikan, mengatur, dan mengkueri model AI untuk inferensi real-time dan batch. Lihat Menerapkan model menggunakan Mosaic AI Model Serving.

Pelatihan Model AI Mosaik

Fitur ini memungkinkan Anda menggunakan data untuk menyesuaikan model fondasi untuk mengoptimalkan performanya untuk aplikasi spesifik Anda. Dengan melakukan penyempurnaan parameter penuh atau pelatihan berkelanjutan dari model fondasi, Anda dapat melatih model Anda sendiri menggunakan sumber daya data, waktu, dan komputasi yang jauh lebih sedikit daripada melatih model dari awal. Lihat Penyetelan Model Dasar.

Pencarian Vektor AI Mosaik

Database vektor yang dibangun ke dalam Databricks Data Intelligence Platform dan terintegrasi dengan alat tata kelola dan produktivitasnya. Lihat Mosaic AI Vector Search.

N

buku catatan

Antarmuka web interaktif yang digunakan oleh ilmuwan dan insinyur data untuk menulis dan menjalankan kode dalam beberapa bahasa (misalnya, Python, Scala, SQL) dalam dokumen yang sama. Silakan lihat Pengenalan Notebook Databricks.

O

OAuth

OAuth adalah standar terbuka untuk delegasi akses, umumnya digunakan sebagai cara bagi pengguna internet untuk memberikan akses situs web atau aplikasi ke informasi mereka di situs web lain tetapi tanpa memberi mereka kata sandi. Lihat Mengotorisasi akses ke sumber daya Azure Databricks.

P

Partner Connect

Program Databricks yang menyediakan integrasi yang dikelola oleh vendor perangkat lunak independen untuk terhubung ke sebagian besar sistem data perusahaan. Lihat Apa itu Databricks Partner Connect?.

token akses pribadi (PAT)

String karakter yang digunakan untuk mengautentikasi pengguna saat mengakses sistem komputer, bukan kata sandi. Lihat Mengotorisasi akses ke sumber daya Azure Databricks.

Foton

Mesin kueri vektorisasi asli Databricks berperforma tinggi yang menjalankan beban kerja SQL dan panggilan API DataFrame Anda lebih cepat untuk mengurangi total biaya per beban kerja Anda. Photon kompatibel dengan API Apache Spark, sehingga berfungsi dengan kode Anda yang ada. Lihat Apa itu Photon?.

Pipa

DAG tabel, tampilan, materialized view, aliran, dan sink yang diperbarui secara lambat dalam urutan ketergantungan yang ditentukan oleh sistem.

R

retrieval-augmented generation (generasi berbasis pengambilan informasi, RAG)

Teknik yang memungkinkan model bahasa besar (LLM) menghasilkan respons yang diperkaya dengan menambah permintaan pengguna dengan data pendukung yang diambil dari sumber informasi luar. Dengan menggabungkan informasi yang diambil ini, RAG memungkinkan LLM menghasilkan respons yang lebih akurat dan berkualitas lebih tinggi dibandingkan dengan tidak menambah permintaan dengan konteks tambahan. Lihat Pengenalan RAG dalam pengembangan AI.

S

Schema (Katalog Unity)

Bagian dari katalog di Unity Catalog yang dapat berisi tabel, tampilan, volume, model, dan fungsi. Skema adalah tingkat kedua dalam namespace tiga tingkat Unity Catalog ("catalog.schema.table-etc"). Lihat Apa itu Katalog Unity?.

komputasi tanpa server

Komputasi yang dikelola oleh Azure Databricks, yang mengurangi overhead manajemen dan menyediakan komputasi instan untuk meningkatkan produktivitas pengguna. Lihat Hubungkan ke komputasi tanpa server.

prinsipal layanan

Identitas yang dibuat untuk digunakan dengan alat otomatis, tugas yang dijalankan, dan aplikasi. Anda dapat membatasi akses perwakilan layanan ke sumber daya menggunakan izin, dengan cara yang sama seperti pengguna Azure Databricks. Tidak seperti pengguna Azure Databricks, perwakilan layanan adalah identitas yang hanya untuk API; tidak dapat mengakses UI Azure Databricks atau Databricks CLI secara langsung. Lihat bagian Mengelola prinsipal layanan.

sink (saluran pembuangan)

Sink adalah tujuan untuk alur data yang menulis ke sistem eksternal (contohnya, Kafka, Kinesis, Delta).

Gudang SQL

Sumber daya komputasi yang memungkinkan Anda mengkueri dan menjelajahi data di Azure Databricks. Lihat Menyambungkan ke gudang SQL.

pemrosesan aliran

Metode pemrosesan data yang memungkinkan Anda menentukan kueri terhadap himpunan data yang tidak terbatas dan terus berkembang lalu memproses data dalam batch bertahap yang kecil. Pemrosesan aliran Azure Databricks menggunakan Streaming Terstruktur. Lihat Streaming dan penggabungan bertahap.

Streaming

Streaming mengacu pada konten media apa pun - langsung atau direkam - (yaitu, aliran data) yang dikirimkan ke komputer dan perangkat seluler melalui internet dan diputar kembali secara real time. Lihat Konsep Streaming Terstruktur.

analitika aliran

Proses analisis data yang terus dihasilkan oleh sumber yang berbeda. Azure Databricks mendukung analitik streaming melalui Streaming Terstruktur, memungkinkan pemrosesan dan analisis data langsung untuk wawasan real time.

Streaming Terstruktur

Mesin pemrosesan aliran yang dapat diskalakan dan toleran terhadap kesalahan yang dibangun pada mesin Spark SQL, memungkinkan komputasi kompleks sebagai kueri streaming. Lihat Konsep Streaming Terstruktur.

tabel streaming

Tabel terkelola yang memiliki aliran data ditulis ke dalamnya.

T

tabel

Tabel berada dalam skema dan berisi baris data. Semua tabel yang dibuat di Databricks menggunakan Delta Lake secara default. Tabel yang didukung oleh Delta Lake juga disebut tabel Delta. Lihat Apa itu tabel?.

pipeline yang diaktifkan

Alur yang menyerap semua data yang tersedia di awal pembaruan untuk setiap tabel, berjalan dalam urutan dependensi lalu mengakhiri. Lihat mode pipeline yang dipicu vs. berkelanjutan.

U

Unity Catalog

Fitur Azure Databricks yang menyediakan kontrol akses terpusat, audit, silsilah data, dan kemampuan penemuan data di seluruh ruang kerja Azure Databricks. Lihat Apa itu Katalog Unity?.

V

database vektor

Sebuah database yang dioptimalkan untuk menyimpan dan mengambil embedding. Penyematan adalah representasi matematika dari konten semantik data, biasanya data teks atau gambar. Lihat Mosaic AI Vector Search.

tampilan

Tabel virtual yang ditentukan oleh kueri SQL. Ini tidak menyimpan data itu sendiri tetapi menyediakan cara untuk menyajikan data dari satu atau beberapa tabel, dalam format atau abstraksi tertentu. Lihat Apa itu pandangan?.

volume (Katalog Unity)

Objek Katalog Unity yang memungkinkan tata kelola melalui himpunan data non-tabular. Volume mewakili volume penyimpanan logis di lokasi penyimpanan objek cloud. Volume menyediakan kemampuan untuk mengakses, menyimpan, mengelola, dan mengatur file. Lihat Apa itu Katalog Unity volume?.

W

Alur kerja

Kumpulan alat yang memungkinkan Anda menjadwalkan dan mengatur tugas pemrosesan data di Azure Databricks. Anda menggunakan Alur Kerja Azure Databricks untuk mengonfigurasi Pekerjaan Azure Databricks. Lihat Orkestrasi menggunakan Tugas Databricks.

Beban kerja

Jumlah kemampuan pemrosesan yang diperlukan untuk melakukan tugas atau grup tugas. Azure Databricks mengidentifikasi dua jenis beban kerja: rekayasa data (pekerjaan) dan analitik data (semua tujuan). Lihat Konsep Azure Databricks.

ruang kerja

Lingkungan organisasi yang memungkinkan pengguna Databricks mengembangkan, menelusuri, dan berbagi objek seperti notebook, eksperimen, kueri, dan dasbor. Lihat Menavigasi ruang kerja.

Bagikan melalui

Glosarium terminologi teknis Azure Databricks

A

B

C

D

E

F

G

J

L

M

N

O

P

R

S

T

U

V

W

Saran dan Komentar

Sumber Daya Tambahan: