Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
A
daftar kontrol akses (ACL)
Daftar izin yang dilampirkan ke ruang kerja, kluster, pekerjaan, tabel, atau eksperimen. ACL menentukan pengguna atau proses sistem mana yang diberikan akses ke objek, dan operasi apa yang diizinkan pada aset. Setiap entri dalam ACL khas menentukan subjek dan operasi. Lihat Daftar kontrol akses.
mode akses
Fitur keamanan yang menentukan siapa yang dapat menggunakan sumber daya komputasi dan data yang dapat mereka akses saat menggunakan sumber daya komputasi. Setiap sumber daya komputasi dalam Azure Databricks memiliki mode akses. Lihat Mode akses.
Transaksi ACID
Transaksi database yang diproses dengan andal. ACID adalah singkatan dari atomitas, konsistensi, isolasi, durabilitas. Lihat Praktik terbaik untuk keandalan.
Agen Bricks
Azure Databricks fitur yang memungkinkan Anda membangun solusi AI berkualitas tinggi.
kecerdasan buatan (AI)
Kemampuan komputer untuk meniru perilaku manusia yang cerdas. Lihat AI dan pembelajaran mesin di Databricks.
Agen AI
Aplikasi dengan kemampuan penalaran kompleks yang memungkinkannya membuat rencananya sendiri dan menjalankan tugas sesuai dengan alat yang digunakannya. Lihat Pola desain sistem agen.
Fungsi AI
Fungsi SQL bawaan yang memungkinkan Anda menerapkan AI pada data Anda langsung dari SQL di Azure Databricks. Lihat Memperkaya data menggunakan Fungsi AI.
AI Gateway
Solusi Azure Databricks untuk mengatur dan memantau titik akhir LLM, agen pengkodan, dan model yang melayani titik akhir. Gunakan AI Gateway untuk menganalisis penggunaan, mengonfigurasi izin, dan mengelola kapasitas di seluruh penyedia. Lihat Gateway AI.
Taman bermain AI
Fitur Azure Databricks tempat pengguna dapat berinteraksi dengan, menguji, dan membandingkan model AI generatif yang disajikan di ruang kerja Azure Databricks Anda. Lihat Obrolan dengan LLM dan kembangkan prototipe aplikasi AI generatif menggunakan AI Playground.
deteksi anomali
Teknik dan alat yang digunakan untuk mengidentifikasi pola yang tidak biasa yang tidak sesuai dengan perilaku yang diharapkan dalam himpunan data. Azure Databricks memfasilitasi deteksi anomali melalui kemampuan pembelajaran mesin dan pemrosesan datanya.
Apache Iceberg
Format tabel sumber terbuka untuk beban kerja analitik yang mendukung evolusi skema, perjalanan waktu, dan partisi tersembunyi. Azure Databricks mendukung tabel Iceberg yang dikelola oleh Unity Catalog dan oleh katalog asing. Lihat Apa itu Apache Iceberg di Azure Databricks?.
Apache Spark
Sistem komputasi terdistribusi sumber terbuka yang digunakan untuk beban kerja big data. Lihat Gambaran umum Apache Spark.
jaringan neural buatan (ANN)
Sistem komputasi yang meniru cara kerja neuron di otak manusia.
asset
Entitas di ruang kerja Azure Databricks (misalnya, objek atau file).
log audit
Catatan aktivitas dan tindakan pengguna dalam lingkungan Azure Databricks, sangat penting untuk keamanan, kepatuhan, dan pemantauan operasional. Lihat Referensi log diagnostik.
Pemuat Otomatis
Fitur penyerapan data yang secara bertahap dan efisien memproses file data baru saat tiba di penyimpanan cloud tanpa penyiapan tambahan. Lihat Apa itu Pemuat Otomatis?.
AutoML
Fitur Azure Databricks yang menyederhanakan proses penerapan pembelajaran mesin ke himpunan data Anda dengan secara otomatis menemukan algoritma terbaik dan konfigurasi hiperparameter untuk Anda. Lihat Apa itu AutoML?.
riwayat data otomatis
Proses pelacakan dan visualisasi aliran data secara otomatis dari asalnya melalui berbagai transformasi ke bentuk akhirnya, penting untuk penelusuran kesalahan, kepatuhan, dan pemahaman dependensi data. Azure Databricks memfasilitasi ini melalui integrasi dengan alat silsilah data.
penyesuaian otomatis, horizontal
Menambahkan atau menghapus pelaksana berdasarkan jumlah tugas yang menunggu untuk dijadwalkan. Ini terjadi secara dinamis selama satu pembaruan.
autoscaling, vertikal
Meningkatkan atau mengurangi ukuran mesin (driver atau eksekutor) berdasarkan tekanan memori (atau kekurangannya). Ini hanya terjadi pada awal pembaruan baru.
Azure Databricks
Versi Databricks yang dioptimalkan untuk platform cloud Microsoft Azure.
B
pemrosesan batch
Metode pemrosesan data yang memungkinkan Anda menentukan instruksi eksplisit untuk memproses sejumlah data statis dan tidak berubah tetap sebagai satu operasi. Azure Databricks menggunakan Spark SQL atau DataFrames. Lihat Konektor standar di Lakeflow Connect.
deteksi dan mitigasi bias
Proses mengidentifikasi dan mengatasi bias dalam model data dan pembelajaran mesin untuk memastikan keadilan dan akurasi. Databricks menawarkan alat dan integrasi untuk membantu mendeteksi dan mengurangi bias. Lihat Pemantauan kewajaran dan bias untuk model klasifikasi.
kecerdasan bisnis (BI)
Strategi dan teknologi yang digunakan oleh perusahaan untuk analisis data dan manajemen informasi bisnis.
C
katalog (Katalog Unity)
Tingkat pertama dari namespace tiga tingkat Unity Catalog (catalog.schema.table-etc). Katalog adalah kontainer untuk skema, yang pada gilirannya berisi tabel, tampilan, volume, model, dan fungsi. Lihat Apa itu katalog di Azure Databricks?.
Penjelajah Katalog
Fitur Azure Databricks yang menyediakan UI untuk menjelajahi dan mengelola data, skema (database), tabel, model, fungsi, dan aset AI lainnya. Anda dapat menggunakannya untuk menemukan objek data dan pemilik, memahami hubungan data di seluruh tabel, dan mengelola izin dan berbagi. Lihat Apa itu Catalog Explorer?.
instans anak
Instans anak adalah klon "copy-on-write" dari instans basis data asli. Ini dapat dibuat dari titik waktu saat ini atau dari titik waktu historis dalam jendela retensi. Lihat Pemulihan data dan perjalanan waktu.
CICD atau CI/CD
Praktik gabungan integrasi berkelanjutan (CI) dan pengiriman berkelanjutan (CD). Lihat CI/CD di Azure Databricks.
bersihkan data
Data yang telah melalui proses pembersihan data, yang merupakan proses mendeteksi dan mengoreksi (atau menghapus) rekaman yang rusak atau tidak akurat dari kumpulan catatan, tabel, atau database dan mengacu pada mengidentifikasi bagian data yang tidak lengkap, salah, tidak akurat, atau tidak relevan dan kemudian mengganti, memodifikasi, atau menghapus data yang kotor atau kasar.
Kamar Bersih
Fitur Azure Databricks yang menggunakan Berbagi Delta dan komputasi tanpa server untuk menyediakan lingkungan yang aman dan melindungi privasi di mana beberapa pihak dapat berbagi data perusahaan sensitif dan berkolaborasi tanpa akses langsung ke data satu sama lain. Dengan Clean Rooms, pengguna dari akun Databricks lainnya dapat berkolaborasi untuk menghasilkan wawasan tentang proyek bersama, seperti kampanye iklan, keputusan investasi, atau penelitian dan pengembangan, tanpa berbagi akses ke data sensitif yang mendasar. Lihat Apa itu Azure Databricks Clean Rooms?.
penyedia platform awan
Perusahaan yang menyediakan platform komputasi cloud. Misalnya, Microsoft Azure, Amazon Web Services (AWS), dan Google Cloud Platform (GCP).
cluster
Sumber daya komputasi tanpa server yang digunakan dalam notebook, pekerjaan, dan Alur Deklaratif Lakeflow Spark. Istilah compute telah menggantikan cluster di seluruh UI Azure Databricks, tetapi masih digunakan dalam Clusters API dan dalam metadata.
compute
Mengacu pada sumber daya komputasi, yang merupakan elemen infrastruktur, baik perangkat keras atau perangkat lunak, yang memungkinkan pemecahan masalah dan pembuatan solusi melalui penerimaan, analisis, dan penyimpanan data. Compute.
alur berkelanjutan
Alur yang memperbarui semua tabel terus menerus, saat data baru tiba dalam input tanpa berhenti. Lihat mode pipeline yang dipicu vs. berkelanjutan.
D
graf asiklik terarah (DAG)
Metode menggambarkan dependensi antara tugas dalam alur kerja atau rangkaian proses. Dalam model pemrosesan DAG, tugas diwakili sebagai simpul dalam grafik acyclic yang diarahkan, di mana tepi mewakili dependensi antar tugas.
katalog data
Alat manajemen metadata untuk mengelola sumber data, memberikan informasi tentang struktur, lokasi, dan penggunaan data. Azure Databricks terintegrasi dengan katalog data eksternal untuk manajemen metadata yang ditingkatkan.
tata kelola data
Praktik pengelolaan ketersediaan, integritas, keamanan, dan kegunaan data, yang melibatkan kebijakan, prosedur, dan teknologi untuk memastikan kualitas dan kepatuhan data.
penyerapan data
Proses mengimpor, mentransfer, memuat, dan memproses data dari berbagai sumber ke dalam Azure Databricks untuk penyimpanan, analisis, dan pemrosesan.
data lake
Repositori penyimpanan besar yang menyimpan sejumlah besar data mentah dalam format aslinya sampai diperlukan.
Data Lakehouse
Sistem manajemen data yang menggabungkan manfaat data lake dan gudang data. Data lakehouse menyediakan kemampuan penyimpanan dan pemrosesan yang dapat diskalakan untuk organisasi modern yang ingin menghindari sistem terisolasi untuk memproses beban kerja yang berbeda, seperti pembelajaran mesin (ML) dan kecerdasan bisnis (BI). Data lakehouse dapat membantu membangun satu sumber kebenaran, menghilangkan biaya redundan, dan memastikan kesegaran data. Silakan lihat Apa itu data lakehouse?.
Pembuatan Profil Data
Memantau properti statistik dan kualitas data di semua tabel di akun Anda. Anda juga dapat menggunakannya untuk melacak performa model pembelajaran mesin dan titik akhir penyajian model dengan memantau tabel inferensi yang berisi input dan prediksi model. Lihat Pembuatan profil data.
alur data
Serangkaian tahapan di mana data dihasilkan, dikumpulkan, diproses, dan dipindahkan ke tujuan. Databricks memfasilitasi pembuatan dan pengelolaan alur data yang kompleks untuk pemrosesan data batch dan real-time.
privasi data
Praktik melindungi data pribadi dari akses, penggunaan, pengungkapan, atau pencurian yang tidak sah. Azure Databricks menekankan fitur privasi dan keamanan data yang kuat, termasuk enkripsi end-to-end, kontrol akses berbasis peran, dan kepatuhan terhadap peraturan perlindungan data utama, untuk melindungi informasi sensitif dan memastikan tata kelola data.
visualisasi data
Pendekatan manajemen data yang memungkinkan aplikasi untuk mengambil dan memanipulasi data tanpa memerlukan detail teknis tentang data, seperti bagaimana data diformat atau di mana data tersebut berada secara fisik. Azure Databricks dapat berfungsi sebagai bagian dari lapisan virtualisasi data dengan menyediakan akses dan analisis data yang mulus di seluruh sumber yang berbeda.
pergudangan data
Mengacu pada pengumpulan dan penyimpanan data dari beberapa sumber sehingga dapat dengan cepat diakses untuk wawasan dan pelaporan bisnis. Arsitektur lakehouse dan Databricks SQL membawa kapabilitas penyimpanan data di awan ke danau data Anda. Lihat Arsitektur pergudangan data.
database katalog
Entitas katalog Unity Catalog yang mewakili database Postgres pada satu instans. Ini secara konseptual mirip dengan katalog asing di Unity Catalog. Lihat Mendaftarkan database Anda di Katalog Unity.
instans database
Instans database mengelola penyimpanan dan sumber daya komputasi dan menyediakan titik akhir yang disambungkan pengguna. Lihat Apa itu instans database?.
Databricks
Platform analitik terbuka terpadu untuk membangun, menyebarkan, berbagi, dan memelihara data, analitik, dan solusi AI tingkat perusahaan dalam skala besar. Platform Data Intelligence Databricks terintegrasi dengan penyimpanan dan keamanan cloud di akun cloud Anda, serta mengelola dan menyebarkan infrastruktur cloud atas nama Anda. Lihat Apa itu Azure Databricks?
Databricks AI/BI
Produk kecerdasan bisnis untuk memberikan pemahaman tentang semantik data Anda, memungkinkan layanan analisis data mandiri. AI/BI dibangun di atas sistem AI majemuk yang menarik wawasan dari siklus hidup penuh data Anda di seluruh platform Databricks, termasuk alur ETL, silsilah data, dan kueri lainnya. Lihat Databricks AI/BI.
Mesin inteligensi data yang mendukung Platform Databricks. Ini adalah sistem AI majemuk yang menggabungkan penggunaan model AI, pengambilan, peringkat, dan sistem personalisasi untuk memahami semantik data dan pola penggunaan organisasi Anda. Lihat Fitur bantuan Databricks AI.
Aplikasi Databricks
Fitur Azure Databricks yang memungkinkan pengembang membangun dan menyebarkan data aman dan aplikasi AI langsung di platform Azure Databricks menggunakan kerangka kerja Python atau Node.js. Aplikasi berjalan pada komputasi tanpa server dan diintegrasikan dengan Unity Catalog, Databricks SQL, dan OAuth. Lihat Aplikasi Databricks.
Bundel Otomatisasi Deklaratif
Alat untuk memfasilitasi adopsi praktik terbaik rekayasa perangkat lunak, termasuk kontrol sumber, tinjauan kode, pengujian, dan integrasi dan pengiriman berkelanjutan (CI/CD), untuk data dan proyek AI Anda. Bundle memungkinkan penggambaran sumber daya Azure Databricks, seperti pekerjaan, alur, dan buku catatan, sebagai file sumber. Lihat Apa itu Bundel Otomatisasi Deklaratif?.
Kode Genie
Program pendamping berbasis AI dan agen pendukung yang meningkatkan efisiensi Anda saat membuat buku catatan, kueri, dasbor, dan file. Ini dapat membantu Anda menjawab pertanyaan dengan cepat dengan membuat, mengoptimalkan, menyelesaikan, menjelaskan, dan memperbaiki kode dan pertanyaan. Lihat Kode Genie.
Databricks CLI
Antarmuka baris perintah untuk Azure Databricks yang memungkinkan pengguna mengelola dan mengotomatiskan ruang kerja Databricks dan menyebarkan pekerjaan, buku catatan, dan pustaka. Lihat Databricks CLI.
Databricks Connect
Pustaka klien yang memungkinkan pengembang menyambungkan IDE, notebook, dan alat favorit mereka dengan Azure Databricks untuk melakukan komputasi dan menjalankan kode Spark secara jarak jauh. Lihat Databricks Connect.
Layanan Kontainer Databricks
Fitur Azure Databricks yang memungkinkan Anda menentukan gambar Docker saat membuat komputasi. Lihat Menyesuaikan kontainer dengan Databricks Container Service.
Databricks Marketplace
Forum terbuka untuk bertukar produk data. Penyedia harus memiliki akun Azure Databricks, tetapi penerima dapat menjadi siapa saja. Aset marketplace mencakup himpunan data, buku catatan Azure Databricks, Azure Databricks Akselerator Solusi, dan model pembelajaran mesin (AI). Himpunan data biasanya tersedia sebagai katalog data tabular, meskipun data non-tabular, dalam bentuk volume Azure Databricks, juga didukung. Lihat Apa itu Databricks Marketplace?.
Databricks Runtime
Runtime yang dioptimalkan untuk analisis big data. Databricks juga menawarkan Databricks Runtime untuk Pembelajaran Mesin yang dioptimalkan untuk beban kerja machine learning. Lihat Catatan rilis versi dan kompatibilitas Databricks Runtime.
Databricks SQL (DBSQL)
Kumpulan layanan yang membawa kemampuan dan performa pergudangan data ke data lake yang sudah ada. Databricks SQL mendukung format terbuka dan ANSI SQL standar. Editor SQL dalam platform dan alat dasbor memungkinkan anggota tim untuk berkolaborasi dengan pengguna Azure Databricks lain langsung di ruang kerja. Lihat pergudangan Data di Azure Databricks.
DBUs
Unit Databricks (DBU) adalah unit daya pemrosesan yang dinormalisasi pada Platform Databricks Lakehouse yang digunakan untuk tujuan pengukuran dan harga. Jumlah DBU yang dikonsumsi oleh beban kerja dipengaruhi oleh metrik pemrosesan, yang dapat mencakup sumber daya komputasi yang digunakan dan jumlah data yang diproses. Lihat komponen Azure Databricks.
Sistem File Databricks (DBFS)
Sistem file terdistribusi yang dipasang ke ruang kerja Azure Databricks dan tersedia pada komputasi Azure Databricks. Azure Databricks merekomendasikan penggunaan volume Unity Catalog alih-alih DBFS untuk mengatur akses ke data non-tabular. Lihat Apa itu DBFS?.
DataFrame
Struktur data yang menata data ke dalam tabel baris dan kolom dua dimensi, sama seperti spreadsheet. DataFrame adalah salah satu struktur data paling umum yang digunakan dalam analitik data modern karena merupakan cara yang fleksibel dan intuitif untuk menyimpan dan bekerja dengan data. Lihat Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames.
dataset
Kumpulan data terstruktur yang diatur dan disimpan bersama-sama untuk analisis atau pemrosesan. Data dalam himpunan data biasanya terkait dalam beberapa cara dan diambil dari satu sumber atau ditujukan untuk satu proyek.
Danau Delta
Lapisan penyimpanan sumber terbuka yang membawa keandalan ke data lake. Delta Lake menyediakan transaksi ACID, penanganan metadata yang dapat diskalakan, dan menyatukan streaming dan pemrosesan data batch. Lihat Apa itu Delta Lake di Azure Databricks?.
Pipelines
Kerangka kerja deklaratif untuk membangun alur pemrosesan data yang andal, dapat dipertahankan, dan dapat diuji. Anda menentukan transformasi yang akan dilakukan pada data Anda dan Lakeflow Spark Declarative Pipelines mengelola orkestrasi tugas, manajemen kluster, pemantauan, kualitas data, dan penanganan kesalahan. Lihat Alur Deklaratif Lakeflow Spark.
Himpunan data alur
Tabel streaming, tampilan materialisasi, dan tampilan yang dipelihara sebagai hasil dari kueri deklaratif.
Berbagi Delta
Memungkinkan Anda berbagi data dan aset AI di Azure Databricks dengan pengguna di luar organisasi Anda, baik pengguna tersebut menggunakan Azure Databricks atau tidak. Juga tersedia sebagai proyek sumber terbuka untuk berbagi data tabular, menggunakannya di Azure Databricks menambahkan kemampuan untuk berbagi data non-tabular, tidak terstruktur (volume), model AI, tampilan, data yang difilter, dan notebook. Lihat Apa itu Berbagi Delta?.
Tabel Delta
Format tabel data default dalam Azure Databricks dan merupakan fitur kerangka kerja data Delta Lake sumber terbuka. Tabel Delta biasanya digunakan untuk data lake, di mana data diserap melalui streaming atau dalam batch besar. Lihat tabel Azure Databricks.
E
pembenaman (kata benda)
Representasi matematika dari konten semantik data, seperti teks atau gambar, yang dinyatakan sebagai vektor angka. Embedding digunakan dalam Azure Databricks untuk pencarian vektor, generasi yang ditingkatkan dengan pengambilan informasi, dan aplikasi AI lainnya. Berbeda dari istilah "penyematan" seperti untuk menyematkan dashboard di dalam UI. Lihat Mosaic AI Vector Search.
ETL (Ekstrak, Transformasi, Muat)
Pendekatan modern untuk integrasi data yang mengekstrak data dari sumber, memuatnya ke dalam sistem target, lalu mengubahnya dalam sistem target. Lihat Tutorial: Membangun alur ETL dengan Alur Deklaratif Lakeflow Spark.
tabel eksternal
Tabel yang terdaftar di Unity Catalog tempat data berada di lokasi penyimpanan cloud eksternal. Katalog Unity mengelola metadata dan kontrol akses, tetapi siklus hidup data dikelola di luar Azure Databricks. Lihat Bekerja dengan tabel-tabel eksternal.
F
Penyimpanan Fitur
Repositori pusat untuk menyimpan, mengelola, dan melayani fitur untuk model pembelajaran mesin. Lihat Feature Store Databricks.
Fine-tuning
Proses mengambil model pembelajaran mesin yang telah dilatih sebelumnya dan melatihnya lebih lanjut pada himpunan data khusus domain yang lebih kecil untuk mengoptimalkan performanya untuk aplikasi tertentu. Lihat Melatih model AI dan ML.
flow
Alur adalah proses dalam Alur Deklaratif Lakeflow Spark yang membaca data, mengubahnya, dan menulisnya ke tujuan.
tabel eksternal
Tabel baca-saja di Unity Catalog yang datanya dikelola oleh katalog di luar Unity Catalog, seperti AWS Glue atau Snowflake. Azure Databricks menggunakan Lakehouse Federation untuk mengambil metadata dan membaca tabel dari penyimpanan objek. Lihat Bekerja dengan tabel asing.
model dasar
Model ML besar telah dilatih sebelumnya dengan niat bahwa model tersebut akan disempurnakan untuk pemahaman bahasa dan tugas pembuatan yang lebih spesifik. Lihat Model API Foundation Databricks.
G
Kode genie
Mitra AI otonom yang dirancang khusus untuk pekerjaan data di Azure Databricks. Kode Genie terintegrasi secara mendalam dengan Unity Catalog, memberikan kesadaran kontekstual tentang tabel, kolom, dan silsilah data Anda untuk mempercepat tugas data multi-langkah yang kompleks. Lihat Kode Genie.
Ruang genie
Fitur AI/BI Azure Databricks yang memungkinkan tim bisnis berinteraksi dengan data mereka menggunakan bahasa alami. Pakar domain mengonfigurasi ruang Genie dengan himpunan data, kueri sampel, dan panduan sehingga Genie dapat menerjemahkan pertanyaan bisnis ke dalam kueri SQL. Lihat Apa itu ruang Genie.
AI generatif
Jenis kecerdasan buatan yang berfokus pada kemampuan komputer untuk menggunakan model untuk membuat konten seperti gambar, teks, kode, dan data sintetis. Aplikasi AI generatif dibangun di atas model AI generatif: model bahasa besar (LLM) dan model fondasi. Lihat AI dan pembelajaran mesin di Databricks.
Folder Git
Klien Visual Git yang terintegrasi ke dalam ruang kerja Azure Databricks yang menyediakan kontrol versi, kolaborasi, dan kemampuan CI/CD untuk buku catatan dan file. Sebelumnya dikenal sebagai Repositori. Lihat folder Git Azure Databricks.
I
Kesimpulan
Proses penggunaan model pembelajaran mesin terlatih untuk menghasilkan prediksi atau output dari data input baru. Azure Databricks mendukung inferensi real time dan batch melalui Mosaic AI Model Serving. Lihat Menerapkan model menggunakan Mosaic AI Model Serving.
skrip inisiasi
Skrip shell yang berjalan selama pengaktifan sumber daya komputasi Azure Databricks. Skrip init dapat menginstal paket, memodifikasi konfigurasi, atau mengatur variabel lingkungan. Lihat Apa itu skrip init?.
J
job
Unit utama untuk menjadwalkan dan mengatur beban kerja produksi pada Azure Databricks. Pekerjaan terdiri dari satu atau beberapa tugas. Lihat Pekerjaan Lakeflow.
L
Lakeflow Connect
Menawarkan konektor bawaan untuk penyerapan dari aplikasi dan database perusahaan. Alur penyerapan yang dihasilkan diatur oleh Unity Catalog dan didukung oleh komputasi tanpa server dan Alur Deklaratif Lakeflow Spark. Lihat Penghubung Terkelola di Lakeflow Connect.
Federasi Lakehouse
Platform federasi kueri untuk Azure Databricks. Istilah federasi kueri menjelaskan kumpulan fitur yang memungkinkan pengguna dan sistem menjalankan kueri terhadap beberapa sumber data tanpa perlu memigrasikan semua data ke sistem terpadu. Azure Databricks menggunakan Unity Catalog untuk mengelola federasi kueri. Lihat Apa itu Federasi Lakehouse?.
Lakebase
Azure Databricks Lakebase adalah database OLTP yang terintegrasi dengan Lakehouse Anda. Database pemrosesan transaksi online (OLTP) adalah jenis sistem database khusus yang dirancang untuk menangani data transaksi real time dalam volume tinggi secara efisien. Lakebase memungkinkan Anda membuat database OLTP di Azure Databricks, dan membawa beban kerja OLTP ke Lakehouse Anda.
Lihat Lakebase.
Titik akhir Lakebase
Titik akhir Lakebase adalah titik akses database utama untuk database Lakebase Postgres Anda. Setiap titik akhir diidentifikasi oleh ID titik akhir unik dan beroperasi dalam satu wilayah cloud. Titik akhir dapat dikonfigurasi sebagai komputasi tunggal atau dengan ketersediaan tinggi, di mana instans komputasi utama dipasangkan dengan satu atau lebih instans komputasi sekunder untuk failover otomatis. Anda menyambungkan ke database Anda melalui string koneksi dari endpoint.
Lihat Ketersediaan tinggi.
model bahasa besar (LLM)
Model pemrosesan bahasa alami (NLP) yang dirancang untuk tugas-tugas seperti menjawab pertanyaan terbuka, obrolan, ringkasan konten, eksekusi instruksi hampir sewenang-wenang, terjemahan, dan pembuatan konten dan kode. LLM dilatih dari himpunan data besar menggunakan algoritma pembelajaran mesin tingkat lanjut untuk mempelajari pola dan struktur bahasa manusia. Lihat Model bahasa besar (LLM) di Databricks.
library
Paket kode yang tersedia untuk buku catatan atau pekerjaan yang berjalan di kluster Anda. Runtime Databricks mencakup banyak perpustakaan, dan Anda juga dapat mengunggah perpustakaan Anda sendiri. Lihat Menginstal pustaka.
pengklusteran cairan
Fitur pengoptimalan tata letak data Azure Databricks untuk tabel Delta dan Iceberg yang secara bertahap mengklusterkan data berdasarkan kolom yang ditentukan untuk meningkatkan performa kueri. Tidak seperti pemartisian tradisional, pengklusteran cairan beradaptasi dengan perubahan pola data. Lihat Menggunakan pengklusteran cair untuk tabel.
M
tabel terkelola
Tabel yang file data dan metadatanya dikelola sepenuhnya oleh Unity Catalog. Tabel terkelola selalu disimpan dalam format Delta atau Iceberg dan mendapat manfaat dari pemeliharaan otomatis melalui pengoptimalan prediktif. Lihat tabel terkelola Unity Catalog di Azure Databricks untuk Delta Lake dan Apache Iceberg.
tampilan materialisasi
Tampilan yang telah dikomputasi dan disimpan sehingga dapat dikueri dengan latensi yang lebih rendah atau berulang kali tanpa komputasi redundan. Lihat Tampilan termaterialisasi.
arsitektur medali
Pola desain data yang digunakan untuk secara logis mengorganisasikan data dalam lakehouse, dengan tujuan meningkatkan struktur dan kualitas data secara bertahap dan progresif saat data mengalir melalui setiap lapisan arsitektur (dari tabel lapisan Perunggu ⇒ Perak ⇒ Emas). Apa itu arsitektur 'medallion lakehouse'?.
metastore
Komponen yang menyimpan semua informasi struktur berbagai tabel dan partisi di gudang data, termasuk informasi jenis kolom dan kolom, serializer dan deserializer yang diperlukan untuk membaca dan menulis data, dan file yang sesuai tempat data disimpan. Lihat Metastore.
tampilan metrik
Objek Katalog Unity yang menyediakan cara terpusat untuk menentukan dan mengelola metrik bisnis yang dapat digunakan kembali. Metrik menampilkan definisi pengukuran terpisah dari pengelompokan dimensi, memungkinkan Anda menentukan metrik sekali dan mengkuerinya secara fleksibel di seluruh dimensi apa pun. Lihat Tampilan metrik Katalog Unity.
MLflow
Platform rekayasa AI sumber terbuka terbesar untuk agen, LLM, dan model ML. MLflow memungkinkan tim dari semua ukuran untuk men-debug, mengevaluasi, memantau, dan mengoptimalkan aplikasi AI mereka sambil mengontrol biaya dan mengelola akses ke model dan data. MLflow on Azure Databricks adalah layanan terkelola penuh dengan fungsionalitas tambahan untuk pelanggan perusahaan, menyediakan penyebaran MLflow terkelola yang dapat diskalakan dan aman. Lihat MLflow di Databricks.
Pelacakan MLflow
Fitur MLflow untuk GenAI yang menyediakan pengamatan end-to-end dengan mencatat setiap langkah yang diambil agen atau aplikasi AI. Gunakan Pelacakan MLflow untuk men-debug, memantau, dan mengaudit perilaku agen dalam pengembangan dan produksi. Lihat Pelacakan MLflow - Observabilitas GenAI.
Protokol Konteks Model (MCP)
Standar sumber terbuka yang menghubungkan agen AI ke alat, sumber daya, permintaan, dan informasi kontekstual lainnya melalui antarmuka standar. Azure Databricks menyediakan server MCP terkelola, eksternal, dan kustom. Lihat Model Context Protocol (MCP) di Databricks.
pelatihan model
Proses pelatihan pembelajaran mesin dan model pembelajaran mendalam pada Azure Databricks menggunakan banyak pustaka sumber terbuka populer. Lihat Melatih model AI dan ML.
Mosaik AI
Fitur yang menyediakan alat terpadu untuk membangun, menyebarkan, mengevaluasi, dan mengatur solusi AI dan ML — mulai dari membangun model ML prediktif hingga aplikasi AI generatif terbaru. Lihat AI dan pembelajaran mesin di Databricks.
Pelayanan Model AI Mosaic
Antarmuka terpadu untuk mengimplementasikan, mengatur, dan mengkueri model AI untuk inferensi real-time dan batch. Lihat Menerapkan model menggunakan Mosaic AI Model Serving.
Pelatihan Model AI Mosaik
Fitur ini memungkinkan Anda menggunakan data untuk menyesuaikan model fondasi untuk mengoptimalkan performanya untuk aplikasi spesifik Anda. Dengan melakukan penyempurnaan parameter penuh atau pelatihan berkelanjutan dari model fondasi, Anda dapat melatih model Anda sendiri menggunakan sumber daya data, waktu, dan komputasi yang jauh lebih sedikit daripada melatih model dari awal. Lihat Penyetelan Model Dasar.
Pencarian Vektor AI Mosaik
Indeks pencarian vektor yang dibangun ke dalam Databricks Data Intelligence Platform dan terintegrasi dengan alat tata kelola dan produktivitasnya. Lihat Mosaic AI Vector Search.
N
notebook
Antarmuka web interaktif yang digunakan oleh ilmuwan dan insinyur data untuk menulis dan menjalankan kode dalam beberapa bahasa (misalnya, Python, Scala, SQL) dalam dokumen yang sama. Lihat Buku catatan Databricks.
O
OAuth
OAuth adalah standar terbuka untuk delegasi akses, umumnya digunakan sebagai cara bagi pengguna internet untuk memberikan akses situs web atau aplikasi ke informasi mereka di situs web lain tetapi tanpa memberi mereka kata sandi. Lihat Mengotentikasi akses ke sumber daya Azure Databricks.
P
Sambungan Mitra
Program Databricks yang menyediakan integrasi yang dikelola oleh vendor perangkat lunak independen untuk terhubung ke sebagian besar sistem data perusahaan. Lihat Apa itu Databricks Partner Connect?.
token akses pribadi (PAT)
String karakter yang digunakan untuk mengautentikasi pengguna saat mengakses sistem komputer, bukan kata sandi. Lihat Otorisasi akses untuk sumber daya Azure Databricks.
Photon
Mesin kueri vektorisasi asli Databricks berperforma tinggi yang menjalankan beban kerja SQL dan panggilan API DataFrame Anda lebih cepat untuk mengurangi total biaya per beban kerja Anda. Photon kompatibel dengan API Apache Spark, sehingga berfungsi dengan kode Anda yang ada. Lihat Apa itu Photon?.
pengoptimalan prediktif
Fitur Azure Databricks yang secara otomatis mengidentifikasi dan menjalankan operasi pemeliharaan pada tabel terkelola Unity Catalog untuk meningkatkan performa kueri dan mengurangi biaya penyimpanan. Lihat Pengoptimalan prediktif untuk tabel yang dikelola oleh Unity Catalog.
pipeline
DAG tabel, tampilan, tampilan materialisasi, alur, dan sink yang diperbarui secara malas dalam urutan dependensi yang ditentukan oleh sistem.
R
retrieval-augmented generation (generasi berbasis pengambilan informasi, RAG)
Teknik yang memungkinkan model bahasa besar (LLM) menghasilkan respons yang diperkaya dengan menambah permintaan pengguna dengan data pendukung yang diambil dari sumber informasi luar. Dengan menggabungkan informasi yang diambil ini, RAG memungkinkan LLM menghasilkan respons yang lebih akurat dan berkualitas lebih tinggi dibandingkan dengan tidak menambah permintaan dengan konteks tambahan. Lihat RAG (Retrieval Augmented Generation) pada Azure Databricks.
S
Schema (Katalog Unity)
Bagian dari katalog di Unity Catalog yang dapat berisi tabel, tampilan, volume, model, dan fungsi. Skema adalah tingkat kedua dari nama ruang tiga tingkat dalam Katalog Unity (catalog.schema.table-etc). Lihat Apa itu Katalog Unity?.
komputasi tanpa server
Komputasi yang dikelola oleh Azure Databricks, yang mengurangi overhead manajemen dan menyediakan komputasi instan untuk meningkatkan produktivitas pengguna. Lihat Hubungkan ke komputasi tanpa server.
pokok layanan
Identitas yang dibuat untuk digunakan dengan alat otomatis, tugas yang dijalankan, dan aplikasi. Anda dapat membatasi akses perwakilan layanan ke sumber daya menggunakan izin, dengan cara yang sama seperti pengguna Azure Databricks. Tidak seperti pengguna Azure Databricks, "service principal" adalah identitas yang hanya API; tidak dapat mengakses antarmuka pengguna Azure Databricks atau Databricks CLI tanpa perantara. Lihat Service principals.
sink (titik akhir)
Sink adalah tujuan untuk alur data yang menulis ke sistem eksternal (contohnya, Kafka, Kinesis, Delta).
Gudang SQL
Sumber daya komputasi yang memungkinkan Anda mengkueri dan menjelajahi data di Azure Databricks. Lihat Menyambungkan ke gudang SQL.
pemrosesan aliran
Metode pemrosesan data yang memungkinkan Anda menentukan kueri terhadap himpunan data yang tidak terbatas dan terus berkembang lalu memproses data dalam batch bertahap yang kecil. Azure Databricks pemrosesan aliran menggunakan Streaming Terstruktur. Lihat Konsep Streaming Terstruktur.
streaming
Streaming mengacu pada konten media apa pun - langsung atau direkam - (yaitu, aliran data) yang dikirimkan ke komputer dan perangkat seluler melalui internet dan diputar kembali secara real time. Lihat Konsep Streaming Terstruktur.
analitik streaming
Proses analisis data yang terus dihasilkan oleh sumber yang berbeda. Azure Databricks mendukung analitik streaming melalui Streaming Terstruktur, memungkinkan pemrosesan dan analisis data langsung untuk wawasan real time.
Streaming Terstruktur
Mesin pemrosesan aliran yang dapat diskalakan dan toleran terhadap kesalahan yang dibangun pada mesin Spark SQL, memungkinkan komputasi kompleks sebagai kueri streaming. Lihat Konsep Streaming Terstruktur.
tabel streaming
Tabel terkelola yang memiliki aliran data ditulis ke dalamnya. Lihat Tabel streaming.
tabel sistem
Penyimpanan data analitik yang dihosting oleh Azure Databricks untuk data operasional akun Anda, seperti log audit, penggunaan yang dapat ditagih, dan silsilah. Tabel sistem tersedia dalam system katalog di Katalog Unity. Lihat Referensi tabel sistem.
tabel yang disinkronkan
Tabel yang tersinkronisasi adalah tabel Postgres baca-saja Unity Catalog yang secara otomatis menyinkronkan data dari tabel Unity Catalog ke instance basis data Anda. Lihat Menyediakan data lakehouse dengan tabel yang disinkronkan (Lakebase Provisioned).
T
table
Tabel berada dalam skema dan berisi baris data. Semua tabel yang dibuat di Databricks menggunakan Delta Lake secara default. Tabel yang didukung oleh Delta Lake juga disebut tabel Delta. Lihat tabel Azure Databricks.
alur yang dipicu
Alur yang menyerap semua data yang tersedia di awal pembaruan untuk setiap tabel, berjalan dalam urutan dependensi lalu mengakhiri. Lihat mode pipeline yang dipicu vs. berkelanjutan.
U
fungsi yang ditentukan pengguna (UDF)
Fungsi kustom yang dibuat oleh pengguna untuk memperluas kemampuan bawaan SQL atau bahasa pemrograman. Dalam Azure Databricks, UDF dapat didaftarkan di Unity Catalog untuk tata kelola dan digunakan kembali di seluruh ruang kerja. Lihat Apa itu fungsi yang ditentukan pengguna (UDF)?.
Katalog Unity
Fitur Azure Databricks yang menyediakan kontrol akses terpusat, audit, silsilah data, dan kemampuan penemuan data di seluruh ruang kerja Azure Databricks. Lihat Apa itu Katalog Unity?.
V
database vektor
Sebuah database yang dioptimalkan untuk menyimpan dan mengambil embedding. Penyematan adalah representasi matematika dari konten semantik data, biasanya data teks atau gambar. Databricks menyediakan indeks pencarian vektor yang memungkinkan Anda menggunakan fitur database vektor pada tabel Delta Anda. Lihat Mosaic AI Vector Search.
view
Tabel virtual yang ditentukan oleh kueri SQL. Ini tidak menyimpan data itu sendiri tetapi menyediakan cara untuk menyajikan data dari satu atau beberapa tabel, dalam format atau abstraksi tertentu. Lihat Apa itu pandangan?.
volume (Katalog Unity)
Objek Katalog Unity yang memungkinkan tata kelola melalui himpunan data non-tabular. Volume mewakili volume penyimpanan logis di lokasi penyimpanan objek cloud. Volume menyediakan kemampuan untuk mengakses, menyimpan, mengelola, dan mengatur file. Lihat Apa itu Katalog Unity volume?.
W
Pekerjaan Lakeflow
Kumpulan alat yang memungkinkan Anda menjadwalkan dan mengatur tugas pemrosesan data pada Azure Databricks. Lihat Pekerjaan Lakeflow.
workload
Jumlah kemampuan pemrosesan yang diperlukan untuk melakukan tugas atau grup tugas. Azure Databricks mengidentifikasi dua jenis beban kerja: rekayasa data (pekerjaan) dan analitik data (semua tujuan). Lihat komponen Azure Databricks.
workspace
Lingkungan organisasi yang memungkinkan pengguna Databricks mengembangkan, menelusuri, dan berbagi objek seperti notebook, eksperimen, kueri, dan dasbor. Lihat UI Ruang Kerja.