Bagikan melalui


Menambang Konten Model untuk Model Regresi Linier (Analysis Services - Penggalian Data)

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi pada SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Topik ini menjelaskan konten model penambangan yang khusus untuk model yang menggunakan algoritma Microsoft Linear Regression. Untuk penjelasan umum tentang penambangan konten model untuk semua jenis model, lihat Menambang Konten Model (Analysis Services - Data Mining).

Memahami Struktur Model Regresi Linier

Model regresi linier memiliki struktur yang sangat sederhana. Setiap model memiliki simpul induk tunggal yang mewakili model dan metadatanya, dan simpul pohon regresi (NODE_TYPE = 25) yang berisi rumus regresi untuk setiap atribut yang dapat diprediksi.

Struktur model untuk struktur regresi linier

Model regresi linier menggunakan algoritma yang sama dengan Microsoft Decision Trees, tetapi parameter yang berbeda digunakan untuk membatasi pohon, dan hanya atribut berkelanjutan yang diterima sebagai input. Namun, karena model regresi linier didasarkan pada algoritma Microsoft Decision Trees, model regresi linier ditampilkan dengan menggunakan Penampil Pohon Keputusan Microsoft. Untuk informasi, lihat Menelusuri Model Menggunakan Penampil Pohon Microsoft.

Bagian berikutnya menjelaskan cara menginterpretasikan informasi dalam simpul rumus regresi. Informasi ini tidak hanya berlaku untuk model regresi linier, tetapi juga untuk model pohon keputusan yang berisi regresi dalam sebagian pohon.

Konten Model untuk Model Regresi Linier

Bagian ini menyediakan detail dan contoh hanya untuk kolom tersebut dalam konten model penambangan yang memiliki relevansi khusus untuk regresi linier.

Untuk informasi tentang kolom tujuan umum di kumpulan baris skema, lihat Menambang Konten Model (Analysis Services - Penggalian Data).

MODEL_CATALOG
Nama database tempat model disimpan.

MODEL_NAME
Nama model.

ATTRIBUTE_NAME
Simpul akar: Kosong

Simpul regresi: Nama atribut yang dapat diprediksi.

NODE_NAME
Selalu sama seperti NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Pengidentifikasi unik untuk simpul dalam model. Nilai ini tidak boleh diubah.

NODE_TYPE
Model regresi linier menghasilkan jenis node berikut:

ID Jenis Node Jenis Deskripsi
25 Akar pohon regresi Berisi rumus yang menjelaskan hubungan antara variabel input dan output.

NODE_CAPTION
Label atau caption yang terkait dengan simpul. Properti ini terutama untuk tujuan tampilan.

Simpul akar: Kosong

Simpul regresi: Semua.

CHILDREN_CARDINALITY
Perkiraan jumlah anak yang dimiliki simpul.

Simpul akar: Menunjukkan jumlah simpul regresi. Satu simpul regresi dibuat untuk setiap atribut yang dapat diprediksi dalam model.

Simpul regresi: Selalu 0.

PARENT_UNIQUE_NAME
Nama unik induk simpul. NULL dikembalikan untuk simpul apa pun di tingkat akar.

NODE_DESCRIPTION
Deskripsi node.

Simpul akar: Kosong

Simpul regresi: Semua.

NODE_RULE
Tidak digunakan untuk model regresi linier.

MARGINAL_RULE
Tidak digunakan untuk model regresi linier.

NODE_PROBABILITY
Probabilitas yang terkait dengan simpul ini.

Simpul akar: 0

Simpul regresi: 1

MARGINAL_PROBABILITY
Probabilitas mencapai simpul dari simpul induk.

Simpul akar: 0

Simpul regresi: 1

NODE_DISTRIBUTION
Tabel berlapis yang menyediakan statistik tentang nilai dalam simpul.

Simpul akar: 0

Simpul regresi: Tabel yang berisi elemen yang digunakan untuk membangun rumus regresi. Simpul regresi berisi jenis nilai berikut:

VALUETYPE
1 (Hilang)
3 (Berkelanjutan)
7 (Koefisien)
8 (Perolehan Skor)
9 (Statistik)
11 (Intersepsi)

NODE_SUPPORT
Jumlah kasus yang mendukung simpul ini.

Simpul akar: 0

Simpul regresi: Jumlah kasus pelatihan.

MSOLAP_MODEL_COLUMN
Nama atribut yang dapat diprediksi.

MSOLAP_NODE_SCORE
Sama seperti NODE_PROBABILITY

MSOLAP_NODE_SHORT_CAPTION
Label yang digunakan untuk tujuan tampilan.

Keterangan

Saat Anda membuat model dengan menggunakan algoritma Regresi Linier Microsoft, mesin penggalian data membuat contoh khusus model pohon keputusan dan memasok parameter yang membatasi pohon untuk berisi semua data pelatihan dalam satu simpul. Semua input berkelanjutan ditandai dan dievaluasi sebagai regresi potensial, tetapi hanya regresi yang sesuai dengan data yang dipertahankan sebagai regresi dalam model akhir. Analisis menghasilkan rumus regresi tunggal untuk setiap regresi atau tidak ada rumus regresi sama sekali.

Anda dapat melihat rumus regresi lengkap di Legenda Penambangan, dengan mengklik simpul (Semua) di Penampil Pohon Microsoft.

Selain itu, ketika Anda membuat model pohon keputusan yang menyertakan atribut yang dapat diprediksi berkelanjutan, terkadang pohon memiliki simpul regresi yang berbagi properti simpul pohon regresi.

Distribusi Simpul untuk Atribut Berkelanjutan

Sebagian besar informasi penting dalam simpul regresi terkandung dalam tabel NODE_DISTRIBUTION. Contoh berikut mengilustrasikan tata letak tabel NODE_DISTRIBUTION. Dalam contoh ini, struktur penambangan Surat Bertarget telah digunakan untuk membuat model regresi linier yang memprediksi pendapatan pelanggan berdasarkan usia. Model ini hanya untuk tujuan ilustrasi, karena dapat dibangun dengan mudah menggunakan data sampel dan struktur penambangan AdventureWorks2012 yang ada.

ATTRIBUTE_NAME ATTRIBUTE_VALUE DUKUNGAN PROBABILITAS VARIANS VALUETYPE
Pendapatan Tahunan Tidak ada 0 0.000457142857142857 0 1
Pendapatan Tahunan 57220.8876687257 17484 0.999542857142857 1041275619.52776 3
Usia 471.687717702463 0 0 126.969442359327 7
Usia 234.680904692439 0 0 0 8
Usia 45.4269617936399 0 0 126.969442359327 9
35793.5477381267 0 0 1012968919.28372 11

Tabel NODE_DISTRIBUTION berisi beberapa baris, masing-masing dikelompokkan menurut variabel. Dua baris pertama selalu bernilai tipe 1 dan 3, dan menjelaskan atribut target. Baris yang berhasil memberikan detail tentang rumus untuk regresor tertentu. Regressor adalah variabel input yang memiliki hubungan linier dengan variabel output. Anda dapat memiliki beberapa regresor, dan setiap regresor akan memiliki baris terpisah untuk koefisien (VALUETYPE = 7), perolehan skor (VALUETYPE = 8), dan statistik (VALUETYPE = 9). Terakhir, tabel memiliki baris yang berisi intersepsi persamaan (VALUETYPE = 11).

Elemen Rumus Regresi

Tabel NODE_DISTRIBUTION berlapis berisi setiap elemen rumus regresi dalam baris terpisah. Dua baris pertama data dalam hasil contoh berisi informasi tentang atribut yang dapat diprediksi, Pendapatan Tahunan, yang memodelkan variabel dependen. Kolom DUKUNGAN menunjukkan jumlah kasus yang mendukung dua status atribut ini: nilai Pendapatan Tahunan tersedia, atau nilai Pendapatan Tahunan hilang.

Kolom VARIANS memberi tahu Anda varians komputasi dari atribut yang dapat diprediksi. Varians adalah ukuran seberapa tersebar nilai dalam sampel, mengingat distribusi yang diharapkan. Varians di sini dihitung dengan mengambil rata-rata penyimpangan kuadrat dari rata-rata. Akar kuadrat dari varians juga dikenal sebagai simpannan baku. SQL Server Analysis Services tidak memberikan simpanngkang standar tetapi Anda dapat dengan mudah menghitungnya.

Untuk setiap regresor, tiga baris adalah output. Mereka berisi statistik koefisien, perolehan skor, dan regresor.

Terakhir, tabel berisi baris yang menyediakan intersepsi untuk persamaan.

Koefisien

Untuk setiap regresor, koefisien (VALUETYPE = 7) dihitung. Koefisien itu sendiri muncul di kolom ATTRIBUTE_VALUE, sedangkan kolom VARIANS memberi tahu Anda varians untuk koefisien. Koefisien dihitung sehingga memaksimalkan linieritas.

Perolehan Skor

Perolehan skor (VALUETYPE = 8) untuk setiap regresor mewakili skor keterarikan atribut. Anda dapat menggunakan nilai ini untuk memperkirakan kegunaan beberapa regresi.

Statistik

Statistik regressor (VALUETYPE = 9) adalah rata-rata untuk atribut untuk kasus yang memiliki nilai. Kolom ATTRIBUTE_VALUE berisi rata-rata itu sendiri, sedangkan kolom VARIANS berisi jumlah penyimpangan dari rata-rata.

Mencegat

Biasanya, intersepsi (VALUETYPE = 11) atau residu dalam persamaan regresi memberi tahu Anda nilai atribut yang dapat diprediksi, pada titik di mana atribut input, adalah 0. Dalam banyak kasus, ini mungkin tidak terjadi, dan dapat menyebabkan hasil yang berlawanan.

Misalnya, dalam model yang memprediksi pendapatan berdasarkan usia, tidak ada gunanya mempelajari pendapatan pada usia 0. Dalam kehidupan nyata, biasanya lebih berguna untuk mengetahui tentang perilaku garis sehubungan dengan nilai rata-rata. Oleh karena itu, SQL Server SQL Server Analysis Services memodifikasi intersepsi untuk mengekspresikan setiap regresor dalam hubungan dengan rata-rata.

Penyesuaian ini sulit dilihat dalam konten model penambangan, tetapi terlihat jika Anda melihat persamaan yang telah selesai di Legenda PenambanganPenampil Pohon Microsoft. Rumus regresi digeser menjauh dari titik 0 ke titik yang mewakili rata-rata. Ini menyajikan tampilan yang lebih intuitif mengingat data saat ini.

Oleh karena itu, dengan asumsi bahwa usia rata-rata adalah sekitar 45, intersepsi (VALUETYPE = 11) untuk rumus regresi memberi tahu Anda pendapatan rata-rata.

Lihat juga

Konten Model Penambangan (Analysis Services - Penggalian Data)
Algoritma Regresi Linier Microsoft
Referensi Teknis Algoritma Regresi Linier Microsoft
Contoh Kueri Model Regresi Linier