Bagikan melalui


Menambang Konten Model untuk Model Regresi Logistik

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Topik ini menjelaskan konten model penambangan yang khusus untuk model yang menggunakan algoritma Microsoft Logistic Regression. Untuk penjelasan tentang cara menginterpretasikan statistik dan struktur yang dibagikan oleh semua jenis model, dan definisi umum istilah yang terkait dengan konten model penambangan, lihat Menambang Konten Model (Analysis Services - Data Mining).

Memahami Struktur Model Regresi Logistik

Model regresi logistik dibuat dengan menggunakan algoritma Microsoft Neural Network dengan parameter yang membatasi model untuk menghilangkan simpul tersembunyi. Oleh karena itu, struktur keseluruhan model regresi logistik hampir identik dengan jaringan neural: setiap model memiliki simpul induk tunggal yang mewakili model dan metadatanya, dan simpul statistik marginal khusus (NODE_TYPE = 24) yang menyediakan statistik deskriptif tentang input yang digunakan dalam model.

Selain itu, model berisi subnetwork (NODE_TYPE = 17) untuk setiap atribut yang dapat diprediksi. Sama seperti dalam model jaringan neural, setiap subnetwork selalu berisi dua cabang: satu untuk lapisan input, dan cabang lain yang berisi lapisan tersembunyi (NODE_TYPE = 19) dan lapisan output (NODE_TYPE = 20) untuk jaringan. Subnet yang sama dapat digunakan untuk beberapa atribut jika ditentukan sebagai predict-only. Atribut yang dapat diprediksi yang juga merupakan input mungkin tidak muncul di subnetwork yang sama.

Namun, dalam model regresi logistik, simpul yang mewakili lapisan tersembunyi kosong, dan tidak memiliki anak. Oleh karena itu model berisi simpul yang mewakili output individu (NODE_TYPE = 23) dan input individual (NODE_TYPE = 21) tetapi tidak ada simpul tersembunyi individu.

struktur konten untuk struktur model regresi logisitc

Secara default, model regresi logistik ditampilkan di Penampil Jaringan Neural Microsoft. Dengan penampil kustom ini, Anda dapat memfilter atribut input dan nilainya, dan secara grafis melihat bagaimana pengaruhnya terhadap output. Tipsalat dalam penampil menunjukkan probabilitas dan lift yang terkait dengan setiap pasangan nilai input dan output. Untuk informasi selengkapnya, lihat Menelusuri Model Menggunakan Penampil Jaringan Neural Microsoft.

Untuk menjelajahi struktur input dan subnet, dan untuk melihat statistik terperinci, Anda dapat menggunakan penampil Pohon Konten Generik Microsoft. Anda dapat mengklik simpul apa pun untuk memperluasnya dan melihat simpul anak, atau melihat bobot dan statistik lain yang terkandung dalam simpul.

Konten Model untuk Model Regresi Logistik

Bagian ini menyediakan detail dan contoh hanya untuk kolom tersebut dalam konten model penambangan yang memiliki relevansi khusus untuk regresi logistik. Konten model hampir identik dengan model jaringan neural, tetapi deskripsi yang berlaku untuk model jaringan neural dapat diulang dalam tabel ini untuk kenyamanan.

Untuk informasi tentang kolom tujuan umum dalam kumpulan baris skema, seperti MODEL_CATALOG dan MODEL_NAME, yang tidak dijelaskan di sini, atau untuk penjelasan tentang terminologi model penambangan, lihat Menambang Konten Model (Analysis Services - Data Mining).

MODEL_CATALOG
Nama database tempat model disimpan.

MODEL_NAME
Nama model.

ATTRIBUTE_NAME
Nama atribut yang sesuai dengan simpul ini.

Simpul Konten
Akar model Kosong
Statistik marginal Kosong
Lapisan input Kosong
Simpul input Nama atribut input
Lapisan tersembunyi Kosong
Lapisan output Kosong
Simpul output Nama atribut output

NODE_NAME
Nama node. Saat ini, kolom ini berisi nilai yang sama dengan NODE_UNIQUE_NAME, meskipun ini dapat berubah dalam rilis mendatang.

NODE_UNIQUE_NAME
Nama unik simpul.

Untuk informasi selengkapnya tentang bagaimana nama dan ID menyediakan informasi struktural tentang model, lihat bagian , Menggunakan Nama Node dan ID.

NODE_TYPE
Model regresi logistik menghasilkan jenis node berikut:

ID Jenis Simpul Deskripsi
1 Model.
17 Simpul pengatur untuk subnet.
18 Simpul penyelenggara untuk lapisan input.
19 Simpul pengatur untuk lapisan tersembunyi. Lapisan tersembunyi kosong.
20 Simpul pengatur untuk lapisan output.
21 Node atribut input.
23 Simpul atribut output.
24 Simpul statistik marginal.

NODE_CAPTION
Label atau caption yang terkait dengan simpul. Dalam model regresi logistik, selalu kosong.

CHILDREN_CARDINALITY
Perkiraan jumlah anak yang dimiliki simpul.

Simpul Konten
Akar model Menunjukkan jumlah simpul anak, yang mencakup setidaknya 1 jaringan, 1 simpul marginal yang diperlukan, dan 1 lapisan input yang diperlukan. Misalnya, jika nilainya adalah 5, ada 3 subnet.
Statistik marginal Selalu 0.
Lapisan input Menunjukkan jumlah pasangan atribut-nilai input yang digunakan oleh model.
Simpul input Selalu 0.
Lapisan tersembunyi Dalam model regresi logistik, selalu 0.
Lapisan output Menunjukkan jumlah nilai output.
Simpul output Selalu 0.

PARENT_UNIQUE_NAME
Nama unik induk simpul. NULL dikembalikan untuk simpul apa pun di tingkat akar.

Untuk informasi selengkapnya tentang bagaimana nama dan ID menyediakan informasi struktural tentang model, lihat bagian , Menggunakan Nama Node dan ID.

NODE_DESCRIPTION
Deskripsi simpul yang mudah digunakan.

Simpul Konten
Akar model Kosong
Statistik marginal Kosong
Lapisan input Kosong
Simpul input Nama atribut input
Lapisan tersembunyi Kosong
Lapisan output Kosong
Simpul output Jika atribut output berkelanjutan, berisi nama atribut output.

Jika atribut output diskret atau diskret, berisi nama atribut dan nilai .

NODE_RULE
Deskripsi XML dari aturan yang disematkan dalam simpul.

Simpul Konten
Akar model Kosong
Statistik marginal Kosong
Lapisan input Kosong
Simpul input Fragmen XML yang berisi informasi yang sama dengan kolom NODE_DESCRIPTION.
Lapisan tersembunyi Kosong
Lapisan output Kosong
Simpul output Fragmen XML yang berisi informasi yang sama dengan kolom NODE_DESCRIPTION.

MARGINAL_RULE
Untuk model regresi logistik, selalu kosong.

NODE_PROBABILITY
Probabilitas yang terkait dengan simpul ini. Untuk model regresi logistik, selalu 0.

MARGINAL_PROBABILITY
Probabilitas mencapai simpul dari simpul induk. Untuk model regresi logistik, selalu 0.

NODE_DISTRIBUTION
Tabel berlapis yang berisi informasi statistik untuk simpul. Untuk informasi terperinci tentang konten tabel ini untuk setiap jenis simpul, lihat bagian, Memahami Tabel NODE_DISTRIBUTION, di Menambang Konten Model untuk Model Jaringan Neural (Analysis Services - Penggalian Data).

NODE_SUPPORT
Untuk model regresi logistik, selalu 0.

Catatan

Probabilitas dukungan selalu 0 karena output dari jenis model ini tidak probabilistik. Satu-satunya hal yang bermakna untuk algoritma adalah bobot; oleh karena itu, algoritma tidak menghitung probabilitas, dukungan, atau varians.

Untuk mendapatkan informasi tentang dukungan dalam kasus pelatihan untuk nilai tertentu, lihat simpul statistik marginal.

MSOLAP_MODEL_COLUMN

Simpul Konten
Akar model Kosong
Statistik marginal Kosong
Lapisan input Kosong
Simpul input Nama atribut input.
Lapisan tersembunyi Kosong
Lapisan output Kosong
Simpul output Nama atribut input.

MSOLAP_NODE_SCORE
Dalam model regresi logistik, selalu 0.

MSOLAP_NODE_SHORT_CAPTION
Dalam model regresi logistik, selalu kosong.

Menggunakan Nama Node dan ID

Penamaan simpul dalam model regresi logistik memberikan informasi tambahan tentang hubungan antara simpul dalam model. Tabel berikut menunjukkan konvensi untuk ID yang ditetapkan ke simpul di setiap lapisan.

Jenis Node Konvensi untuk ID simpul
Akar model (1) 00000000000000000.
Simpul statistik marginal (24) 10000000000000000
Lapisan input (18) 30000000000000000
Simpul input (21) Dimulai dari 60000000000000000
Subjaringan (17) 20000000000000000
Lapisan tersembunyi (19) 40000000000000000
Lapisan output (20) 50000000000000000
Simpul output (23) Mulai dari 80000000000000000

Anda dapat menggunakan ID ini untuk menentukan bagaimana atribut output terkait dengan atribut lapisan input tertentu, dengan melihat tabel NODE_DISTRIBUTION simpul output. Setiap baris dalam tabel tersebut berisi ID yang menunjuk kembali ke simpul atribut input tertentu. Tabel NODE_DISTRIBUTION juga berisi koefisien untuk pasangan input-output tersebut.

Lihat juga

Algoritma Regresi Logistik Microsoft
Konten Model Penambangan untuk Model Jaringan Neural (Analysis Services - Penggalian Data)
Contoh Kueri Model Regresi Logistik
Referensi Teknis Algoritma Regresi Logistik Microsoft