Bagikan melalui


BUAT STRUKTUR PENAMBANGAN (DMX)

Berlaku untuk: SQL Server Analysis Services

Membuat struktur penambangan baru dalam database dan secara opsional menentukan partisi pelatihan dan pengujian. Setelah membuat struktur penambangan, Anda dapat menggunakan pernyataan ALTER MINING STRUCTURE (DMX) untuk menambahkan model ke struktur penambangan.

Sintaks

  
CREATE [SESSION] MINING STRUCTURE <structure>  
(  
    [(<column definition list>)]  
)  
[WITH HOLDOUT (<holdout-specifier> [OR <holdout-specifier>])]  
[REPEATABLE(<holdout seed>)]  
<holdout-specifier>::=  <holdout-maxpercent> PERCENT | <holdout-maxcases> CASES  

Argumen

Struktur
Nama unik untuk struktur.

daftar definisi kolom
Daftar definisi kolom yang dipisahkan koma.

holdout-maxpercent
Bilangan bulat antara 1 dan 100 yang menunjukkan persentase data yang akan disisihkan untuk pengujian.

holdout-maxcases
Bilangan bulat yang menunjukkan jumlah maksimum kasus yang digunakan untuk pengujian.

Jika nilai yang ditentukan untuk kasus maks lebih besar dari jumlah kasus input, semua kasus input digunakan untuk pengujian dan peringatan akan dinaikkan.

Catatan

Jika persentase dan jumlah maksimum kasus ditentukan, semakin kecil dari dua batas digunakan.

benih holdout
Bilangan bulat yang digunakan sebagai seed untuk memulai pemartisian data.

Jika diatur ke 0, hash ID struktur penambangan digunakan sebagai benih.

Catatan

Anda harus menentukan seed jika Anda perlu memastikan bahwa partisi dapat direproduksi.

Default: REPEATABLE(0)

Keterangan

Anda menentukan struktur penambangan dengan menentukan daftar kolom, secara opsional menentukan hubungan hierarkis antara kolom, lalu secara opsional mempartisi struktur penambangan ke dalam pelatihan dan pengujian himpunan data.

Kata kunci SESSION opsional menunjukkan bahwa struktur adalah struktur sementara yang hanya dapat Anda gunakan selama sesi saat ini. Ketika sesi dihentikan, struktur, dan model apa pun berdasarkan struktur, akan dihapus. Untuk membuat struktur dan model penambangan sementara, Anda harus terlebih dahulu mengatur properti database, AllowSessionMiningModels. Untuk informasi selengkapnya, lihat Properti Penggalian Data.

Daftar Definisi Kolom

Anda menentukan struktur penambangan dengan menyertakan informasi berikut untuk setiap kolom dalam daftar definisi kolom:

  • Nama (wajib)

  • Jenis data (wajib)

  • Distribusi

  • Daftar bendera pemodelan

  • Tipe isi (wajib)

  • Hubungan ke kolom atribut (wajib hanya jika berlaku), yang ditunjukkan oleh klausa RELATED TO

Gunakan sintaks berikut untuk daftar definisi kolom untuk menentukan satu kolom:

<column name>    <data type>    [<Distribution>]    [<Modeling Flags>]    <Content Type>    [<column relationship>]  

Gunakan sintaks berikut untuk daftar definisi kolom untuk menentukan kolom tabel berlapis:

<column name>    TABLE    ( <column definition list> )  

Untuk daftar tipe data, tipe konten, distribusi kolom, dan bendera pemodelan yang bisa Anda gunakan untuk menentukan kolom struktur, lihat topik berikut ini:

Anda dapat menentukan beberapa nilai bendera pemodelan untuk kolom. Namun, Anda hanya bisa memiliki satu tipe konten dan satu tipe data untuk kolom.

Hubungan Kolom

Anda dapat menambahkan klausa ke pernyataan definisi kolom apa pun untuk menjelaskan hubungan antara dua kolom. Analysis Services mendukung penggunaan klausa hubungan> kolom berikut<.

TERKAIT DENGAN
Menunjukkan hierarki nilai. Target kolom TERKAIT DENGAN bisa menjadi kolom kunci dalam tabel berlapis, kolom bernilai diskrit dalam baris huruf besar/kecil, atau kolom lain dengan klausa TERKAIT DENGAN, yang menunjukkan hierarki yang lebih dalam.

Parameter Holdout

Saat Anda menentukan parameter holdout, Anda membuat partisi data struktur. Jumlah yang Anda tentukan untuk holdout dicadangkan untuk pengujian, dan data yang tersisa digunakan untuk pelatihan. Secara default, jika Anda membuat struktur penambangan dengan menggunakan SQL Server Data Tools (SSDT), partisi holdout dibuat untuk Anda yang berisi data pengujian 30 persen dan data pelatihan 70 persen. Untuk informasi selengkapnya, lihat Himpunan Data Pelatihan dan Pengujian.

Jika Anda membuat struktur penambangan dengan menggunakan Ekstensi Penggalian Data (DMX), Anda harus menentukan bahwa partisi holdout dibuat secara manual.

Catatan

Pernyataan ALTER MINING STRUCTURE tidak mendukung holdout.

Anda dapat menentukan hingga tiga parameter holdout. Jika Anda menentukan jumlah maksimum kasus holdout dan persentase holdout, persentase kasus dicadangkan hingga batas kasus maksimum tercapai. Anda menentukan persentase holdout sebagai bilangan bulat diikuti dengan kata kunci PERCENT , dan menentukan jumlah maksimum kasus sebagai bilangan bulat diikuti dengan kata kunci CASES . Anda dapat menggabungkan kondisi dalam urutan apa pun, seperti yang ditunjukkan dalam contoh berikut:

WITH HOLDOUT (20 PERCENT)   
WITH HOLDOUT (2000 CASES)   
WITH HOLDOUT (20 PERCENT OR 2000 CASES)   
WITH HOLDOUT (2000 CASES OR 20 PERCENT)  

Benih holdout mengontrol titik awal proses yang secara acak menetapkan kasus ke himpunan data pelatihan atau pengujian. Dengan mengatur benih holdout, Anda dapat memastikan bahwa partisi dapat diulang. Jika Anda tidak menentukan benih holdout, Analysis Services menggunakan nama struktur penambangan untuk membuat seed. Jika Anda mengganti nama struktur, nilai seed akan berubah. Parameter benih holdout dapat digunakan dengan salah satu atau kedua parameter holdout lainnya.

Catatan

Karena informasi partisi di-cache dengan data pelatihan, untuk menggunakan holdout, Anda harus memastikan bahwa properti CacheMode dari struktur penambangan diatur ke KeepTrainingData. Ini adalah pengaturan default di Analysis Services untuk struktur penambangan baru. Mengubah properti CacheMode menjadi ClearTrainingCases pada struktur penambangan yang ada yang berisi partisi holdout tidak akan memengaruhi model penambangan apa pun yang telah diproses . Namun, jika MiningStructureCacheMode tidak diatur ke KeepTrainingData, parameter holdout tidak akan berpengaruh. Ini berarti bahwa semua data sumber akan digunakan untuk pelatihan dan tidak ada set pengujian yang akan tersedia. Definisi partisi di-cache dengan struktur; jika Anda menghapus cache kasus pelatihan, Anda juga menghapus cache data pengujian, dan definisi set holdout.

Contoh

Contoh berikut menunjukkan cara membuat struktur penambangan dengan holdout dengan menggunakan DMX.

Contoh 1: Menambahkan Struktur tanpa Set Pelatihan

Contoh berikut membuat struktur penambangan baru yang disebut New Mailing tanpa membuat model penambangan terkait, dan tanpa menggunakan holdout. Untuk mempelajari cara menambahkan model penambangan ke struktur, lihat MENGUBAH STRUKTUR PENAMBANGAN (DMX).

CREATE MINING STRUCTURE [New Mailing]  
(  
    CustomerKey LONG KEY,   
    Gender TEXT DISCRETE,  
    [Number Cars Owned] LONG DISCRETE,  
    [Bike Buyer] LONG DISCRETE   
)  

Contoh 2: Menentukan Persentase Holdout dan Seed

Klausa berikut dapat ditambahkan setelah daftar definisi kolom untuk menentukan himpunan data yang dapat digunakan untuk menguji semua model penambangan yang terkait dengan struktur penambangan. Pernyataan akan membuat set pengujian yaitu 25 persen dari total kasus input, tanpa batas jumlah maksimum kasus. 5000 digunakan sebagai benih untuk membuat partisi. Saat Anda menentukan seed, kasus yang sama akan dipilih untuk kumpulan pengujian setiap kali Anda memproses struktur penambangan, selama data yang mendasar tidak berubah.

CREATE MINING STRUCTURE [New Mailing]  
(  
    CustomerKey LONG KEY,   
    Gender TEXT DISCRETE,  
    [Number Cars Owned] LONG DISCRETE,  
    [Bike Buyer] LONG DISCRETE   
)   
WITH HOLDOUT(25 PERCENT) REPEATABLE(5000)  

Contoh 3: Menentukan Persentase Holdout dan Kasus Maks

Klausul berikut akan membuat set pengujian yang berisi 25 persen dari total kasus input, atau 2000 kasus, mana yang kurang. Karena 0 ditentukan sebagai benih, nama struktur penambangan digunakan untuk membuat benih yang digunakan untuk mulai mengambil sampel kasus input.

CREATE MINING STRUCTURE [New Mailing]  
(  
    CustomerKey LONG KEY,   
    Gender TEXT DISCRETE,  
    [Number Cars Owned] LONG DISCRETE,  
    [Bike Buyer] LONG DISCRETE   
)   
WITH HOLDOUT(25 PERCENT OR 2000 CASES) REPEATABLE(0)  

Lihat Juga

Pernyataan Definisi Data Ekstensi Penggalian Data (DMX)
Pernyataan Manipulasi Data Ekstensi Penggalian Data (DMX)
Referensi Pernyataan Ekstensi Penggalian Data (DMX)