Konten Model Penambangan untuk Model Deret Waktu (Analysis Services - Penggalian Data)
Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya
Penting
Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.
Semua model penambangan menggunakan struktur yang sama untuk menyimpan kontennya. Struktur ini didefinisikan sesuai dengan kumpulan baris skema konten penggalian data. Namun, dalam struktur standar itu, simpul yang berisi informasi diatur dengan cara yang berbeda untuk mewakili berbagai jenis pohon. Topik ini menjelaskan bagaimana simpul diatur, dan apa arti setiap simpul, untuk model penambangan yang didasarkan pada algoritma Microsoft Time Series.
Untuk penjelasan tentang konten model penambangan umum yang berlaku untuk semua jenis model, lihat Menambang Konten Model (Analysis Services - Data Mining).
Saat meninjau topik ini, Anda mungkin merasa berguna untuk diikuti dengan menelusuri konten model rangkaian waktu. Anda dapat membuat model rangkaian waktu dengan menyelesaikan tutorial Penggalian Data Dasar. Model yang Anda buat dalam tutorial adalah model campuran yang melatih data dengan menggunakan algoritma ARIMA dan ARTXP. Untuk informasi tentang cara melihat konten model penambangan, lihat Penampil Model Penggalian Data.
Memahami Struktur Model Time Series
Model rangkaian waktu memiliki simpul induk tunggal yang mewakili model dan metadatanya. Di bawah simpul induk tersebut, ada satu atau dua pohon rangkaian waktu, tergantung pada algoritma yang Anda gunakan untuk membuat model.
Jika Anda membuat model campuran, dua pohon terpisah ditambahkan ke model, satu untuk ARIMA dan satu untuk ARTXP. Jika Anda memilih untuk hanya menggunakan algoritma ARTXP atau hanya algoritma ARIMA, Anda akan memiliki satu pohon yang sesuai dengan algoritma tersebut. Anda menentukan algoritma mana yang akan digunakan dengan mengatur parameter FORECAST_METHOD. Untuk informasi selengkapnya tentang apakah akan menggunakan ARTXP, ARIMA, atau model campuran, lihat Algoritma Microsoft Time Series.
Diagram berikut menunjukkan contoh model penambangan data rangkaian waktu yang dibuat dengan pengaturan default, untuk membuat model campuran. Sehingga Anda dapat lebih mudah membandingkan perbedaan antara kedua model, di sini model ARTXP ditampilkan di sisi kiri diagram dan model ARIMA ditampilkan di sisi kanan diagram. Sedangkan ARTXP adalah struktur seperti pohon yang terbagi menjadi cabang yang lebih kecil dan lebih kecil, struktur yang dibuat oleh algoritma ARIMA lebih seperti piramida yang dibangun ke atas dari komponen yang lebih kecil.
Poin penting yang perlu diingat adalah bahwa informasi diatur dalam pohon ARIMA dan ARTXP dengan cara yang sama sekali berbeda, dan Anda harus mempertimbangkan dua pohon sebagai hanya terkait pada simpul akar. Meskipun kedua representasi disajikan dalam satu model untuk kenyamanan, mereka harus diperlakukan sebagai dua model independen. ARTXP mewakili struktur pohon yang sebenarnya, tetapi ARIMA tidak.
Saat Anda menggunakan Penampil Pohon Konten Model Generik Microsoft untuk melihat model yang menggunakan ARIMA dan ARTXP, simpul untuk model ARTXP dan ARIMA semuanya disajikan sebagai simpul anak dari model rangkaian waktu induk. Namun, Anda dapat dengan mudah membedakannya dengan label yang diterapkan ke simpul.
Kumpulan simpul pertama diberi label (Semua), dan mewakili hasil analisis oleh algoritma ARTXP.
Set simpul kedua diberi label ARIMA, dan mewakili hasil analisis oleh algoritma ARIMA.
Peringatan
Nama (Semua) pada pohon ARTXP hanya dipertahankan untuk kompatibilitas mundur. Sebelum SQL Server 2008, algoritma Time Series menggunakan algoritma tunggal untuk analisis, algoritma ARTXP.
Bagian berikut menjelaskan bagaimana simpul diatur dalam masing-masing jenis model ini.
Struktur Model ARTXP
Algoritma ARTXP membuat model yang mirip dengan model pohon keputusan. Ini mengelompokkan atribut yang dapat diprediksi dan membaginya setiap kali perbedaan signifikan ditemukan. Oleh karena itu, setiap model ARTXP berisi cabang terpisah untuk setiap atribut yang dapat diprediksi. Misalnya, tutorial Basic Data Mining membuat model yang memprediksi jumlah penjualan untuk beberapa wilayah. Dalam hal ini, [Jumlah] adalah atribut yang dapat diprediksi dan cabang terpisah dibuat untuk setiap wilayah. Jika Anda memiliki dua atribut yang dapat diprediksi, [Jumlah] dan [Kuantitas], cabang terpisah akan dibuat untuk setiap kombinasi atribut dan wilayah.
Simpul teratas untuk cabang ARTXP berisi informasi yang sama yang ada dalam simpul akar pohon keputusan. Ini termasuk jumlah anak untuk simpul tersebut (CHILDREN_CARDINALITY), jumlah kasus yang memenuhi kondisi simpul ini (NODE_SUPPORT), dan berbagai statistik deskriptif (NODE_DISTRIBUTION).
Jika simpul tidak memiliki anak, ini berarti bahwa tidak ada kondisi signifikan yang ditemukan yang akan membenarkan membagi kasus menjadi subgrup lebih lanjut. Cabang berakhir pada titik ini dan simpul disebut simpul daun. Simpul daun berisi atribut, koefisien, dan nilai yang merupakan blok penyusun rumus ARTXP.
Beberapa cabang mungkin memiliki pemisahan tambahan, mirip dengan model pohon keputusan. Misalnya, cabang pohon yang mewakili penjualan untuk wilayah Eropa terbagi menjadi dua cabang. Pemisahan terjadi ketika kondisi ditemukan yang menyebabkan perbedaan signifikan antara kedua kelompok. Simpul induk memberi tahu Anda nama atribut yang menyebabkan pemisahan, seperti [Jumlah], dan berapa banyak kasus yang ada di simpul induk. Simpul daun memberikan detail lebih lanjut: nilai atribut, seperti [Penjualan] >10.000 vs. [Penjualan] < 10.000), jumlah kasus yang mendukung setiap kondisi, dan rumus ARTXP.
Catatan
Jika Anda ingin melihat rumus, Anda bisa menemukan rumus regresi lengkap di tingkat simpul daun, tetapi tidak dalam simpul menengah atau akar.
Struktur Model ARIMA
Algoritma ARIMA membuat satu informasi untuk setiap kombinasi seri data (seperti [Wilayah]) dan atribut yang dapat diprediksi (seperti [Jumlah Penjualan])-persamaan yang menjelaskan perubahan atribut yang dapat diprediksi dari waktu ke waktu.
Persamaan untuk setiap seri berasal dari beberapa komponen, satu untuk setiap struktur berkala yang ditemukan dalam data. Misalnya, jika Anda memiliki data penjualan yang dikumpulkan setiap bulan, algoritma mungkin mendeteksi struktur berkala bulanan, triwulanan, atau tahunan.
Algoritma menghasilkan sekumpulan node induk dan anak terpisah untuk setiap periodisitas yang ditemukannya. Periodisitas default adalah 1, untuk ikatan waktu tunggal, dan secara otomatis ditambahkan ke semua model. Anda dapat menentukan kemungkinan struktur berkala dengan memasukkan beberapa nilai dalam parameter PERIODICITY_HINT. Namun, jika algoritma tidak mendeteksi struktur berkala, algoritma tidak akan menghasilkan hasil untuk petunjuk tersebut.
Setiap struktur berkala yang merupakan output dalam konten model berisi simpul komponen berikut:
Simpul untuk urutan regresif otomatis (AR)
Simpul untuk rata-rata pergerakan (MA)
Untuk informasi tentang arti istilah-istilah ini, lihat Algoritma Microsoft Time Series.
Urutan perbedaan adalah bagian penting dari rumus, dan diwakili dalam persamaan. Untuk informasi selengkapnya tentang bagaimana urutan perbedaan digunakan, lihat Referensi Teknis Algoritma Microsoft Time Series.
Konten Model untuk Time Series
Bagian ini menyediakan detail dan contoh hanya untuk kolom tersebut dalam konten model penambangan yang memiliki relevansi khusus untuk model rangkaian waktu.
Untuk informasi tentang kolom tujuan umum dalam kumpulan baris skema, seperti MODEL_CATALOG dan MODEL_NAME, atau untuk penjelasan tentang terminologi model penambangan, lihat Menambang Konten Model (Analysis Services - Data Mining).
MODEL_CATALOG
Nama database tempat model disimpan.
MODEL_NAME
Nama model.
ATTRIBUTE_NAME
Atribut yang dapat diprediksi untuk seri data yang diwakili dalam simpul. (Nilai yang sama seperti untuk MSOLAP_MODEL_COLUMN.)
NODE_NAME
Nama node.
Saat ini, kolom ini berisi nilai yang sama dengan NODE_UNIQUE_NAME, meskipun ini mungkin berubah dalam rilis mendatang.
NODE_UNIQUE_NAME
Nama unik simpul. Simpul induk model selalu bernama TS.
ARTXP: Setiap simpul diwakili oleh TS diikuti dengan nilai numerik heksadesimal. Urutan simpul tidak penting.
Misalnya, simpul ARTXP langsung di bawah pohon TS mungkin diberi nomor TS00000001-TS0000000b.
ARIMA: Setiap simpul dalam pohon ARIMA diwakili oleh TA diikuti oleh nilai numerik heksadesimal. Simpul anak berisi nama unik simpul induk diikuti dengan angka heksadesimal lain yang menunjukkan urutan dalam simpul.
Semua pohon ARIMA disusun persis sama. Setiap akar berisi simpul dan konvensi penamaan yang dicontohkan dalam tabel berikut:
ID dan jenis Simpul ARIMA | Contoh nama simpul |
---|---|
Akar ARIMA (27) | TA0000000b |
Struktur Berkala ARIMA (28) | TA0000000b00000000 |
ARIMA Auto Regressive (29) | TA0000000b000000000 |
Rata-rata Pergerakan ARIMA (30) | TA0000000b00000001 |
NODE_TYPE
Model rangkaian waktu menghasilkan jenis simpul berikut, tergantung pada algoritmanya.
ARTXP:
ID Jenis Node | Deskripsi |
---|---|
1 (Model) | Deret waktu |
3 (Interior) | Mewakili cabang interior dalam pohon rangkaian waktu ARTXP. |
16 (Pohon rangkaian waktu) | Akar pohon ARTXP yang sesuai dengan atribut dan seri yang dapat diprediksi. |
15 (Rangkaian waktu) | Simpul daun di pohon ARTXP. |
ARIMA:
ID Jenis Node | Deskripsi |
---|---|
27 (Akar ARIMA) | Simpul atas pohon ARIMA. |
28 (Struktur Berkala ARIMA) | Komponen pohon ARIMA yang menggambarkan struktur berkala tunggal. |
29 (ARIMA Autoregressive) | Berisi koefisien untuk satu struktur berkala. |
30 (Rata-rata Pergerakan ARIMA) | Berisi koefisien untuk satu struktur berkala. |
NODE_CAPTION
Label atau caption yang terkait dengan simpul.
Properti ini terutama untuk tujuan tampilan.
ARTXP: Berisi kondisi pemisahan untuk simpul, ditampilkan sebagai kombinasi atribut dan rentang nilai.
ARIMA: Berisi bentuk pendek dari persamaan ARIMA.
Untuk informasi tentang format persamaan ARIMA, lihat Legenda Penambangan untuk ARIMA.
CHILDREN_CARDINALITY
Jumlah anak langsung yang dimiliki simpul.
PARENT_UNIQUE_NAME
Nama unik induk simpul. NULL dikembalikan untuk simpul apa pun di tingkat akar.
NODE_DESCRIPTION
Deskripsi dalam teks aturan, pemisahan, atau rumus dalam simpul saat ini.
ARTXP: Untuk informasi selengkapnya, lihat Memahami Pohon ARTXP.
ARIMA: Untuk informasi selengkapnya, lihat Memahami Pohon ARIMA.
NODE_RULE
Deskripsi XML tentang aturan, pemisahan, atau rumus dalam simpul saat ini.
ARTXP: NODE_RULE umumnya sesuai dengan NODE_CAPTION.
ARIMA: Untuk informasi selengkapnya, lihat Memahami Pohon ARIMA.
MARGINAL_RULE
Deskripsi XML dari pemisahan atau konten yang khusus untuk simpul tersebut.
ARTXP: MARGINAL_RULE umumnya sesuai dengan NODE_DESCRIPTION.
ARIMA: Selalu kosong; gunakan NODE_RULE sebagai gantinya.
NODE_PROBABILITY
ARTXP: Untuk simpul pohon, selalu 1. Untuk simpul daun, probabilitas mencapai simpul dari simpul akar model.
ARIMA: Selalu 0.
MARGINAL_PROBABILITY
ARTXP: Untuk simpul pohon, selalu 1. Untuk simpul daun, probabilitas mencapai simpul dari simpul induk langsung.
ARIMA: Selalu 0.
NODE_DISTRIBUTION
Tabel yang berisi histogram probabilitas simpul. Dalam model rangkaian waktu, tabel berlapis ini berisi semua komponen yang diperlukan untuk merakit rumus regresi aktual.
Untuk informasi selengkapnya tentang tabel distribusi simpul di pohon ARTXP, lihat Memahami Pohon ARTXP.
Untuk informasi selengkapnya tentang tabel distribusi simpul di pohon ARIMA, lihat Memahami Pohon ARIMA.
Jika Anda ingin melihat semua konstanta dan komponen lain yang terdiri dari format yang dapat dibaca, gunakan Penampil Time Series, klik simpul, dan buka Legenda Penambangan.
NODE_SUPPORT
Jumlah kasus yang mendukung simpul ini.
ARTXP: Untuk simpul (Semua), menunjukkan jumlah total irisan waktu yang disertakan dalam cabang.
Untuk simpul terminal, menunjukkan jumlah irisan waktu yang disertakan dalam rentang yang dijelaskan oleh NODE_CAPTION. Jumlah irisan waktu dalam simpul terminal selalu menjumlahkan ke nilai NODE_SUPPORT simpul cabang (Semua).
ARIMA: Jumlah kasus yang mendukung struktur berkala saat ini. Nilai untuk dukungan diulang di semua simpul struktur berkala saat ini.
MSOLAP_MODEL_COLUMN
Atribut yang dapat diprediksi untuk seri data yang diwakili dalam simpul. (Nilai yang sama seperti untuk ATTRIBUTE_NAME.)
MSOLAP_NODE_SCORE
Nilai numerik yang mencirikan nilai informasi pohon atau pemisahan.
ARTXP: Nilai selalu 0,0 untuk simpul tanpa pemisahan. Untuk simpul dengan pemisahan, nilai mewakili skor keterarikan dari pemisahan.
Untuk informasi selengkapnya tentang metode penilaian, lihat Pemilihan Fitur (Penggalian Data).
ARIMA: Skor Bayesian Information Criterion (BIC) dari model ARIMA. Skor yang sama diatur pada semua simpul ARIMA yang terkait dengan persamaan.
MSOLAP_NODE_SHORT_CAPTION
ARTXP: Informasi yang sama dengan NODE_DESCRIPTION.
ARIMA: Informasi yang sama dengan NODE_CAPTION: yaitu, bentuk pendek dari persamaan ARIMA.
Memahami Pohon ARTXP
Model ARTXP dengan jelas memisahkan area data yang linier dari area data yang dibagi pada beberapa faktor lain. Di mana pun perubahan dalam atribut yang dapat diprediksi dapat langsung direpresentasikan sebagai fungsi variabel independen, rumus regresi dihitung untuk mewakili hubungan tersebut
Misalnya, jika ada korelasi langsung antara waktu dan penjualan untuk sebagian besar seri data, setiap seri akan terkandung dalam pohon rangkaian waktu (NODE_TYPE =16) yang tidak memiliki simpul anak untuk setiap seri data, hanya persamaan regresi. Namun, jika hubungannya tidak linier, pohon rangkaian waktu ARTXP dapat dibagi pada kondisi menjadi simpul anak, sama seperti model pohon keputusan. Dengan melihat konten model di Penampil Pohon Konten Generik Microsoft , Anda dapat melihat di mana pemisahan terjadi, dan bagaimana hal itu memengaruhi garis tren.
Untuk lebih memahami perilaku ini, Anda dapat meninjau model rangkaian waktu yang dibuat dalam Tutorial Penggalian Data Dasar. Model ini, berdasarkan gudang data AdventureWorks, tidak menggunakan data yang sangat kompleks. Oleh karena itu, tidak banyak pemisahan di pohon ARTXP. Namun, bahkan model yang relatif sederhana ini menggambarkan tiga jenis pemisahan yang berbeda:
Garis tren [Jumlah] untuk wilayah Pasifik dibagi pada kunci waktu. Pemisahan pada kunci waktu berarti bahwa ada perubahan tren pada titik waktu tertentu. Garis tren hanya linier hingga titik tertentu, dan kemudian kurva mengasumsikan bentuk yang berbeda. Misalnya, satu rangkaian waktu mungkin berlanjut hingga 6 Agustus 2002, dan rangkaian waktu lain dimulai setelah tanggal tersebut.
Garis tren [Jumlah] untuk wilayah Amerika Utara dibagi pada variabel lain. Dalam hal ini, tren untuk pemisahan Amerika Utara berdasarkan nilai untuk model yang sama di wilayah Eropa. Dengan kata lain, algoritma mendeteksi bahwa ketika nilai untuk Eropa berubah, nilai untuk Amerika Utara A juga berubah.
Garis tren untuk wilayah Eropa terbagi dengan sendirinya.
Apa arti setiap pemisahan? Menafsirkan informasi yang disampaikan oleh konten model adalah seni yang membutuhkan pemahaman mendalam tentang data dan maknanya dalam konteks bisnis.
Hubungan yang jelas antara tren untuk wilayah Amerika Utara dan Eropa mungkin hanya menandakan bahwa seri data untuk Eropa memiliki lebih banyak entropi, yang menyebabkan tren bagi Amerika Utara tampak lebih lemah. Atau, mungkin tidak ada perbedaan signifikan dalam penilaian untuk keduanya, dan korelasinya bisa tidak disengaja, hanya berdasarkan komputasi Eropa sebelum menghitung Amerika Utara. Namun, Anda mungkin ingin meninjau data dan memastikan apakah korelasinya salah, atau menyelidiki untuk melihat apakah beberapa faktor lain mungkin terlibat.
Pemisahan pada kunci waktu berarti bahwa ada perubahan yang signifikan secara statistik dalam gradien garis. Ini mungkin disebabkan oleh faktor matematika seperti dukungan untuk setiap rentang, atau perhitungan entropi yang diperlukan untuk pemisahan. Dengan demikian, pemisahan ini mungkin tidak menarik dalam hal arti model di dunia nyata. Namun, ketika Anda meninjau periode waktu yang ditunjukkan dalam pemisahan, Anda mungkin menemukan korelasi menarik yang tidak diwakili dalam data, promosi penjualan atau acara lain yang dimulai pada saat itu dan yang mungkin telah memengaruhi data.
Jika data berisi atribut lain, Kemungkinan besar Anda akan melihat contoh percabangan yang lebih menarik di pohon. Misalnya, jika Anda melacak informasi cuaca dan menggunakannya sebagai atribut untuk analisis, Anda mungkin melihat beberapa pemisahan di pohon yang mewakili interaksi kompleks penjualan dan cuaca.
Singkatnya, penambangan data berguna untuk memberikan petunjuk tentang di mana fenomena yang berpotensi menarik terjadi, tetapi penyelidikan lebih lanjut dan keahlian pengguna bisnis diperlukan untuk secara akurat menafsirkan nilai informasi dalam konteks.
Elemen Rumus Rangkaian Waktu ARTXP
Untuk melihat rumus lengkap untuk pohon atau cabang ARTXP, kami sarankan Anda menggunakan Legenda PenambanganPenampil Microsoft Time Series, yang menyajikan semua konstanta dalam format yang dapat dibaca.
Bagian berikut menyajikan persamaan sampel dan menjelaskan istilah dasar.
Legenda Penggalian untuk Rumus ARTXP
Contoh berikut menunjukkan rumus ARTXP untuk satu bagian model, seperti yang ditampilkan dalam Legenda Penambangan. Untuk melihat rumus ini, buka model [Prakiraan] yang Anda buat di Tutorial Penggalian Data Dasar di penampil Microsoft Time Series, klik tab Model , dan pilih pohon untuk seri data R250: Eropa.
Untuk melihat persamaan yang digunakan untuk contoh ini, klik simpul yang mewakili seri tanggal pada atau setelah 5/7/2003.
Contoh persamaan simpul pohon:
Quantity = 21.322 -0.293 * Quantity(R250 North America,-7) + 0.069 * Quantity(R250 Europe,-1) + 0.023 * Quantity(R250 Europe,-3) -0.142 * Quantity(R750 Europe,-8)
Dalam hal ini, nilai 21,322 mewakili nilai yang diprediksi untuk Kuantitas sebagai fungsi dari elemen-elemen berikut dari persamaan.
Misalnya, satu elemen adalah Quantity(R250 North America,-7)
. Notasi ini berarti kuantitas untuk wilayah Amerika Utara pada t-7
, atau tujuh irisan waktu sebelum potongan waktu saat ini. Nilai untuk seri data ini dikalikan dengan koefisien -0,293. Koefisien untuk setiap elemen diturunkan selama proses pelatihan dan didasarkan pada tren dalam data.
Ada beberapa elemen dalam persamaan ini karena model telah menghitung bahwa kuantitas model R250 di wilayah Eropa bergantung pada nilai beberapa seri data lainnya.
Konten Model untuk Rumus ARTXP
Tabel berikut ini memperlihatkan informasi yang sama untuk rumus, menggunakan konten simpul yang relevan seperti yang ditampilkan di Penampil Pohon Konten Generik Microsoft (Penggalian Data).
ATTRIBUTE_NAME | ATTRIBUTE_VALUE | DUKUNGAN | PROBABILITAS | VARIANS | VALUETYPE |
---|---|---|---|---|---|
Kuantitas(R250 Eropa,y-intercept) | 21.3223433563772 | 11 | 0 | 1.65508795539661 | 11 (Intersepsi) |
Kuantitas(R250 Eropa,-1) | 0.0691694140876526 | 0 | 0 | 0 | 7 (Koefisien) |
Kuantitas(R250 Eropa,-1) | 20.6363635858123 | 0 | 0 | 182.380682874818 | 9 (Statistik) |
Kuantitas(R750 Eropa,-8) | -0.1421203048299 | 0 | 0 | 0 | 7 (Koefisien) |
Kuantitas(R750 Eropa,-8) | 22.5454545333019 | 0 | 0 | 104.362130048408 | 9 (Statistik) |
Kuantitas(R250 Eropa,-3) | 0.0234095979448281 | 0 | 0 | 0 | 7 (Koefisien) |
Kuantitas(R250 Eropa,-3) | 24.8181818883176 | 0 | 0 | 176.475304989169 | 9 (Statistik) |
Kuantitas(R250 Amerika Utara,-7) | -0.292914186039869 | 0 | 0 | 0 | 7 (Koefisien) |
Kuantitas(R250 Amerika Utara,-7) | 10.36363640433 | 0 | 0 | 701.882534898676 | 9 (Statistik) |
Seperti yang Anda lihat dari membandingkan contoh-contoh ini, konten model penambangan berisi informasi yang sama yang tersedia di Legenda Penambangan, tetapi dengan kolom tambahan untuk varians dan dukungan. Nilai untuk dukungan menunjukkan jumlah kasus yang mendukung tren yang dijelaskan oleh persamaan ini.
Menggunakan Rumus Rangkaian Waktu ARTXP
Untuk sebagian besar pengguna bisnis, nilai konten model ARTXP adalah bahwa ia menggabungkan tampilan pohon dan representasi linier data.
Jika perubahan dalam atribut yang dapat diprediksi dapat direpresentasikan sebagai fungsi linier dari variabel independen, algoritma akan secara otomatis menghitung persamaan regresi dan output seri tersebut dalam simpul terpisah
Setiap kali hubungan tidak dapat dinyatakan sebagai korelasi linier, rangkaian waktu bercabang seperti pohon keputusan.
Dengan menelusuri konten model di Penampil Microsoft Time Series , Anda dapat melihat di mana pemisahan terjadi, dan pengaruhnya terhadap garis tren.
Jika korelasi langsung ada antara waktu dan penjualan untuk bagian mana pun dari seri data, cara termampu untuk mendapatkan rumus adalah dengan menyalin rumus dari Legenda Penambangan, lalu menempelkannya ke dalam dokumen atau presentasi untuk membantu menjelaskan model. Atau, Anda dapat mengekstrak rata-rata, koefisien, dan informasi lain dari tabel NODE_DISTRIBUTION untuk pohon itu dan menggunakannya untuk menghitung ekstensi tren. Jika seluruh seri menunjukkan hubungan linier yang konsisten, persamaan terkandung dalam simpul (Semua). Jika ada percabangan di pohon, persamaan terkandung dalam simpul daun.
Kueri berikut mengembalikan semua simpul daun ARTXP dari model penambangan, bersama dengan tabel berlapis, NODE_DISTRIBUTION, yang berisi persamaan.
SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_NAME,
NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [VARIANCE], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM Forecasting.CONTENT
WHERE NODE_TYPE = 15
Memahami Pohon ARIMA
Setiap struktur dalam model ARIMA sesuai dengan struktur berkala atau berkala. Struktur berkala adalah pola data yang berulang di seluruh seri data. Beberapa variasi kecil dalam pola diizinkan, dalam batas statistik. Periodisitas diukur sesuai dengan unit waktu default yang digunakan dalam data pelatihan. Misalnya, jika data pelatihan menyediakan data penjualan untuk setiap hari, unit waktu default adalah satu hari, dan semua struktur berkala didefinisikan sebagai jumlah hari yang ditentukan.
Setiap periode yang terdeteksi oleh algoritma mendapatkan simpul strukturnya sendiri. Misalnya, jika Anda menganalisis data penjualan harian, model mungkin mendeteksi struktur berkala yang mewakili minggu. Dalam hal ini, algoritma akan membuat dua struktur berkala dalam model jadi: satu untuk periode harian default, ditandai sebagai {1}, dan satu untuk minggu, yang ditunjukkan oleh {7}.
Misalnya, kueri berikut mengembalikan semua struktur ARIMA dari model penambangan.
SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_NAME, NODE_CAPTION
FROM Forecasting.CONTENT
WHERE NODE_TYPE = 27
Contoh hasil:
MODEL_NAME | ATTRIBUTE_NAME | NODE_NAME | NODE_TYPE | NODE_CAPTION |
---|---|---|---|---|
Prakiraan | M200 Eropa:Kuantitas | TA00000000 | 27 | ARIMA (1,0,1) |
Prakiraan | M200 Amerika Utara:Kuantitas | TA00000001 | 27 | ARIMA (1,0,4) X (1,1,4)(6) |
Prakiraan | M200 Pacific:Quantity | TA00000002 | 27 | ARIMA (2,0,8) X (1,0,0)(4) |
Prakiraan | M200 Pacific:Quantity | TA00000002 | 27 | ARIMA (2,0,8) X (1,0,0)(4) |
Prakiraan | R250 Eropa:Kuantitas | TA00000003 | 27 | ARIMA (1,0,7) |
Prakiraan | R250 Amerika Utara:Kuantitas | TA00000004 | 27 | ARIMA (1,0,2) |
Prakiraan | R250 Pacific:Quantity | TA00000005 | 27 | ARIMA (2,0,2) X (1,1,2)(12) |
Prakiraan | R750 Eropa:Kuantitas | TA00000006 | 27 | ARIMA (2,1,1) X (1,1,5)(6) |
Prakiraan | T1000 Eropa:Kuantitas | TA00000009 | 27 | ARIMA (1,0,1) |
Prakiraan | T1000 Amerika Utara:Kuantitas | TA0000000a | 27 | ARIMA (1,1,1) |
Prakiraan | T1'000 Pasifik:Kuantitas | TA0000000b | 27 | ARIMA (1,0,3) |
Dari hasil ini, yang juga dapat Anda telusuri dengan menggunakan Penampil Pohon Konten Generik Microsoft (Penggalian Data), Anda dapat mengetahui sekilas seri mana yang benar-benar linier, yang memiliki beberapa struktur berkala, dan berapa periode yang ditemukan.
Misalnya, bentuk singkat dari Persamaan ARIMA untuk seri M200 Eropa memberi tahu Anda bahwa hanya siklus default, atau harian yang terdeteksi. Bentuk pendek persamaan disediakan di kolom NODE_CAPTION.
Namun, untuk seri Amerika Utara M200, struktur berkala tambahan ditemukan. Simpul TA00000001 memiliki dua simpul anak, satu dengan persamaan, (1,0,4), dan satu dengan persamaan, (1,1,4)(6). Persamaan ini digabungkan dan disajikan dalam simpul induk.
Untuk setiap struktur berkala, konten model juga menyediakan urutan dan rata-rata bergerak sebagai simpul anak. Misalnya, kueri berikut mengambil simpul anak dari salah satu simpul yang tercantum dalam contoh sebelumnya. Perhatikan bahwa kolom, PARENT_UNIQUE_NAME, harus diapit dalam tanda kurung siku untuk membedakannya dari kata kunci yang dipesan dengan nama yang sama.
SELECT *
FROM Forecasting.CONTENT
WHERE [PARENT_UNIQUE_NAME] = ' TA00000001'
Karena ini adalah pohon ARIMA, bukan pohon ARTXP, Anda tidak dapat menggunakan fungsi IsDescendant (DMX) untuk mengembalikan simpul anak dari struktur berkala ini. Sebagai gantinya, Anda dapat menggunakan jenis atribut dan node untuk memfilter hasil dan mengembalikan simpul anak yang memberikan detail lebih lanjut tentang bagaimana persamaan dibangun, termasuk rata-rata bergerak dan urutan perbedaan.
SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_UNIQUE_NAME,
NODE_TYPE, NODE_CAPTION
FROM Forecasting.CONTENT
WHERE [MSOLAP_MODEL_COLUMN] ='M200 North America:Quantity'
AND (NODE_TYPE = 29 or NODE_TYPE = 30)
Contoh hasil:
MODEL_NAME | ATTRIBUTE_NAME | NODE_UNIQUE_NAME | NODE_TYPE | NODE_CAPTION |
---|---|---|---|---|
Prakiraan | M200 Amerika Utara:Kuantitas | TA00000001000000010 | 29 | ARIMA {1,0,961832044807041} |
Prakiraan | M200 Amerika Utara:Kuantitas | TA00000001000000011 | 30 | ARIMA {1,-3.51073103693271E-02,2.15731642954099,-0.220314343327742,-1.33151478258758} |
Prakiraan | M200 Amerika Utara:Kuantitas | TA00000001000000000 | 29 | ARIMA {1,0.643565911081657} |
Prakiraan | M200 Amerika Utara:Kuantitas | TA00000001000000001 | 30 | ARIMA {1,1.45035399809581E-02,-4.40489283927752E-02,-0.19203901352577,0.242202497643993} |
Contoh-contoh ini menggambarkan bahwa semakin lanjut Anda menelusuri paling detail ke pohon ARIMA, semakin detail terungkap, tetapi informasi penting juga digabungkan dan disajikan dalam simpul induk.
Rumus Rangkaian Waktu untuk ARIMA
Untuk melihat rumus lengkap untuk simpul ARIMA apa pun, kami sarankan Anda menggunakan Legenda Penambangan Dari Penampil Microsoft Time Series, yang menyajikan urutan regresif otomatis, rata-rata bergerak, dan elemen lain dari persamaan yang sudah disusam dalam format yang konsisten.
Bagian ini menyajikan persamaan sampel dan menjelaskan istilah dasar.
Legenda Penggalian untuk Rumus ARIMA
Contoh berikut menunjukkan rumus ARIMA untuk satu bagian model, seperti yang ditampilkan di Legenda Penambangan. Untuk melihat rumus ini, buka model Prakiraan dengan menggunakan penampil Microsoft Time Series, klik tab Model , pilih pohon untuk seri data R250: Eropa , lalu klik simpul yang mewakili seri tanggal pada atau setelah 7/5/2003. Legenda penambangan menyusun semua konstanta dalam format yang dapat dibaca, yang ditunjukkan dalam contoh ini:
Persamaan ARIMA:
ARIMA ({1,1},0,{1,1.49791920964142,1.10640053499397,0.888873034670339,-5.05429403071953E-02,-0.905265316720334,-0.961908900643379,-0.649991020901922}) Intercept:56.8888888888889
Persamaan ini adalah format ARIMA panjang, yang mencakup nilai koefisien dan intersepsi. Format singkat untuk persamaan ini adalah {1,0,7}, di mana 1 menunjukkan periode sebagai hitungan irisan waktu, 0 menunjukkan urutan perbedaan istilah, dan 7 menunjukkan jumlah koefisien.
Catatan
Konstanta dihitung oleh Analysis Services untuk varian komputasi, tetapi konstanta itu sendiri tidak ditampilkan di mana pun di antarmuka pengguna. Namun, Anda dapat melihat varians untuk titik mana pun dalam seri sebagai fungsi konstanta ini jika Anda memilih Perlihatkan Penyimpangan, dalam tampilan Bagan . TipsAlat untuk setiap seri data menunjukkan varians untuk titik tertentu yang diprediksi.
Konten Model untuk Rumus ARIMA
Model ARIMA mengikuti struktur standar, dengan informasi berbeda yang terkandung dalam simpul dari berbagai jenis. Untuk melihat konten model untuk model ARIMA, ubah penampil ke Penampil Pohon Konten Generik Microsoft, lalu perluas simpul yang memiliki nama atribut, R250 Eropa: Kuantitas.
Model ARIMA untuk seri data berisi persamaan berkala dasar dalam empat format berbeda, yang dapat Anda pilih tergantung pada aplikasi.
NODE_CAPTION: Menampilkan format pendek persamaan. Format singkat memberi tahu Anda berapa banyak struktur berkala yang diwakili, dan berapa banyak koefisien yang mereka miliki. Misalnya, jika format pendek persamaan adalah {4,0,6}
, simpul mewakili satu struktur berkala dengan 6 koefisien. Jika format pendeknya seperti {2,0,8} x {1,0,0}(4)
, simpul berisi dua struktur berkala.
DESKRIPSI SIMPUL: Menampilkan format panjang persamaan, yang juga merupakan bentuk persamaan yang muncul di Legenda Penambangan. Bentuk panjang persamaan mirip dengan bentuk pendek, kecuali bahwa nilai aktual koefisien ditampilkan alih-alih dihitung.
NODE_RULE: Menampilkan representasi XML dari persamaan. Bergantung pada jenis node, representasi XML dapat menyertakan struktur tunggal atau beberapa berkala. Tabel berikut ini menggambarkan bagaimana simpul XML digulung ke tingkat model ARIMA yang lebih tinggi.
Jenis Node | Konten XML |
---|---|
27 (Akar ARIMA) | Mencakup semua struktur berkala untuk seri data, dan konten semua simpul anak untuk setiap struktur berkala. |
28 (Struktur Berkala ARIMA) | Mendefinisikan struktur berkala tunggal, termasuk node istilah regresif otomatis dan koefisien rata-rata bergeraknya. |
29 (ARIMA Autoregressive) | Mencantumkan istilah untuk struktur berkala tunggal. |
30 (Rata-rata Pergerakan ARIMA) | Mencantumkan koefisien untuk struktur berkala tunggal. |
NODE_DISTRIBUTION: Menampilkan istilah persamaan dalam tabel berlapis, yang bisa Anda kueri untuk mendapatkan istilah tertentu. Tabel distribusi simpul mengikuti struktur hierarkis yang sama dengan aturan XML. Artinya, simpul akar seri ARIMA (NODE_TYPE = 27) berisi nilai intersepsi dan periodikota untuk persamaan lengkap, yang dapat mencakup beberapa periode, sedangkan simpul anak hanya berisi informasi khusus untuk struktur berkala tertentu atau ke simpul anak dari struktur berkala tersebut.
Jenis Node | Atribut | Jenis nilai |
---|---|---|
27 (Akar ARIMA) | Mencegat Periodisitas |
11 |
28 (Struktur Berkala ARIMA) | Periodisitas Urutan Regresif Otomatis Urutan perbedaan Urutan rata-rata bergerak |
12 13 15 14 |
29 (ARIMA Autoregressive) | Koefisien (pelengkap koefisien) |
7 |
30 (Rata-rata Pergerakan ARIMA) | Nilai pada t Nilai pada t-1 ... Nilai pada t-n |
7 |
Nilai untuk urutan rata-rata bergerak menunjukkan jumlah rata-rata pergerakan dalam seri. Umumnya rata-rata bergerak dihitung n-1
kali jika ada n
istilah dalam seri, tetapi jumlahnya dapat dikurangi untuk komputasi yang lebih mudah.
Nilai untuk urutan regresif otomatis menunjukkan jumlah seri regresif otomatis.
Nilai untuk urutan perbedaan menunjukkan berapa kali seri dibandingkan, atau berbeda.
Untuk enumerasi jenis nilai yang mungkin, lihat Microsoft.AnalysisServices.AdomdServer.MiningValueType.
Menggunakan Informasi Pohon ARIMA
Jika Anda menggunakan prediksi yang didasarkan pada algoritma ARIMA dalam solusi bisnis, Anda mungkin ingin menempelkan persamaan ke dalam laporan untuk menunjukkan metode yang digunakan untuk membuat prediksi. Anda bisa menggunakan caption untuk menyajikan rumus dalam format pendek, atau deskripsi untuk menyajikan rumus dalam format panjang.
Jika Anda mengembangkan aplikasi yang menggunakan prediksi rangkaian waktu, Anda mungkin merasa berguna untuk mendapatkan persamaan ARIMA dari konten model dan kemudian membuat prediksi Anda sendiri. Untuk mendapatkan persamaan ARIMA untuk output tertentu, Anda dapat mengkueri akar ARIMA untuk atribut tertentu secara langsung, seperti yang ditunjukkan pada contoh sebelumnya.
Jika Anda mengetahui ID simpul yang berisi seri yang Anda inginkan, Anda memiliki dua opsi untuk mengambil komponen persamaan:
Format tabel berlapis: Gunakan kueri atau kueri DMX melalui klien OLEDB.
Representasi XML: Gunakan kueri XML.
Keterangan
Mungkin sulit untuk mengambil informasi dari pohon ARTXP, karena informasi untuk setiap pemisahan berada di tempat yang berbeda di dalam pohon. Oleh karena itu, dengan model ARTXP, Anda harus mendapatkan semua bagian dan kemudian melakukan beberapa pemrosesan untuk menyusun ulang rumus lengkap. Mengambil persamaan dari model ARIMA lebih mudah karena rumus telah tersedia di seluruh pohon. Untuk informasi tentang cara membuat kueri untuk mengambil informasi ini, lihat Contoh Kueri Model Deret Waktu.
Lihat juga
Konten Model Penambangan (Analysis Services - Penggalian Data)
Algoritma Microsoft Time Series
Contoh Kueri Model Deret Waktu
Referensi Teknis Algoritma Microsoft Time Series