Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Berlaku untuk: SQL Server 2016 (13.x) dan versi yang lebih baru
Ini adalah tutorial 13 dari seri tutorial RevoScaleR tentang cara menggunakan fungsi RevoScaleR dengan SQL Server.
Dalam tutorial ini, Anda akan mempelajari cara menggunakan file XDF untuk mentransfer data antara konteks komputasi jarak jauh dan lokal. Menyimpan data dalam file XDF memungkinkan Anda melakukan transformasi pada data.
Setelah selesai, Anda menggunakan data dalam file untuk membuat tabel SQL Server baru. Fungsi rxDataStep dapat menerapkan transformasi ke data dan melakukan konversi antara bingkai data dan file .xdf.
Membuat tabel SQL Server dari file XDF
Untuk latihan ini, Anda menggunakan data penipuan kartu kredit lagi. Dalam skenario ini, Anda telah diminta untuk melakukan beberapa analisis tambahan pada pengguna di negara bagian California, Oregon, dan Washington. Agar lebih efisien, Anda telah memutuskan untuk menyimpan data hanya untuk status ini di komputer lokal Anda, dan hanya bekerja dengan variabel jenis kelamin, pemegang kartu, status, dan keseimbangan.
Gunakan kembali variabel yang
stateAbbAnda buat sebelumnya untuk mengidentifikasi tingkat yang akan disertakan, dan tulis ke variabel baru,statesToKeep.statesToKeep <- sapply(c("CA", "OR", "WA"), grep, stateAbb) statesToKeepHasil
OS ATAU WA 5 38 48 Tentukan data yang ingin Anda bawa dari SQL Server, menggunakan kueri Transact-SQL. Kemudian Anda menggunakan variabel ini sebagai argumen inData untuk rxImport.
importQuery <- paste("SELECT gender,cardholder,balance,state FROM", sqlFraudTable, "WHERE (state = 5 OR state = 38 OR state = 48)")Pastikan tidak ada karakter tersembunyi seperti umpan baris atau tab dalam kueri.
Selanjutnya, tentukan kolom yang akan digunakan saat bekerja dengan data di R. Misalnya, dalam himpunan data yang lebih kecil, Anda hanya memerlukan tiga tingkat faktor, karena kueri mengembalikan data hanya untuk tiga status. Terapkan
statesToKeepvariabel untuk mengidentifikasi tingkat yang benar untuk disertakan.importColInfo <- list( gender = list( type = "factor", levels = c("1", "2"), newLevels = c("Male", "Female")), cardholder = list( type = "factor", levels = c("1", "2"), newLevels = c("Principal", "Secondary")), state = list( type = "factor", levels = as.character(statesToKeep), newLevels = names(statesToKeep)) )Atur konteks komputasi ke lokal, karena Anda ingin semua data tersedia di komputer lokal Anda.
rxSetComputeContext("local")Fungsi rxImport dapat mengimpor data dari sumber data yang didukung ke file XDF lokal. Menggunakan salinan lokal data nyaman ketika Anda ingin melakukan banyak analisis yang berbeda pada data, tetapi ingin menghindari menjalankan kueri yang sama berulang kali.
Buat objek sumber data dengan meneruskan variabel yang sebelumnya didefinisikan sebagai argumen ke RxSqlServerData.
sqlServerImportDS <- RxSqlServerData( connectionString = sqlConnString, sqlQuery = importQuery, colInfo = importColInfo)Panggil rxImport untuk menulis data ke file bernama
ccFraudSub.xdf, di direktori kerja saat ini.localDS <- rxImport(inData = sqlServerImportDS, outFile = "ccFraudSub.xdf", overwrite = TRUE)Objek
localDsyang dikembalikan oleh fungsi rxImport adalah objek sumber data RxXdfData ringan yang mewakiliccFraud.xdffile data yang disimpan secara lokal pada disk.Panggil rxGetVarInfo pada file XDF untuk memverifikasi bahwa skema data sama.
rxGetVarInfo(data = localDS)Hasil
rxGetVarInfo(data = localDS) Var 1: gender, Type: factor, no factor levels available Var 2: cardholder, Type: factor, no factor levels available Var 3: balance, Type: integer, Low/High: (0, 22463) Var 4: state, Type: factor, no factor levels availableAnda sekarang dapat memanggil berbagai fungsi R untuk menganalisis objek localD , seperti yang Anda lakukan dengan data sumber di SQL Server. Misalnya, Anda mungkin meringkas berdasarkan jenis kelamin:
rxSummary(~gender + cardholder + balance + state, data = localDS)
Langkah berikutnya
Tutorial ini menyimpulkan seri tutorial multi-bagian di RevoScaleR dan SQL Server. Ini memperkenalkan Anda ke banyak konsep terkait data dan komputasi, memberi Anda fondasi untuk bergerak maju dengan persyaratan data dan proyek Anda sendiri.
Untuk memperdalam pengetahuan Anda tentang RevoScaleR, Anda dapat kembali ke daftar tutorial R untuk menelusuri latihan apa pun yang mungkin Anda lewatkan. Atau, tinjau artikel Cara penggunaan dalam daftar isi untuk informasi tentang tugas umum.