Bagikan melalui


Impor dari Azure Table

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Artikel ini menjelaskan cara menggunakan modul Impor Data di Pembelajaran Mesin Studio (klasik), untuk mengimpor data terstruktur atau semi-terstruktur dari tabel Azure ke dalam eksperimen pembelajaran mesin.

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Layanan tabel Azure adalah layanan manajemen data di Azure yang dapat menyimpan sejumlah besar data terstruktur dan non-relasional. Ini adalah penyimpanan data NoSQL yang menerima panggilan yang diautentikasi dari dalam dan luar Azure.

Mengimpor dari penyimpanan tabel Azure mengharuskan Anda memilih salah satu dari dua jenis akun: akun penyimpanan yang dapat diakses dengan menggunakan URL SAS, atau akun penyimpanan pribadi yang memerlukan kredensial login.

Cara mengimpor data dari tabel Azure

Menggunakan Panduan Impor Data

Modul ini menampilkan panduan baru untuk membantu Anda memilih opsi penyimpanan, memilih dari antara langganan dan akun yang ada, dan dengan cepat mengonfigurasi semua opsi.

  1. Tambahkan modul Impor Data ke eksperimen Anda. Anda dapat menemukan modul di bawah Input dan Output Data.

  2. Klik Luncurkan Panduan Data Impor dan ikuti petunjuknya.

  3. Ketika konfigurasi selesai, untuk benar-benar menyalin data ke dalam eksperimen Anda, klik kanan modul, dan pilih Jalankan Dipilih.

Jika Anda perlu mengedit koneksi data yang ada, wizard memuat semua detail konfigurasi sebelumnya sehingga Anda tidak perlu memulai lagi dari awal

Mengatur properti secara manual dalam modul Impor Data

Langkah-langkah berikut menjelaskan cara mengonfigurasi sumber impor secara manual.

  1. Tambahkan modul Impor Data ke eksperimen Anda. Anda dapat menemukan modul ini di grup Input dan Output Data dalam daftar item eksperimen di Pembelajaran Mesin Studio (klasik).

  2. Untuk Sumber data, pilih Azure Table.

  3. Untuk Jenis Autentikasi, pilih Publik (URL SAS) jika Anda tahu bahwa informasi telah disediakan sebagai sumber data publik. URL SAS adalah URL akses terikat waktu yang dapat Anda hasilkan dengan menggunakan utilitas penyimpanan Azure.

    Jika tidak, pilih Akun.

  4. Jika data Anda berada dalam blob publik yang dapat diakses dengan menggunakan URL SAS, Anda tidak memerlukan kredensial tambahan karena string URL berisi semua informasi yang diperlukan untuk diunduh dan diadutenting.

    Di bidang Tabel SAS URI , ketik atau tempelkan URI penuh yang menentukan akun dan blob publik.

    Catatan

    Dalam halaman yang dapat diakses melalui URL SAS, data hanya dapat disimpan hanya dengan menggunakan format ini: CSV, TSV, dan ARFF.

  5. Jika data Anda berada di akun pribadi , Anda harus memberikan kredensial termasuk nama akun dan kuncinya.

    • Untuk Nama akun Tabel, ketik atau tempel nama akun yang berisi blob yang ingin Anda akses.

      Misalnya, jika URL lengkap akun penyimpanan adalah https://myshared.table.core.windows.net, Anda akan mengetik myshared.

    • Untuk Kunci akun Tabel, tempelkan kunci akses yang terkait dengan akun penyimpanan.\

      Jika Anda tidak mengetahui kunci akses, lihat bagian, "Lihat, salin, dan regenerasi kunci akses penyimpanan" di artikel ini: Tentang Akun Azure Storage.

    • Untuk Nama tabel, ketik nama tabel tertentu yang ingin Anda baca.

  6. Pilih opsi yang menunjukkan berapa banyak baris yang harus dipindai oleh Data Impor . Impor Data menggunakan pemindaian untuk mendapatkan daftar kolom dalam data, dan untuk menentukan apa yang seharusnya menjadi tipe data kolom.

    • TopN: Pindai hanya jumlah baris yang ditentukan, mulai dari bagian atas himpunan data.

      Secara default, 10 baris dipindai, tetapi Anda dapat menambah atau mengurangi nilai tersebut dengan menggunakan jumlah Baris untuk opsi TopN .

      Jika data homogen dan dapat diprediksi, pilih TopN dan masukkan angka untuk N. Untuk tabel besar, ini dapat menghasilkan waktu membaca yang lebih cepat.

    • ScanAll: Pindai semua baris dalam tabel.

      Jika data disusun dengan kumpulan properti yang bervariasi berdasarkan kedalaman dan posisi tabel, pilih opsi ScanAll untuk memindai semua baris. Ini memastikan integritas properti yang Anda hasilkan dan konversi metadata.

  7. Tunjukkan apakah Anda ingin data disegarkan setiap kali eksperimen dijalankan. Jika Anda memilih opsi Gunakan hasil cache (default) modul Impor Data akan membaca data dari sumber yang ditentukan saat pertama kali percobaan dijalankan, dan setelah itu menyimpan hasilnya. Jika ada perubahan pada parameter modul Impor Data , data dimuat ulang.

    Jika Anda membatalkan pilihan opsi ini, data akan dibaca dari sumber setiap kali percobaan dijalankan, terlepas dari apakah datanya sama atau tidak.

Contoh

Untuk contoh cara menggunakan modul Ekspor Data , lihat Galeri AI Azure.

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

Pertanyaan umum

Bagaimana cara menghindari memuat ulang data yang sama secara tidak perlu?

Jika data sumber berubah, Anda dapat me-refresh himpunan data dan menambahkan data baru dengan menjalankan kembali Impor Data. Namun, jika Anda tidak ingin membaca ulang dari sumber setiap kali Anda menjalankan eksperimen, pilih opsi Gunakan hasil yang di-cache ke TRUE. Ketika opsi ini diatur ke TRUE, modul memeriksa apakah eksperimen telah berjalan sebelumnya menggunakan sumber yang sama dan opsi input yang sama, dan jika run sebelumnya ditemukan, data dalam cache digunakan, alih-alih memuat ulang data dari sumber.

Bisakah saya memfilter data saat sedang dibaca dari sumbernya?

Modul Impor Data tidak mendukung pemfilteran saat data sedang dibaca. Pengecualiannya adalah membaca dari umpan data, yang terkadang memungkinkan Anda menentukan kondisi filter sebagai bagian dari URL feed.

Namun, Anda dapat mengubah atau memfilter data setelah membacanya menjadi Pembelajaran Mesin Studio (klasik):

  • Gunakan skrip R kustom untuk mengubah atau memfilter data.
  • Gunakan modul Pisahkan Data dengan ekspresi relatif atau ekspresi reguler untuk mengisolasi data yang Anda inginkan, lalu simpan sebagai himpunan data.

Catatan

Jika Anda menemukan bahwa Anda telah memuat lebih banyak data daripada yang Anda butuhkan, Anda dapat menimpa himpunan data yang di-cache dengan membaca himpunan data baru, dan menyimpannya dengan nama yang sama dengan data yang lebih lama dan lebih besar.

Bagaimana Data Impor menangani data yang dimuat dari berbagai wilayah geografis?

Jika blob atau akun penyimpanan tabel berada di wilayah yang berbeda dari simpul komputasi yang digunakan untuk eksperimen pembelajaran mesin, akses data mungkin lebih lambat. Selanjutnya, Anda dikenakan biaya untuk masuknya data dan keluar pada langganan.

Mengapa beberapa karakter dalam tabel saya tidak ditampilkan dengan benar?

Pembelajaran Mesin mendukung pengkodean UTF-8. Jika tabel Anda menggunakan pengkodean lain, karakter mungkin tidak diimpor dengan benar.

Apakah ada karakter atau karakter terlarang yang diubah selama impor?

Jika data atribut berisi tanda kutip atau urutan karakter yang lolos, data tersebut ditangani dengan menggunakan aturan untuk karakter tersebut dalam Microsoft Excel. Semua karakter lain ditangani dengan menggunakan spesifikasi berikut sebagai pedoman: RFC 4180.

Parameter modul

Nama Rentang Jenis Default Default
Sumber data Daftar Sumber data atau sink Azure Blob Storage Sumber data dapat berupa HTTP, FTP, HTTPS anonim atau FTPS, file di penyimpanan Azure BLOB, tabel Azure, Azure SQL Database, database SQL Server lokal, tabel Hive, atau titik akhir OData.
Jenis autentikasi PublicOrSas

Akun
tableAuthType Akun Tentukan apakah data berada dalam wadah publik yang dapat diakses melalui URL SAS, atau berada di akun penyimpanan pribadi yang memerlukan autentikasi untuk akses.

Publik atau SAS - Opsi penyimpanan publik

Nama Rentang Jenis Default Deskripsi
Tabel URI apa pun String
Baris untuk memindai nama properti melalui SAS integer
Jumlah baris untuk TopN melalui SAS

Akun - Opsi penyimpanan pribadi

Nama Rentang Jenis Default Deskripsi
Nama akun tabel
Kunci akun tabel apa pun SecureString
Nama tabel apa pun
Baris untuk memindai nama properti TopN

ScanAll
Jumlah baris untuk TopN apa pun integer

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Himpunan data dengan data yang diunduh

Pengecualian

Pengecualian Deskripsi
Kesalahan 0027 Pengecualian terjadi ketika dua objek harus berukuran sama, tetapi tidak.
Kesalahan 0003 Pengecualian terjadi jika satu atau lebih input null atau kosong.
Kesalahan 0029 Pengecualian terjadi ketika URI yang tidak valid dilewatkan.
Kesalahan 0030 pengecualian terjadi ketika tidak mungkin mengunduh file.
Kesalahan 0002 Pengecualian terjadi jika satu atau beberapa parameter tidak dapat diurai atau dikonversi dari tipe yang ditentukan ke jenis yang diperlukan oleh metode target.
Kesalahan 0009 Pengecualian terjadi jika nama akun penyimpanan Azure atau nama kontainer ditentukan secara tidak benar.
Kesalahan 0048 Pengecualian terjadi ketika tidak mungkin untuk membuka file.
Kesalahan 0046 Pengecualian terjadi ketika tidak mungkin membuat direktori pada jalur tertentu.
Kesalahan 0049 Pengecualian terjadi ketika tidak mungkin mengurai file.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Mengimpor data
Mengekspor data
Mengimpor dari URL Web melalui HTTP
Impor dari Hive Query
Impor dari Azure SQL Database
Impor dari Azure Blob Storage
Impor dari Penyedia Umpan Data
Impor dari Database SQL Server Lokal