Baca dalam bahasa Inggris

Bagikan melalui


Cara menambahkan dan mengelola data di proyek Azure AI Foundry Anda

Penting

Item yang ditandai (pratinjau) dalam artikel ini sedang dalam pratinjau publik. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan kami tidak merekomendasikannya untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Artikel ini menjelaskan cara membuat dan mengelola data di portal Azure AI Foundry. Data dapat digunakan sebagai sumber untuk pengindeksan di portal Azure AI Foundry.

Data dapat membantu saat Anda membutuhkan kemampuan ini:

  • Penerapan versi: Penerapan versi data didukung.
  • Reproduksi: Setelah Anda membuat versi data, versi tersebut tidak dapat diubah. Ini tidak dapat dimodifikasi atau dihapus. Oleh karena itu, pekerjaan atau alur aliran perintah yang mengonsumsi data dapat diperbanyak.
  • Auditabilitas: Karena versi data tidak dapat diubah, Anda dapat melacak versi aset, yang memperbarui versi, dan kapan pembaruan versi terjadi.
  • Silsilah data: Untuk data tertentu, Anda dapat melihat pekerjaan atau alur alur perintah mana yang menggunakan data.
  • Kemudahan penggunaan: Data Azure AI Foundry menyerupan bookmark browser web (favorit). Alih-alih mengingat jalur penyimpanan panjang yang mereferensikan data yang sering digunakan di Azure Storage, Anda dapat membuat versi data lalu mengakses versi aset tersebut dengan nama yang mudah diingat.

Prasyarat

Untuk membuat dan bekerja dengan data, Anda memerlukan:

  • Langganan Azure. Jika Anda tidak memilikinya, buat akun gratis.
  • Proyek AI Foundry.

Buat data

Saat membuat data, Anda perlu mengatur jenis data. AI Foundry mendukung jenis data ini:

Jenis Skenario Kanonis
file
Mereferensikan satu file
Baca satu file di Azure Storage (file dapat memiliki format apa pun).
folder
Mereferensikan folder
Baca folder file parket/CSV ke Pandas/Spark.

Membaca data yang tidak terstruktur (misalnya: gambar, teks, atau audio) yang terletak di folder.

Azure AI Foundry memperlihatkan jalur sumber yang didukung. Anda dapat membuat data dari folder atau file:

  • Jika Anda memilih jenis folder, Anda dapat memilih format URL folder. Azure AI Foundry memperlihatkan format URL folder yang didukung. Anda dapat membuat sumber daya data seperti yang ditunjukkan: Cuplikan layar format URL folder.

  • Jika Anda memilih jenis file, Anda dapat memilih format URL file. Format URL file yang didukung ditampilkan di portal Azure AI Foundry. Anda dapat membuat sumber daya data seperti yang ditunjukkan: Cuplikan layar format URL file.

Membuat data: Jenis file

Jenis sumber daya data file (uri_file) menunjuk ke satu file pada penyimpanan (misalnya, file CSV).

Langkah-langkah ini menjelaskan cara membuat data yang ditik file di portal Azure AI Foundry:

  1. Navigasi ke Azure AI Foundry.

  2. Pilih proyek tempat Anda ingin membuat data.

  3. Dari menu aset Saya yang dapat diciutkan di sebelah kiri, pilih Data + indeks, lalu pilih Data baru seperti yang ditunjukkan pada cuplikan layar ini:

    Cuplikan layar menyoroti Data Baru di tab Data.

  4. Pilih Sumber data Anda. Untuk memilih sumber data, Anda memiliki dua opsi.

    • Anda dapat memilih Dapatkan data dengan URL penyimpanan jika Anda memiliki URL langsung ke akun penyimpanan atau server HTTPS yang dapat diakses publik.

    • Anda dapat memilih Unggah file/folder untuk mengunggah folder dari drive lokal Anda.

      • Dapatkan data dengan URL Penyimpanan: Anda dapat memilih "File" sebagai Jenis, lalu menyediakan URL berdasarkan format URL yang didukung yang tercantum di halaman tersebut, seperti yang ditunjukkan pada cuplikan layar ini:

      Cuplikan layar ini memperlihatkan provisi URL yang menunjuk ke file.

      • Unggah file/folder: Anda dapat memilih Unggah file/folder, pilih Unggah file, dan pilih file lokal untuk diunggah. File diunggah ke koneksi "workspaceblobstore" default. Cuplikan layar ini menunjukkan cara mengunggah file.
    1. Pilih Berikutnya setelah Anda memilih sumber data.

    2. Masukkan nama kustom untuk data Anda, lalu pilih Buat.

    Cuplikan layar ini memperlihatkan langkah penamaan untuk sumber data.

Membuat data: Jenis folder

Jenis sumber data Folder (uri_folder) menunjuk ke folder pada sumber daya penyimpanan (misalnya, folder yang berisi beberapa subfolder gambar). Gunakan langkah-langkah ini untuk membuat sumber daya data jenis Folder di portal Azure AI Foundry:

  1. Navigasi ke Azure AI Foundry

  2. Pilih proyek tempat Anda ingin membuat data.

  3. Dari menu Komponen yang dapat diciutkan di sebelah kiri, pilih Data.

    Cuplikan layar menyoroti Data Baru di tab Data.

  4. Pilih Sumber data Anda. Untuk memilih sumber data, Anda memiliki dua opsi.

    1. Pilih Dapatkan data dengan URL Penyimpanan jika Anda memiliki URL langsung ke akun penyimpanan atau server HTTPS yang dapat diakses publik
    2. Pilih Unggah file/folder untuk mengunggah folder dari drive lokal Anda
    • Mendapatkan data dengan URL Penyimpanan: Anda dapat memilih Jenis sebagai "Folder", dan menyediakan URL berdasarkan format URL yang didukung yang tercantum di halaman tersebut.

      Cuplikan layar ini memperlihatkan langkah untuk menyediakan URL yang menunjuk ke folder.

    • Unggah file/folder: Anda dapat memilih Unggah file/folder, pilih Unggah folder, dan pilih file lokal untuk diunggah. Sumber daya file diunggah ke koneksi "workspaceblobstore" default.

      Cuplikan layar ini memperlihatkan cara mengunggah folder.

  5. Pilih Berikutnya setelah Anda memilih sumber data.

  6. Masukkan nama kustom untuk data Anda, lalu pilih Buat.

    Cuplikan layar penamaan data.

Mengelola data

Menghapus data

Penting

Penghapusan data tidak didukung. Data tidak dapat diubah di portal AI Foundry. Setelah Anda membuat versi data, versi tersebut tidak dapat dimodifikasi atau dihapus. Kekekalan ini memberikan tingkat perlindungan saat bekerja dalam tim yang membuat beban kerja produksi.

Jika AI Foundry mengizinkan penghapusan data, AI Foundry akan memiliki efek buruk berikut:

  • Pekerjaan produksi yang mengonsumsi data yang nantinya dihapus akan gagal.
  • Reproduksi eksperimen pembelajaran mesin akan menjadi lebih sulit.
  • Silsilah pekerjaan akan putus, karena tidak mungkin untuk melihat versi data yang dihapus.
  • Anda tidak dapat lagi melacak dan mengaudit dengan benar, karena versi bisa hilang.

Ketika sumber daya data dibuat secara keliru - misalnya, dengan nama, jenis, atau jalur yang salah - Azure AI menawarkan solusi untuk menangani situasi tanpa konsekuensi negatif dari penghapusan:

Alasan Anda mungkin ingin menghapus data Solusi
Nama salah Mengarsipkan data
Tim tidak lagi menggunakan data Mengarsipkan data
Ini mengacaukan daftar data Mengarsipkan data
Jalur salah Buat versi baru data (nama yang sama) dengan jalur yang benar. Untuk informasi selengkapnya, kunjungi Membuat data.
Ini memiliki jenis yang salah Saat ini, Azure AI tidak mengizinkan pembuatan versi baru dengan jenis yang berbeda dibandingkan dengan versi awal.
(1) Mengarsipkan data
(2) Buat data baru dengan nama yang berbeda dengan jenis yang benar.

Mengarsipkan data

Secara default, pengarsipan sumber daya data menyembunyikannya dari kedua kueri daftar (misalnya, di CLI az ml data list) dan daftar data di portal Azure AI Foundry. Anda masih dapat terus mereferensikan dan menggunakan sumber daya data yang diarsipkan di alur kerja Anda. Anda dapat mengarsipkan:

  • semua versi data dengan nama tertentu
  • versi data tertentu

Mengarsipkan semua versi data

Saat ini, Azure AI Foundry tidak mendukung pengarsipan semua versi sumber daya data dengan nama tertentu.

Mengarsipkan versi data tertentu

Saat ini, Azure AI Foundry tidak mendukung pengarsipan versi sumber daya data tertentu.

Memulihkan data yang diarsipkan

Anda dapat memulihkan sumber daya data yang diarsipkan. Jika semua versi data diarsipkan, Anda tidak dapat memulihkan versi data individual - Anda harus memulihkan semua versi.

Memulihkan semua versi data

Saat ini, Azure AI Foundry tidak mendukung pemulihan semua versi data dengan nama tertentu.

Memulihkan versi data tertentu

Penting

Jika semua versi data diarsipkan, Anda tidak dapat memulihkan versi data individual - Anda harus memulihkan semua versi.

Saat ini, Azure AI Foundry tidak mendukung pemulihan versi data tertentu.

Pemberian tag pada data

Penandaan data adalah metadata tambahan yang diterapkan ke data dalam bentuk pasangan kunci-nilai. Pemberian tag data menawarkan banyak manfaat:

  • Deskripsi kualitas data. Misalnya, jika organisasi Anda menggunakan arsitektur medallion lakehouse, Anda dapat menandai aset dengan medallion:bronze (mentah), medallion:silver (divalidasi) dan medallion:gold (diperkaya).
  • Menyediakan pencarian dan pemfilteran data yang efisien, untuk membantu penemuan data.
  • Membantu mengidentifikasi data pribadi sensitif, untuk mengelola dan mengatur akses data dengan benar. Contohnya,sensitivity:PII/sensitivity:nonPII.
  • Identifikasi apakah data disetujui, dari audit AI (RAI) yang bertanggung jawab. Contohnya,RAI_audit:approved/RAI_audit:todo.

Anda dapat menambahkan tag ke data yang sudah ada.

Pratinjau data

Anda dapat menelusuri struktur folder dan mempratinjau file di halaman Detail data. Kami mendukung pratinjau data untuk jenis berikut:

  • Jenis file data yang didukung melalui API pratinjau: ".tsv", ".csv", ".parquet", ".jsonl".
  • Jenis file lainnya, portal AI Foundry mencoba mempratinjau file di browser secara asli. Jenis file yang didukung mungkin bergantung pada browser itu sendiri. Biasanya untuk gambar, jenis gambar file ini didukung: ".png", ".jpg", ".gif". Biasanya, jenis file ini didukung: ".ipynb", ".py", ".yml", ".html".

Langkah berikutnya