Konsep penyerapan pengurai CSV

File CSV (nilai yang dipisahkan koma) adalah file teks yang dibatasi koma yang digunakan untuk menyimpan data dalam format terstruktur tabel.

CSV Parser DAG memungkinkan pelanggan memuat data ke instans Microsoft Azure Data Manager for Energy berdasarkan skema kustom yaitu, skema yang tidak cocok dengan OSDU® Well Known Schema (WKS). Pelanggan harus membuat dan mendaftarkan skema kustom menggunakan layanan Skema sebelum memuat data.

DAG Parser CSV mengimplementasikan pendekatan ELT (Ekstrak Beban dan Transformasi) untuk pemuatan data, yaitu, data pertama kali diekstrak dari sistem sumber dalam format CSV, dan dimuat ke dalam instans Azure Data Manager for Energy. Kemudian dapat diubah ke Skema Terkenal OSDU® menggunakan layanan pemetaan.

Apa yang dilakukan penyerapan CSV?

DAG Parser CSV memungkinkan pelanggan memuat data CSV ke dalam instans Microsoft Azure Data Manager for Energy. Ini mengurai setiap baris file CSV dan membuat rekaman metadata penyimpanan. Ini dilakukan schema validation untuk memastikan bahwa data CSV sesuai dengan skema kustom terdaftar. Ini secara otomatis dilakukan type coercion pada kolom berdasarkan definisi jenis data skema. Ini menghasilkan unique id untuk setiap baris rekaman CSV dengan menggabungkan sumber, jenis entitas, dan string yang dikodekan Base64 yang dibentuk dengan menggabungkan kunci alami dalam data. Ini dilakukan unit conversion dengan mengonversi bingkai informasi referensi yang dideklarasikan menjadi referensi persistable yang sesuai menggunakan layanan Unit. Ini dilakukan CRS conversion untuk kolom yang sadar spasial berdasarkan informasi Frame of Reference (FoR) yang ada dalam skema. Ini membuat relationships metadata seperti yang dinyatakan dalam skema sumber. Terakhir, rekaman persists metadata menggunakan layanan Storage.

Komponen penyerapan pengurai CSV

Alur kerja CSV Parser DAG terdiri dari layanan berikut:

  • Layanan file memfasilitasi pengelolaan file di instans Azure Data Manager for Energy. Ini memungkinkan pengguna untuk mengunggah, menemukan, dan mengunduh file dengan aman dari platform data.
  • Layanan skema memfasilitasi pengelolaan skema di instans Azure Data Manager for Energy. Ini memungkinkan pengguna untuk membuat, mengambil, dan mencari skema di platform data.
  • Storage Service memfasilitasi penyimpanan informasi metadata untuk entitas domain yang diserap ke dalam platform data. Ini juga meningkatkan peristiwa perubahan rekaman penyimpanan yang memungkinkan layanan hilir melakukan operasi pada rekaman metadata yang diserap.
  • Unit Service memfasilitasi manajemen dan konversi unit
  • Layanan alur kerja memfasilitasi manajemen alur kerja di instans Azure Data Manager for Energy. Ini adalah layanan pembungkus di atas mesin orkestrasi Aliran Udara.

Diagram komponen penyerapan CSV

Cuplikan layar diagram komponen penyerapan CSV.

Alur kerja penyerapan pengurai CSV

Untuk menjalankan alur kerja CSV Parser DAG, pengguna harus memiliki token otorisasi yang valid dan akses yang sesuai ke layanan berikut: Pencarian, Penyimpanan, Skema, Layanan File, Pemberian Hak, Hukum, dan Alur Kerja.

Diagram alur kerja di bawah ini mengilustrasikan alur kerja CSV Parser DAG: Cuplikan layar diagram urutan penyerapan CSV.

Untuk menjalankan alur kerja CSV Parser DAG, pengguna harus terlebih dahulu membuat dan mendaftarkan skema menggunakan layanan alur kerja. Setelah skema dibuat, pengguna kemudian menggunakan layanan File untuk mengunggah file CSV ke instans Microsoft Azure Data Manager for Energy, dan juga membuat catatan penyimpanan jenis generik file. Layanan file kemudian menyediakan ID file kepada pengguna, yang digunakan saat memicu alur kerja CSV Parser menggunakan layanan Alur Kerja. Layanan Alur Kerja menyediakan ID eksekusi, yang dapat digunakan pengguna untuk melacak status eksekusi alur kerja CSV Parser.

OSDU® adalah merek dagang dari The Open Group.

Langkah berikutnya

Lanjutkan ke tutorial pengurai CSV dan pelajari cara melakukan penyerapan pengurai CSV