Apa itu Ilmu Data di Microsoft Fabric?

Penting

Microsoft Fabric saat ini dalam PRATINJAU. Informasi ini berkaitan dengan produk prarilis yang mungkin dimodifikasi secara substansial sebelum dirilis. Microsoft tidak memberikan jaminan, tersurat maupun tersirat, sehubungan dengan informasi yang diberikan di sini.

Microsoft Fabric menawarkan pengalaman Ilmu Data untuk memberdayakan pengguna untuk menyelesaikan alur kerja ilmu data end-to-end untuk tujuan pengayaan data dan wawasan bisnis. Anda dapat menyelesaikan berbagai aktivitas di seluruh proses ilmu data, mulai dari eksplorasi data, persiapan dan pembersihan hingga eksperimen, pemodelan, penilaian model, dan penyajian wawasan prediktif ke laporan BI.

Pengguna Microsoft Fabric dapat mengakses halaman Beranda Ilmu Data. Dari sana, mereka dapat menemukan dan mengakses berbagai sumber daya yang relevan. Misalnya, mereka dapat membuat Eksperimen pembelajaran mesin, Model, dan Notebook. Mereka juga bisa mengimpor Buku Catatan yang sudah ada di halaman Beranda Ilmu Data.

Cuplikan layar beranda Ilmu data.

Anda mungkin tahu cara kerja proses ilmu data yang khas. Sebagai proses yang terkenal, sebagian besar proyek pembelajaran mesin mengikutinya.

Pada tingkat tinggi, prosesnya melibatkan langkah-langkah berikut:

  • Rumusan dan ideasi masalah
  • Penemuan dan pra-pemrosesan data
  • Eksperimen dan pemodelan
  • Memperkaya dan mengoprasionalkan
  • Mendapatkan wawasan

Diagram proses ilmu data.

Artikel ini menjelaskan kemampuan Microsoft Fabric Ilmu Data dari perspektif proses ilmu data. Untuk setiap langkah dalam proses ilmu data, artikel ini merangkum kemampuan Microsoft Fabric yang dapat membantu.

Rumusan dan ideasi masalah

Ilmu Data pengguna di Microsoft Fabric bekerja pada platform yang sama dengan pengguna bisnis dan analis. Berbagi dan kolaborasi data menjadi lebih mulus di berbagai peran sebagai hasilnya. Analis dapat dengan mudah berbagi laporan dan himpunan data Power BI dengan praktisi ilmu data. Kemudahan kolaborasi di seluruh peran dalam Microsoft Fabric membuat hand-off selama fase formulasi masalah jauh lebih mudah.

Penemuan dan pra-pemrosesan Data

Pengguna Microsoft Fabric dapat berinteraksi dengan data di OneLake menggunakan item Lakehouse. Lakehouse dengan mudah dilampirkan ke Notebook untuk menelusuri dan berinteraksi dengan data.

Pengguna dapat dengan mudah membaca data dari Lakehouse langsung ke dalam dataframe Pandas. Untuk eksplorasi, ini memungkinkan pembacaan data yang mulus dari One Lake.

Ada seperangkat alat yang kuat tersedia untuk penyerapan data dan alur orkestrasi data dengan alur integrasi data - bagian yang terintegrasi secara asli dari Microsoft Fabric. Alur data yang mudah dibangun dapat mengakses dan mengubah data menjadi format yang dapat dikonsumsi pembelajaran mesin.

Eksplorasi data

Bagian penting dari proses pembelajaran mesin adalah memahami data melalui eksplorasi dan visualisasi.

Bergantung pada lokasi penyimpanan data, Microsoft Fabric menawarkan serangkaian alat yang berbeda untuk menjelajahi dan menyiapkan data untuk analitik dan pembelajaran mesin. Notebook menjadi salah satu cara tercepat untuk memulai eksplorasi data.

Apache Spark dan Python untuk persiapan data

Microsoft Fabric menawarkan kemampuan untuk mengubah, menyiapkan, dan menjelajahi data Anda dalam skala besar. Dengan Spark, pengguna dapat memanfaatkan alat PySpark/Python, Scala, dan SparkR/SparklyR untuk pra-pemrosesan data dalam skala besar. Pustaka visualisasi sumber terbuka yang kuat dapat meningkatkan pengalaman eksplorasi data untuk membantu lebih memahami data.

Data Wrangler untuk pembersihan data yang mulus

Pengalaman Microsoft Fabric Notebook menambahkan fitur untuk menggunakan Data Wrangler, alat kode yang menyiapkan data dan menghasilkan kode Python. Pengalaman ini memudahkan untuk mempercepat tugas yang melelahkan dan mundane - misalnya, pembersihan data, dan membangun pengulangan dan otomatisasi melalui kode yang dihasilkan. Pelajari selengkapnya tentang Data Wrangler di bagian Data Wrangler dari dokumen ini.

Eksperimen dan pemodelan ML

Dengan alat seperti PySpark/Python, SparklyR/R, notebook dapat menangani pelatihan model pembelajaran mesin.

Algoritma dan pustaka ML dapat membantu melatih model pembelajaran mesin. Alat manajemen pustaka dapat menginstal pustaka dan algoritma ini. Oleh karena itu, pengguna memiliki opsi untuk memanfaatkan berbagai pustaka pembelajaran mesin populer untuk menyelesaikan pelatihan model ML mereka di Microsoft Fabric.

Selain itu, pustaka populer seperti Scikit Learn juga dapat mengembangkan model.

Eksperimen dan eksekusi MLflow dapat melacak pelatihan model ML. Microsoft Fabric menawarkan pengalaman MlFlow bawaan yang dapat berinteraksi dengan pengguna, untuk mencatat eksperimen dan model. Pelajari selengkapnya tentang cara menggunakan MLflow untuk melacak eksperimen dan mengelola model di Microsoft Fabric.

SynapseML

Pustaka sumber terbuka SynapseML (sebelumnya dikenal sebagai MMLSpark), yang dimiliki dan dikelola Microsoft, menyederhanakan pembuatan alur pembelajaran mesin yang dapat diskalakan secara besar-besaran. Sebagai ekosistem alat, ini memperluas kerangka kerja Apache Spark ke beberapa arah baru. SynapseML menyatukan beberapa kerangka kerja pembelajaran mesin yang ada dan algoritma Microsoft baru menjadi satu API yang dapat diskalakan. Pustaka SynapseML sumber terbuka mencakup ekosistem alat ML yang kaya untuk pengembangan model prediktif, serta memanfaatkan model AI yang telah dilatih sebelumnya dari Azure Cognitive Services. Pelajari selengkapnya tentang SynapseML.

Memperkaya dan mengoprasionalkan

Notebook dapat menangani penilaian batch model pembelajaran mesin dengan pustaka sumber terbuka untuk prediksi, atau fungsi Microsoft Fabric Spark Predict universal yang dapat diskalakan, yang mendukung model paket mlflow dalam registri model Microsoft Fabric.

Mendapatkan wawasan

Di Microsoft Fabric, Nilai yang diprediksi dapat dengan mudah ditulis ke OneLake, dan dikonsumsi dengan mulus dari laporan Power BI, dengan mode Direct Lake Power BI. Ini sangat memudahkan praktisi ilmu data untuk berbagi hasil dari pekerjaan mereka dengan pemangku kepentingan dan juga menyederhanakan operasionalisasi.

Notebook yang berisi penilaian batch dapat dijadwalkan untuk dijalankan menggunakan kemampuan penjadwalan Notebook. Penilaian batch juga dapat dijadwalkan sebagai bagian dari aktivitas alur data atau pekerjaan Spark. Power BI secara otomatis mendapatkan prediksi terbaru tanpa perlu memuat atau menyegarkan data, berkat mode Direct lake di Microsoft Fabric.

Langkah berikutnya