Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Untuk pengayaan data dan wawasan bisnis, Microsoft Fabric menawarkan pengalaman Ilmu Data yang memberdayakan pengguna untuk membangun alur kerja ilmu data end-to-end. Anda dapat menyelesaikan berbagai aktivitas di seluruh proses ilmu data:
- eksplorasi data
- persiapan data
- pembersihan data
- Eksperimen
- pemodelan
- penilaian model
- melayani wawasan prediktif untuk laporan BI
Pengguna Microsoft Fabric dapat mengakses beranda Data Science. Kemudian, mereka dapat menemukan dan mengakses berbagai sumber daya yang relevan, seperti yang ditunjukkan pada cuplikan layar berikut:
Sebagian besar proyek pembelajaran mesin mengikuti proses ilmu data. Pada tingkat tinggi, proses tersebut melibatkan langkah-langkah berikut:
- rumusan dan ideasi masalah
- penemuan dan pra-pemrosesan data
- eksperimen dan pemodelan
- memperkaya dan mengoperalisasi
- membangun wawasan
Artikel ini menjelaskan kemampuan Microsoft Fabric Data Science dari perspektif proses ilmu data. Untuk setiap langkah dalam proses ilmu data, artikel ini merangkum kemampuan Microsoft Fabric yang dapat membantu.
Rumusan dan ideasi masalah
Pengguna Data Science di Microsoft Fabric bekerja pada platform yang sama dengan pengguna bisnis dan analis. Berbagi dan kolaborasi data menjadi lebih mulus di berbagai peran sebagai hasilnya. Analis dapat dengan mudah berbagi laporan dan himpunan data Power BI dengan praktisi ilmu data. Kemudahan kolaborasi di seluruh peran di Microsoft Fabric membuat alih-tugas selama tahap perumusan masalah lebih mudah.
Penemuan dan praproscesing data
Pengguna Microsoft Fabric dapat berinteraksi dengan data di OneLake menggunakan sumber daya Lakehouse. Untuk menelusuri dan berinteraksi dengan data, Lakehouse dapat dengan mudah digabungkan dengan notebook. Pengguna dapat dengan mudah membaca data dari Lakehouse langsung ke dalam dataframe Pandas. Untuk eksplorasi, pembacaan data yang mulus dari OneLake kemudian menjadi mungkin.
Sekumpulan alat yang kuat tersedia untuk penyerapan data dan pengelolaan alur data serta integrasi data - bagian asli yang terintegrasi dari Microsoft Fabric. Alur data yang mudah dibangun dapat mengakses dan mengubah data menjadi format yang dapat dikonsumsi pembelajaran mesin.
Eksplorasi data
Bagian penting dari proses pembelajaran mesin melibatkan pemahaman data melalui eksplorasi dan visualisasi.
Bergantung pada lokasi penyimpanan data, Microsoft Fabric menawarkan alat untuk menjelajahi dan menyiapkan data untuk analitik dan pembelajaran mesin. Notebooks sendiri menjadi alat eksplorasi data yang efisien dan efektif.
Apache Spark dan Python untuk persiapan data
Microsoft Fabric dapat mengubah, menyiapkan, dan menjelajahi data Anda dalam skala besar. Dengan Spark, pengguna dapat menggunakan alat PySpark/Python, Scala, dan SparkR/SparklyR untuk memproses data dalam skala besar. Pustaka visualisasi sumber terbuka yang kuat dapat meningkatkan pengalaman eksplorasi data untuk pemahaman data yang lebih baik.
Pengolah Data untuk pembersihan data yang lancar
Untuk menggunakan Data Wrangler, pengalaman Microsoft Fabric Notebook menambahkan fitur alat kode yang menyiapkan data dan menghasilkan kode Python. Pengalaman ini memudahkan untuk mempercepat tugas yang melelahkan dan biasa - misalnya, pembersihan data. Dengan itu, Anda juga dapat membangun otomatisasi dan pengulangan melalui kode yang dihasilkan. Pelajari selengkapnya tentang Data Wrangler di bagian Data Wrangler dari dokumen ini.
Eksperimen dan pemodelan ML
Dengan alat seperti PySpark/Python dan SparklyR/R, notebook dapat menangani pelatihan model pembelajaran mesin. Algoritma dan pustaka pembelajaran mesin dapat membantu melatih model pembelajaran mesin. Alat manajemen pustaka dapat menginstal pustaka dan algoritma ini. Pengguna kemudian dapat menggunakan pustaka pembelajaran mesin populer untuk menyelesaikan pelatihan model ML mereka di Microsoft Fabric. Selain itu, pustaka populer seperti Scikit Learn juga dapat mengembangkan model.
Eksperimen dan eksekusi MLflow dapat melacak pelatihan model ML. Untuk mencatat eksperimen dan model, Microsoft Fabric menawarkan pengalaman MLflow bawaan yang mendukung interaksi. Pelajari selengkapnya tentang cara penggunaan MLflow untuk melacak eksperimen dan mengelola model di Microsoft Fabric.
SynapseML
Microsoft memiliki dan mengoperasikan pustaka sumber terbuka SynapseML (dikenal sebelumnya sebagai MMLSpark). Ini menyederhanakan pembuatan alur pembelajaran mesin yang dapat diskalakan secara besar-besaran. Sebagai ekosistem alat, ini memperluas kerangka kerja Apache Spark ke beberapa arah baru. SynapseML menyatukan beberapa kerangka kerja pembelajaran mesin yang ada, dan algoritma Microsoft baru, menjadi satu API yang dapat diskalakan. Pustaka SynapseML sumber terbuka mencakup ekosistem alat ML yang kaya untuk pengembangan model prediktif, dan menggunakan model AI yang telah dilatih sebelumnya dari layanan Azure AI. Untuk informasi selengkapnya, kunjungi sumber daya SynapseML .
Memperkaya dan mengoprasionalkan
Notebook dapat menangani penilaian batch model pembelajaran mesin dengan pustaka sumber terbuka untuk prediksi. Mereka juga dapat menangani fungsi Microsoft Fabric Spark Predict universal yang dapat diskalakan. Fungsi ini mendukung model paket MLflow di registri model Microsoft Fabric.
Mendapatkan wawasan
Di Microsoft Fabric, Anda dapat dengan mudah menulis nilai yang diprediksi ke OneLake. Dari sana, laporan Power BI dapat mengonsumsinya dengan lancar menggunakan mode Power BI Direct Lake. Praktisi ilmu data kemudian dapat dengan mudah berbagi hasil pekerjaan mereka dengan pemangku kepentingan - dan menyederhanakan operasionalisasi.
Anda bisa menggunakan fitur penjadwalan buku catatan untuk menjadwalkan eksekusi buku catatan yang berisi penilaian batch. Anda juga dapat menjadwalkan penilaian batch sebagai bagian dari aktivitas alur data atau pekerjaan Spark. Dengan mode Danau Langsung di Microsoft Fabric, Power BI mendapatkan prediksi terbaru secara otomatis tanpa perlu memuat ulang data.
Eksplorasi data dengan tautan semantik
Ilmuwan data dan analis bisnis menghabiskan banyak waktu untuk mencoba memahami, membersihkan, dan mengubah data sebelum analisis yang bermakna dapat dimulai. Analis bisnis biasanya bekerja dengan model semantik, dan mengodekan pengetahuan domain dan logika bisnis mereka ke dalam langkah-langkah Power BI. Di sisi lain, ilmuwan data dapat bekerja dengan data yang sama, tetapi biasanya dalam lingkungan atau bahasa kode yang berbeda. Dengan tautan semantik, ilmuwan data dapat membuat koneksi antara model semantik Power BI dan Synapse Data Science dalam pengalaman Microsoft Fabric melalui pustaka SemPy Python. Untuk menyederhanakan analitik data, SemPy menangkap dan menggunakan semantik data saat pengguna melakukan berbagai transformasi pada model semantik. Ketika ilmuwan data menggunakan tautan semantik, mereka dapat
- menghindari penerapan ulang logika bisnis dan pengetahuan domain dalam kode mereka
- mengakses dan menggunakan pengukuran Power BI dengan mudah dalam kodenya
- gunakan semantik untuk mendukung pengalaman baru - misalnya, fungsi semantik
- menjelajahi dan memvalidasi dependensi fungsional dan hubungan antara data
Ketika organisasi menggunakan SemPy, mereka dapat mengharapkan
- peningkatan produktivitas dan kolaborasi yang lebih cepat di seluruh tim yang beroperasi pada himpunan data yang sama
- peningkatan kolaborasi lintas tim dalam kecerdasan bisnis dan kecerdasan buatan (AI)
- mengurangi ambiguitas, dan kurva pembelajaran yang lebih mudah saat onboarding ke model atau himpunan data baru
Untuk informasi selengkapnya tentang tautan semantik, kunjungi sumber daya Apa itu tautan semantik?
Konten terkait
- Kunjungi Tutorial Ilmu Data untuk memulai dengan sampel ilmu data menyeluruh.
- Kunjungi Data Wrangler untuk informasi lebih lanjut tentang persiapan dan pembersihan data dengan Data Wrangler
- Kunjungi Eksperimen pembelajaran mesin untuk mempelajari selengkapnya tentang eksperimen pelacakan
- Kunjungi Model pembelajaran mesin untuk mempelajari selengkapnya tentang manajemen model
- Kunjungi Model skor dengan PREDICT untuk mempelajari selengkapnya tentang penilaian batch dengan Predict
- Menyajikan prediksi Lakehouse dalam Power BI dengan Direct lake Mode