Κοινοποίηση μέσω


Σενάριο επιστήμης δεδομένων από άκρο σε άκρο: εισαγωγή και αρχιτεκτονική

Αυτά τα προγράμματα εκμάθησης παρουσιάζουν ένα πλήρες σενάριο στην εμπειρία επιστήμης δεδομένων Fabric. Καλύπτουν κάθε βήμα, από

  • Κατάποση δεδομένων
  • Εκκαθάριση δεδομένων
  • Προετοιμασία δεδομένων

to

  • Εκπαίδευση μοντέλου εκμάθησης μηχανής
  • Δημιουργία πληροφοριών

και, στη συνέχεια, καλύψτε την κατανάλωση αυτών των πληροφοριών με εργαλεία απεικόνισης, για παράδειγμα, το Power BI.

Οι νέοι χρήστες που δεν είναι εξοικειωμένοι με το Microsoft Fabric θα πρέπει να επισκεφθούν την τοποθεσία Τι είναι το Microsoft Fabric;.

Εισαγωγή

Ένας κύκλος ζωής έργου επιστήμης δεδομένων συνήθως περιλαμβάνει τα εξής βήματα:

  • Κατανόηση των επιχειρησιακών κανόνων
  • Απόκτηση των δεδομένων
  • Εξερεύνηση, εκκαθάριση, προετοιμασία και απεικόνιση των δεδομένων
  • Εκπαίδευση του μοντέλου και παρακολούθηση του πειράματος
  • Βαθμολόγηση του μοντέλου και δημιουργία πληροφοριών

Τα βήματα συχνά προχωρούν επαναληπτικά. Οι στόχοι και τα κριτήρια επιτυχίας κάθε σταδίου εξαρτώνται από τη συνεργασία, την κοινή χρήση δεδομένων και την τεκμηρίωση. Η εμπειρία επιστήμης δεδομένων Fabric περιλαμβάνει πολλές εγγενείς δυνατότητες που επιτρέπουν απρόσκοπτη συνεργασία, απόκτηση δεδομένων, κοινή χρήση και κατανάλωση.

Αυτά τα εκπαιδευτικά βοηθήματα σάς τοποθετούν στον ρόλο ενός επιστήμονα δεδομένων, ο οποίος πρέπει να εξερευνήσει, να καθαρίσει και να μετασχηματίσει ένα σύνολο δεδομένων που περιέχει την κατάσταση απώλειας 10.000 πελατών τραπεζών. Στη συνέχεια, δημιουργείτε ένα μοντέλο εκμάθησης μηχανής για να προβλέψετε ποιοι πελάτες τραπεζών πιθανότατα θα αποχωρήσουν.

Εκτελείτε τις ακόλουθες δραστηριότητες στα προγράμματα εκμάθησης:

  1. Χρήση των σημειωματάριων Fabric για σενάρια επιστήμης δεδομένων
  2. Χρήση apache Spark για την πρόσληψη δεδομένων σε μια λίμνη Fabric
  3. Φόρτωση υπαρχόντων δεδομένων από τους πίνακες δέλτα της λίμνης
  4. Χρήση των εργαλείων Apache Spark και Python για τον καθαρισμό και τον μετασχηματισμό δεδομένων
  5. Δημιουργία πειραμάτων και εκτελέσεων για την εκπαίδευση διαφορετικών μοντέλων εκμάθησης μηχανής
  6. Χρήση MLflow και του περιβάλλοντος εργασίας χρήστη Fabric για την εγγραφή και παρακολούθηση εκπαιδευμένων μοντέλων
  7. Εκτελέστε βαθμολόγηση σε κλίμακα και αποθηκεύστε προβλέψεις και αποτελέσματα συμπερασματών στο lakehouse
  8. Χρήση του DirectLake για την απεικόνιση προβλέψεων στο Power BI

Αρχιτεκτονική

Αυτή η σειρά εκμάθησης παρουσιάζει ένα απλοποιημένο σενάριο επιστήμης δεδομένων από άκρο σε άκρο, το οποίο περιλαμβάνει τα εξής:

  1. Πρόσληψη δεδομένων από μια εξωτερική προέλευση δεδομένων.
  2. Εξερεύνηση και εκκαθάριση δεδομένων.
  3. Εκπαίδευση και εγγραφή μοντέλου εκμάθησης μηχανής.
  4. Βαθμολόγηση δέσμης και αποθήκευση πρόβλεψης.
  5. Απεικόνιση αποτελέσματος πρόβλεψης στο Power BI.

διάγραμμα των στοιχείων σεναρίου επιστήμης δεδομένων από άκρο σε άκρο.

Διαφορετικά στοιχεία του σεναρίου επιστήμης δεδομένων

Προελεύσεις δεδομένων - Για την πρόσληψη δεδομένων με το Fabric, μπορείτε εύκολα και γρήγορα να συνδεθείτε στις Υπηρεσίες δεδομένων Azure, σε άλλες πλατφόρμες cloud και σε πόρους δεδομένων εσωτερικής εγκατάστασης. Με το Fabric Notebooks, μπορείτε να λάβετε δεδομένα από αυτούς τους πόρους:

  • Ενσωματωμένες λιμνοθάφτες
  • Αποθήκες δεδομένων
  • Semantic models
  • Διάφορες προελεύσεις δεδομένων Apache Spark
  • Διάφορες προελεύσεις δεδομένων που υποστηρίζουν Python

Αυτή η σειρά εκμάθησης εστιάζει στην πρόσληψη δεδομένων και τη φόρτωση από ένα lakehouse.

Εξερεύνηση, εκκαθάριση και προετοιμασία - Η εμπειρία επιστήμης δεδομένων Fabric υποστηρίζει εκκαθάριση, μετασχηματισμό, εξερεύνηση και δυνατότητα δεδομένων. Χρησιμοποιεί ενσωματωμένες εμπειρίες Spark και εργαλεία που βασίζονται σε Python - για παράδειγμα, Data Wrangler και Βιβλιοθήκη SemPy. Αυτή η εκμάθηση παρουσιάζει την εξερεύνηση δεδομένων με τη βιβλιοθήκη Python, καθώς και την seaborn εκκαθάριση και προετοιμασία δεδομένων με το Apache Spark.

Μοντέλα και πειράματα - Με το Fabric, μπορείτε να εκπαιδεύσετε, αξιολογήσετε και βαθμολογήσετε μοντέλα εκμάθησης μηχανής με ενσωματωμένα πειράματα. Για να καταχωρήσετε και να αναπτύξετε τα μοντέλα σας και να παρακολουθήσετε πειράματα, το MLflow προσφέρει απρόσκοπτη ενοποίηση με το Fabric ως έναν τρόπο μοντελοποίησης στοιχείων. Για να δημιουργήσετε και να μοιραστείτε επιχειρηματικές πληροφορίες, το Fabric προσφέρει άλλες δυνατότητες για πρόβλεψη μοντέλου σε κλίμακα (PREDICT), για τη δημιουργία και κοινοποίηση επιχειρηματικών πληροφοριών.

Χώρος αποθήκευσης - Το Fabric τυποποιείται στο Delta Lake, το οποίο σημαίνει ότι όλοι οι κινητήρες Fabric μπορούν να αλληλεπιδρούν με το ίδιο σύνολο δεδομένων που είναι αποθηκευμένο σε ένα lakehouse. Με αυτό το επίπεδο αποθήκευσης, μπορείτε να αποθηκεύσετε δομημένα και μη δομημένα δεδομένα που υποστηρίζουν τόσο χώρο αποθήκευσης που βασίζεται σε αρχεία όσο και μορφή σε μορφή πίνακα. Μπορείτε εύκολα να αποκτήσετε πρόσβαση στα σύνολα δεδομένων και τα αποθηκευμένα αρχεία μέσω όλων των στοιχείων εμπειρίας Fabric - για παράδειγμα, σημειωματάρια και διοχετεύσεις.

Αποκάλυψη αναλύσεων και πληροφοριών - Το Power BI, ένα κορυφαίο εργαλείο επιχειρηματικής ευφυΐας στον κλάδο, μπορεί να καταναλώσει δεδομένα lakehouse για δημιουργία αναφορών και απεικονίσεων. Στους πόρους σημειωματάριου, τις εγγενείς βιβλιοθήκες απεικόνισης Python ή Spark

  • matplotlib
  • seaborn
  • plotly
  • κλπ.

μπορεί να απεικονίσει δεδομένα που διατηρούνται σε ένα lakehouse. Η βιβλιοθήκη SemPy υποστηρίζει επίσης απεικόνιση δεδομένων. Αυτή η βιβλιοθήκη υποστηρίζει ενσωματωμένες, συγκεκριμένες απεικονίσεις για

  • Το μοντέλο σημασιολογικών δεδομένων
  • Εξαρτήσεις και οι παραβιάσεις τους
  • Περιπτώσεις χρήσης ταξινόμησης και παλινδρόμησης

Επόμενο βήμα