Κοινοποίηση μέσω


Εκπαίδευση μοντέλων εκμάθησης μηχανής

Το Apache Spark —μέρος του Microsoft Fabric— επιτρέπει την εκμάθηση μηχανής σε κλίμακα. Χρησιμοποιήστε το για να αποκτήσετε πληροφορίες από μεγάλους όγκους δομημένων, μη δομημένων και ροής δεδομένων. Εκπαιδεύστε μοντέλα στο Microsoft Fabric με βιβλιοθήκες ανοιχτού κώδικα όπως το Apache Spark MLlib, το SynapseML και άλλες.

Apache SparkML και MLlib

Το Apache Spark —μέρος του Microsoft Fabric— είναι ένα ενοποιημένο πλαίσιο παράλληλης επεξεργασίας δεδομένων ανοιχτού κώδικα. Χρησιμοποιεί επεξεργασία στη μνήμη για να επιταχύνει την ανάλυση μεγάλων δεδομένων. Το Spark έχει σχεδιαστεί για ταχύτητα, ευκολία στη χρήση και προηγμένα αναλυτικά στοιχεία. Ο κατανεμημένος υπολογισμός στη μνήμη του Spark ταιριάζει σε επαναληπτικούς αλγόριθμους μηχανικής μάθησης και γραφημάτων.

Οι βιβλιοθήκες εκμάθησης μηχανής με δυνατότητα κλιμάκωσης MLlib και SparkML μεταφέρουν δυνατότητες αλγοριθμικής μοντελοποίησης σε αυτό το κατανεμημένο περιβάλλον. Το MLlib παρέχει το αρχικό API που βασίζεται σε RDD. Το SparkML είναι ένα νεότερο πακέτο που παρέχει ένα API υψηλότερου επιπέδου που βασίζεται σε DataFrame για τη δημιουργία αγωγών ML. Παρέχει ένα API υψηλότερου επιπέδου που βασίζεται σε DataFrames για την κατασκευή διοχετεύσεων εκμάθησης μηχανής. Το SparkML δεν υποστηρίζει ακόμη όλες τις δυνατότητες του MLlib, αλλά αντικαθιστά το MLlib ως την τυπική βιβλιοθήκη μηχανικής εκμάθησης Spark.

Σημείωμα

Μάθετε περισσότερα στην ενότητα Εκπαίδευση μοντέλων με το Apache Spark MLlib.

Ο χρόνος εκτέλεσης του Microsoft Fabric για το Apache Spark περιλαμβάνει πολλά δημοφιλή πακέτα ανοιχτού κώδικα για την εκπαίδευση μοντέλων εκμάθησης μηχανής. Αυτές οι βιβλιοθήκες παρέχουν επαναχρησιμοποιήσιμο κώδικα για τα έργα σας. Ο χρόνος εκτέλεσης περιλαμβάνει αυτές τις βιβλιοθήκες μηχανικής εκμάθησης:

  • Scikit-learn - μια δημοφιλής βιβλιοθήκη ενός κόμβου για κλασικούς αλγόριθμους μηχανικής μάθησης. Υποστηρίζει τους περισσότερους εποπτευόμενους και μη εποπτευόμενους αλγόριθμους και χειρίζεται την εξόρυξη δεδομένων και την ανάλυση δεδομένων.

  • XGBoost - μια δημοφιλής βιβλιοθήκη με βελτιστοποιημένους αλγόριθμους για την εκπαίδευση δέντρων αποφάσεων και τυχαίων δασών.

  • Τα PyTorch και Tensorflow είναι ισχυρές βιβλιοθήκες βαθιάς εκμάθησης Python. Με αυτές τις βιβλιοθήκες, μπορείτε να ορίσετε τον αριθμό των εκτελέσεων στον χώρο συγκέντρωσης σε μηδέν, για να δημιουργήσετε μοντέλα μίας μηχανής. Παρόλο που αυτή η ρύθμιση παραμέτρων δεν υποστηρίζει το Apache Spark, είναι ένας απλός, οικονομικά αποδοτικός τρόπος για τη δημιουργία μοντέλων μίας μηχανής.

SynapseML

Η βιβλιοθήκη ανοιχτού κώδικα SynapseML (παλαιότερα γνωστή ως MMLSpark) σάς βοηθά να δημιουργήσετε επεκτάσιμους αγωγούς μηχανικής εκμάθησης (ML). Επιταχύνει τον πειραματισμό και σας επιτρέπει να εφαρμόσετε προηγμένες τεχνικές, συμπεριλαμβανομένης της βαθιάς μάθησης, σε μεγάλα σύνολα δεδομένων.

Το SynapseML παρέχει ένα επίπεδο πάνω από τα API χαμηλού επιπέδου SparkML κατά τη δημιουργία μοντέλων εκμάθησης μηχανής με δυνατότητα κλιμάκωσης. Αυτά τα API καλύπτουν τη δημιουργία ευρετηρίου συμβολοσειρών, τη διανυσματική συγκρότηση δυνατοτήτων, τον εξαναγκασμό δεδομένων σε διατάξεις κατάλληλες για αλγόριθμους εκμάθησης μηχανής και πολλά άλλα. Η βιβλιοθήκη SynapseML απλοποιεί αυτές και άλλες συνήθεις εργασίες για τη δημιουργία μοντέλων στο PySpark.

Εξερευνήστε επιλογές για την εκπαίδευση μοντέλων εκμάθησης μηχανής στο Apache Spark στο Microsoft Fabric. Για περισσότερες πληροφορίες, βλ.: