Κοινή χρήση μέσω


Ρύθμιση παραμέτρων του συνδετήρα σπινθήρα σε μια δραστηριότητα αντιγραφής

Αυτό το άρθρο περιγράφει τον τρόπο χρήσης της δραστηριότητας αντιγραφής σε μια διοχέτευση για την ανάγνωση δεδομένων από το Microsoft Fabric Data Warehouse ή το Lakehouse χρησιμοποιώντας τη σύνδεση Spark.

Υποστηριζόμενη ρύθμιση παραμέτρων

Για τη διαμόρφωση κάθε καρτέλας στην ενότητα δραστηριότητα αντιγραφής, μεταβείτε στις ακόλουθες ενότητες αντίστοιχα:

Γενική

Ανατρέξτε σε αυτήν τη σελίδα για να διαμορφώσετε την καρτέλα Γενικά .

Πηγή

Μεταβείτε στην καρτέλα Προέλευση για να ρυθμίσετε τις παραμέτρους της προέλευσης δραστηριότητας αντιγραφής.

Απαιτούμενα ακίνητα

  • Σύνδεση:
    Επιλέξτε μια σύνδεση Spark από τη λίστα συνδέσεων. Εάν δεν υπάρχει σύνδεση, δημιουργήστε μια νέα σύνδεση Spark (προεγκατεστημένη στον χρόνο εκτέλεσης Fabric).

  • Χρήση ερωτήματος:

    • Πίνακας: Διαβάστε δεδομένα από έναν καθορισμένο πίνακα ή προβολή στην Αποθήκη δεδομένων ή στο Lakehouse.
    • Ερώτημα: Εκτελέστε ένα προσαρμοσμένο ερώτημα T-SQL στο τελικό σημείο ανάλυσης SQL.

Παραδείγματα:

Τραπέζι:

synapsesql(tableName: String = "<Warehouse.Schema.Table>")

Ερώτηση:

spark.read.option(Constants.DatabaseName, "<warehouse>").synapsesql("<T-SQL Query>")

Εξετάστε επίσης την υπογραφή της μεθόδου Synapsesql. Η ακόλουθη εντολή εμφανίζει την υπογραφή της μεθόδου synapsesql για το αίτημα ανάγνωσης. Το όρισμα tableName τριών τμημάτων απαιτείται για την πρόσβαση σε πίνακες ή προβολές από μια αποθήκη και το τελικό σημείο ανάλυσης SQL μιας λίμνης. Ενημερώστε το όρισμα με τα ακόλουθα ονόματα, με βάση το σενάριό σας:

  • Μέρος 1: Όνομα αποθήκης ή lakehouse.
  • Μέρος 2: Όνομα σχήματος.
  • Μέρος 3: Όνομα του πίνακα ή της προβολής.

synapsesql(tableName: String = "<Part1.Part2.Part3>") => org.apache.spark.sql.DataFrame

Εκτός από την απευθείας ανάγνωση από έναν πίνακα ή μια προβολή, αυτή η σύνδεση σάς επιτρέπει επίσης να καθορίσετε ένα προσαρμοσμένο ερώτημα ή ένα ερώτημα διαβίβασης. Αυτό μεταβιβάζεται στη μηχανή SQL και το αποτέλεσμα επιστρέφεται πίσω στο Spark:

spark.read.option(Constants.DatabaseName, "{warehouse/lakehouse name}").synapsesql("{T-SQL Query}")

Καθορίστε ρητά το τελικό σημείο SQL

Για αποθήκη:

spark.conf.set("spark.datawarehouse.{warehouse name}.sqlendpoint", "{sql endpoint,port}")

Για το lakehouse:

spark.conf.set("spark.lakehouse.[lakehouse name].sqlendpoint", "[sql endpoint,port]")

Διαβάστε από τον πίνακα:

spark.read.synapsesql("[lakehouse name].[schema name].[table or view name]")

Έκδοση

Χρησιμοποιήστε το Spark connector v2.0 για βελτιωμένη εγγενή υποστήριξη Spark. Προτείνουμε αναβάθμιση από την έκδοση 1.0.

Επιλογές για προχωρημένους

Χρονικό όριο ερωτήματος (λεπτά): Η προεπιλογή είναι 120 λεπτά. Καθορίστε τη μορφή χρονικού διαστήματος, για παράδειγμα, "02:00:00". Διαμερισμός: Η σύνδεση Fabric Spark δεν παρέχει ενσωματωμένες επιλογές διαμερίσματος όπως η PostgreSQL. Χρησιμοποιήστε την εγγενή κατάτμηση DataFrame του Spark για ρύθμιση απόδοσης.

Προορισμός

Η σύνδεση Spark στο Fabric έχει σχεδιαστεί κυρίως για λειτουργίες ανάγνωσης:

  • Οι λειτουργίες μαζικής εγγραφής ή upsert δεν υποστηρίζονται στη δραστηριότητα αντιγραφής.
  • Για σενάρια επανεγγραφής, χρησιμοποιήστε API Fabric ή μεθόδους εγγραφής Lakehouse εκτός της δραστηριότητας αντιγραφής.

Αντιστοίχιση

Για τη διαμόρφωση της καρτέλας Αντιστοίχιση, ανατρέξτε στην τεκμηρίωσή μας.

Ρυθμίσεις

Για τη διαμόρφωση της καρτέλας Ρυθμίσεις, μεταβείτε στην τεκμηρίωσή μας.

Ασφάλεια

Ο έλεγχος ταυτότητας χρησιμοποιεί το Microsoft Entra ID. Επιβάλλει ασφάλεια σε επίπεδο αντικειμένου, σε επίπεδο γραμμών και σε επίπεδο στήλης , όπως ορίζεται στον μηχανισμό SQL.

Βέλτιστες πρακτικές

  • Χρησιμοποιήστε προσαρμοσμένα ερωτήματα για επιλεκτική ανάκτηση δεδομένων.
  • Χρησιμοποιήστε το διαμέρισμα Spark DataFrame για μεγάλα σύνολα δεδομένων.
  • Κάντε αναβάθμιση στην έκδοση 2.0 για βελτιωμένη απόδοση και υποστήριξη SSL.