نسخ البيانات من Google BigQuery باستخدام Azure Data Factory أو Synapse Analytics

ينطبق على:Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

توضح هذه المقالة كيفية استخدام نسخ النشاط في Azure Data Factory وخطوط تدفق Synapse Analytics لنسخ البيانات من Google BigQuery. وهو يستند إلى مقالة نظرة عامة حول نشاط النسخ التي تعرض نظرة عامة حول نشاط النسخ.

هام

يوفر موصل Google BigQuery الجديد دعما أصليا محسنا ل Google BigQuery. إذا كنت تستخدم موصل Google BigQuery القديم في الحل الخاص بك، مدعوما كما هو للتوافق مع الإصدارات السابقة فقط، فراجع مقالة موصل Google BigQuery (القديم).

القدرات المدعومة

يتم دعم موصل Google BigQuery للإمكانيات التالية:

القدرات المدعومة IR
نشاط النسخ (مصدر/-) (1) (2)
نشاط البحث (1) (2)

① وقت تشغيل تكامل Azure ② وقت تشغيل التكامل المستضاف ذاتيًا

للحصول على قائمة مخازن البيانات المدعومة كمصادر أو أحواض بواسطة نشاط النسخ، راجع جدول مخازن البيانات المدعومة.

توفر الخدمة برنامج تشغيل مضمن لتمكين الاتصالية. لذلك، لا تحتاج إلى تثبيت برنامج تشغيل يدوياً لاستخدام هذا الموصل.

إشعار

تم إنشاء موصل Google BigQuery هذا في أعلى واجهات برمجة تطبيقات BigQuery. اعلم أن BigQuery يحد من الحد الأقصى لمعدل الطلبات الواردة ويفرض الحصص المناسبة على أساس كل مشروع، راجع الحصص والحدود - طلبات واجهة برمجة التطبيقات. تأكد من عدم تشغيل العديد من الطلبات المتزامنة للحساب.

الشروع في العمل

لتنفيذ نشاط النسخ باستخدام أحد المسارات، يمكنك استخدام إحدى الأدوات أو عدد تطوير البرامج التالية:

أنشئ خدمة مرتبطة بـ Google BigQuery باستخدام واجهة المستخدم

استخدم الخطوات التالية لإنشاء خدمة مرتبطة بـ Google BigQuery في واجهة مستخدم مدخل Microsoft Azure.

  1. استعرض للوصول إلى علامة التبويب "Manage" في مصنع بيانات Azure أو مساحة عمل Synapse، وحدد "Linked Services"، ثم انقر فوق "New":

  2. ابحث عن Google BigQuery وحدد الموصل.

    لقطة شاشة لموصل Google BigQuery.

  3. قم بتكوين تفاصيل الخدمة، واختبر الاتصال، وأنشئ الخدمة المرتبطة الجديدة.

    لقطة شاشة لتكوين الخدمة المرتبطة لـ Google BigQuery.

تفاصيل تكوين الموصل

توفر الأقسام التالية تفاصيل حول الخصائص المستخدمة لتحديد الكيانات الخاصة بموصل Google BigQuery.

خصائص الخدمة المرتبطة

الخصائص التالية مدعومة لخدمة Google BigQuery المرتبطة.

الخاصية الوصف مطلوب
النوع يجب تعيين خاصية النوع إلى GoogleBigQueryV2. ‏‏نعم‬
معرف المشروع معرّف المشروع لمشروع BigQuery الافتراضي للاستعلام عنه. ‏‏نعم‬
نوع المصادقة آلية مصادقة OAuth 2.0 المستخدمة للمصادقة.
القيم المسموح بها هي UserAuthentication وServiceAuthentication. راجع المقاطع الموجودة أسفل هذا الجدول على المزيد من الخصائص وعينات JSON لأنواع المصادقة هذه على التوالي.
‏‏نعم‬

استخدام مصادقة المستخدم

عيّن خاصية "نوع المصادقة" على UserAuthentication، وحدد الخصائص التالية جنباً إلى جنب مع الخصائص العامة الموضحة في القسم السابق:

الخاصية الوصف مطلوب
clientId معرّف التطبيق المستخدم لإنشاء رمز التحديث. ‏‏نعم‬
clientSecret سر التطبيق المستخدم لإنشاء رمز التحديث. ضع علامة على هذا الحقل باعتباره SecureString لتخزينه بشكل آمن، أو قم بالإشارة إلى بيانات سرية مخزنة في Azure Key Vault. ‏‏نعم‬
refreshToken يُستخدم رمز التحديث الذي تم الحصول عليه من Google للسماح بالوصول إلى BigQuery. تعرف على كيفية الحصول على واحد من الحصول على رموز وصول OAuth 2.0 ومدونة المجتمع هذه. ضع علامة على هذا الحقل باعتباره SecureString لتخزينه بشكل آمن، أو قم بالإشارة إلى بيانات سرية مخزنة في Azure Key Vault. ‏‏نعم‬

مثال:

{
    "name": "GoogleBigQueryLinkedService",
    "properties": {
        "type": "GoogleBigQueryV2",
        "typeProperties": {
            "projectId" : "<project ID>",
            "authenticationType" : "UserAuthentication",
            "clientId": "<client ID>",
            "clientSecret": {
                "type": "SecureString",
                "value":"<client secret>"
            },
            "refreshToken": {
                "type": "SecureString",
                "value": "<refresh token>"
            }
        }
    }
}

استخدام مصادقة الخدمة

عيّن خاصية "نوع المصادقة" على ServiceAuthentication، وحدد الخصائص التالية جنباً إلى جنب مع الخصائص العامة الموضحة في القسم السابق.

الخاصية الوصف مطلوب
keyFileContent ملف المفتاح بتنسيق JSON المستخدم لمصادقة حساب الخدمة. ضع علامة على هذا الحقل باعتباره SecureString لتخزينه بشكل آمن، أو قم بالإشارة إلى بيانات سرية مخزنة في Azure Key Vault. ‏‏نعم‬

مثال:

{
    "name": "GoogleBigQueryLinkedService",
    "properties": {
        "type": "GoogleBigQueryV2",
        "typeProperties": {
            "projectId": "<project ID>",
            "authenticationType": "ServiceAuthentication",
            "keyFileContent": {
                "type": "SecureString",
                "value": "<key file JSON string>"
            }
        }
    }
}

خصائص مجموعة البيانات

للحصول على قائمة كاملة بالأقسام والخصائص المتوفرة لتعريف مجموعات البيانات، راجع مقالة مجموعات البيانات. يقدم هذا القسم قائمة بالخصائص التي تدعمها مجموعة بيانات Google BigQuery.

لنسخ البيانات من Google BigQuery، قم بتعيين خاصية نوع مجموعة البيانات إلى GoogleBigQueryV2Object. تدعم الخصائص التالية:

الخاصية الوصف مطلوب
النوع يجب تعيين خاصية نوع مجموعة البيانات إلى: GoogleBigQueryV2Object ‏‏نعم‬
مجموعة البيانات اسم مجموعة بيانات Google BigQuery. لا (إذا تم تحديد "الاستعلام" في مصدر النشاط)
طاولتنا ضع اسمًا للجدول. لا (إذا تم تحديد "الاستعلام" في مصدر النشاط)

مثال

{
    "name": "GoogleBigQueryDataset",
    "properties": {
        "type": "GoogleBigQueryV2Object",
        "linkedServiceName": {
            "referenceName": "<Google BigQuery linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [],
        "typeProperties": {
            "dataset": "<dataset name>",
            "table": "<table name>"
        }
    }
}

انسخ خصائص النشاط

للحصول على قائمة كاملة بالأقسام والخصائص المتوفرة لتعريف الأنشطة، راجع مقالة التدفقات. يقدم هذا القسم قائمة بالخصائص التي يدعمها نوع مصدر BigQuery من Google.

GoogleBigQuerySource كنوع مصدر

لنسخ البيانات من Google BigQuery، قم بتعيين نوع المصدر في نشاط النسخ إلى GoogleBigQueryV2Source. يتم دعم الخصائص التالية في قسم المصدر لنشاط النسخ.

الخاصية الوصف مطلوب
النوع يجب تعيين خاصية نوع مصدر نشاط النسخ إلى GoogleBigQueryV2Source. ‏‏نعم‬
استعلام استخدم استعلام SQL المخصص لقراءة البيانات. مثال على ذلك "SELECT * FROM MyTable" . لمزيد من المعلومات، انتقل إلى بناء جملة الاستعلام. لا (إذا تم تحديد "مجموعة البيانات" و"الجدول" في مجموعة البيانات)

مثال:

"activities":[
    {
        "name": "CopyFromGoogleBigQuery",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Google BigQuery input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "GoogleBigQueryV2Source",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

بحث عن خصائص النشاط

لمعرفة تفاصيل حول الخصائص، تحقق من نشاط البحث.

ترقية خدمة Google BigQuery المرتبطة

لترقية خدمة Google BigQuery المرتبطة، أنشئ خدمة Google BigQuery مرتبطة جديدة وقم بتكوينها بالإشارة إلى خصائص الخدمة المرتبطة.

الاختلافات بين Google BigQuery وGoogle BigQuery (قديم)

يوفر موصل Google BigQuery وظائف جديدة وهو متوافق مع معظم ميزات موصل Google BigQuery (القديم). يوضح الجدول أدناه اختلافات الميزات بين Google BigQuery وGoogle BigQuery (قديم).

Google BigQuery Google BigQuery (قديم)
يتم دعم مصادقة الخدمة من خلال وقت تشغيل تكامل Azure ووقت تشغيل التكامل المستضاف ذاتيا.
الخصائص trustedCertPath و useSystemTrustStore والبريد الإلكتروني وkeyFilePath غير مدعومة لأنها متوفرة في وقت تشغيل التكامل المستضاف ذاتيا فقط.
يتم دعم مصادقة الخدمة فقط من خلال وقت تشغيل التكامل المستضاف ذاتيا.
دعم trustedCertPath، استخدم خصائص SystemTrustStore والبريد الإلكتروني وkeyFilePath.
يتم استخدام التعيينات التالية من أنواع بيانات Google BigQuery إلى أنواع البيانات المؤقتة التي تستخدمها الخدمة داخليا.

عددي -> عشري
الطابع الزمني -> DateTimeOffset
Datetime -> DatetimeOffset
يتم استخدام التعيينات التالية من أنواع بيانات Google BigQuery إلى أنواع البيانات المؤقتة التي تستخدمها الخدمة داخليا.

رقمية -> سلسلة
الطابع الزمني -> التاريخ والوقت
التاريخ والوقت -> التاريخ والوقت
requestGoogleDriveScope غير معتمد. تحتاج أيضا إلى تطبيق الإذن في خدمة Google BigQuery بالإشارة إلى اختيار نطاقات واجهة برمجة تطبيقات Google Drive وبيانات Query Drive. طلب الدعمGoogleDriveScope.
المشاريع الإضافية غير مدعومة. كبديل، استعلم عن مجموعة بيانات عامة باستخدام وحدة تحكم Google Cloud. دعم المشاريع الإضافية.

للحصول على قائمة بمخازن البيانات المدعومة كمصادر ومتلقين من خلال نشاط النسخ، انظر مخازن البيانات المدعومة .