حدث
٢ شوال، ١١ م - ٤ شوال، ١١ م
أكبر حدث تعلم Fabric وPower BI وSQL. 31 مارس – 2 أبريل. استخدم التعليمات البرمجية FABINSIDER لتوفير 400 دولار.
تسجيل اليوملم يعد هذا المتصفح مدعومًا.
بادر بالترقية إلى Microsoft Edge للاستفادة من أحدث الميزات والتحديثات الأمنية والدعم الفني.
تستخدم مستودعات البيانات التقليدية لنظام المعالجات المتعددة المتماثل (SMP) عملية استخراج وتحويل وتحميل (ETL) لتحميل البيانات. تجمع Azure SQL عبارة عن بنية معالجة متوازية على نطاق واسع (MPP) تستفيد من قابلية التوسع ومرونة موارد الحوسبة والتخزين.
في المقابل، يمكن لعملية الاستخراج والتحميل والتحويل (ELT) الاستفادة من قدرات معالجة الاستعلام الموزعة المضمنة والقضاء على الموارد اللازمة لتحويل البيانات قبل التحميل.
بينما يدعم تجمع SQL العديد من أساليب التحميل، بما في ذلك الخيارات غير Polybase مثل برنامج النسخ المجمع (bcp) وواجهة برمجة تطبيقات SQL BulkCopy، فإن أسرع طريقة وأكثرها قابلية للتوسع لتحميل البيانات هي من خلال PolyBase. PolyBase هي تقنية تصل إلى البيانات الخارجية المخزنة في تخزين Azure Blob أو Azure Data Lake Storage عبر لغة Transact-SQL (T-SQL).
الاستخراج والتحميل والتحويل (ELT) هي عملية يتم من خلالها استخراج البيانات من نظام المصدر، وتحميلها في مستودع بيانات، ثم تحويلها.
الخطوات الأساسية لتنفيذ PolyBase ELT لتجمع SQL المخصص هي:
للحصول على برنامج تعليمي للتحميل، راجع تحميل مجموعة بيانات New York Taxicab.
لمزيد من المعلومات، راجع تحميل الأنماط والاستراتيجيات.
يعتمد إخراج البيانات من نظام المصدر الخاص بك على موقع التخزين. الهدف هو نقل البيانات إلى ملفات نصية محددة مدعومة من PolyBase.
يقوم PolyBase بتحميل البيانات من ملفات نصية محددة بترميز UTF-8 وUTF-16. يتم أيضاً تحميل PolyBase من تنسيقات ملفات Hadoop RC File وORC وParquet. يمكن لـ PolyBase أيضاً تحميل البيانات من ملفات Gzip وSnappy المضغوطة. لا يدعم PolyBase حاليا ASCII الموسع أو تنسيق ثابت العرض أو التنسيقات المتداخلة مثل WinZip وJSON وXML.
إذا كنت تقوم بالتصدير من SQL Server، فيمكنك استخدام أداة سطر أوامر bcp لتصدير البيانات إلى ملفات نصية محددة. يسرد الجدول التالي أنواع بيانات Parquet المعينة إلى Azure Synapse Analytics.
نوع بيانات Parquet | نوع بيانات SQL |
---|---|
Tinyint | Tinyint |
Smallint | Smallint |
العدد الصحيح | العدد الصحيح |
عدد صحيح كبير | عدد صحيح كبير |
boolean | بت |
مزدوج | عائم |
عائم | real |
مزدوج | money |
مزدوج | smallmoney |
سلسلة | nchar |
سلسلة | nvarchar |
سلسلة | حرف |
سلسلة | حروف متنوعة |
binary | binary |
binary | varbinary |
الطابع الزمني | date |
الطابع الزمني | smalldatetime |
الطابع الزمني | التاريخ والوقت2 |
الطابع الزمني | datetime |
الطابع الزمني | time |
date | date |
عشري | عشري |
للحصول على البيانات في تخزين Azure، يمكنك نقلها إلى تخزين Azure Blob أو Azure Data Lake Storage. في أي من الموقعين، يجب تخزين البيانات في ملفات نصية. يمكن تحميل PolyBase من أي موقع.
يمكنك استخدام الأدوات والخدمات التالية لنقل البيانات إلى Azure Storage:
قد تحتاج إلى إعداد وتنظيف البيانات في حساب التخزين الخاص بك قبل تحميلها في مجمع SQL المخصص. يمكن إجراء إعداد البيانات أثناء وجود بياناتك في المصدر، أثناء تصدير البيانات إلى الملفات النصية، أو بعد أن تكون البيانات في تخزين Azure. من الأسهل العمل مع البيانات في وقت مبكر من العملية قدر الإمكان.
قبل أن تتمكن من تحميل البيانات، تحتاج إلى تحديد الجداول الخارجية في مستودع البيانات الخاص بك. يستخدم PolyBase جداول خارجية لتحديد البيانات والوصول إليها في Azure Storage. يشبه الجدول الخارجي طريقة عرض قاعدة البيانات. يحتوي الجدول الخارجي على مخطط الجدول ويشير إلى البيانات المخزنة خارج مستودع البيانات.
يتضمن تعريف الجداول الخارجية تحديد مصدر البيانات وتنسيق الملفات النصية وتعريفات الجدول. فيما يلي مواضيع بناء جملة T-SQL التي تحتاج إليها:
بمجرد تحديد العناصر الخارجية، ستحتاج إلى محاذاة صفوف الملفات النصية مع الجدول الخارجي وتعريف تنسيق الملف. يجب أن تتماشى البيانات الموجودة في كل صف من الملف النصي مع تعريف الجدول. لتنسيق الملفات النصية:
من أفضل الممارسات تحميل البيانات في جدول مرحلي. تسمح لك جداول التدريج بمعالجة الأخطاء دون التدخل في جداول الإنتاج. يمنحك الجدول المرحلي أيضاً الفرصة لاستخدام إمكانات معالجة الاستعلام الموزع المضمنة في تجمّع SQL لتحويلات البيانات قبل إدراج البيانات في جداول الإنتاج.
لتحميل البيانات باستخدام PolyBase، يمكنك استخدام أي من خيارات التحميل التالية:
إذا كانت بياناتك غير متوافقة مع PolyBase، يمكنك استخدام bcp أو واجهة برمجة تطبيقات SQLBulkCopy. يتم تحميل BCP مباشرة إلى تجمع SQL المخصص دون المرور عبر موقع تخزين Azure Blob، وهو مخصص للأحمال الصغيرة فقط. لاحظ أن أداء التحميل لهذه الخيارات أبطأ من PolyBase.
في أثناء وجود البيانات في الجدول المرحلي، قم بإجراء التحويلات التي يتطلبها حمل العمل الخاص بك. ثم انقل البيانات إلى جدول الإنتاج.
INSERT INTO ... SELECT
تنقل العبارة البيانات من الجدول المرحلي إلى الجدول الدائم.
في أثناء تصميم عملية ETL، حاول تشغيل العملية على عينة اختبار صغيرة. حاول استخراج 1000 صف من الجدول إلى ملف، ونقله إلى Azure، ثم حاول تحميله في جدول مرحلي.
العديد من شركائنا لديهم حلول تحميل. لمعرفة المزيد، راجع قائمة شركاء الحلول.
حدث
٢ شوال، ١١ م - ٤ شوال، ١١ م
أكبر حدث تعلم Fabric وPower BI وSQL. 31 مارس – 2 أبريل. استخدم التعليمات البرمجية FABINSIDER لتوفير 400 دولار.
تسجيل اليومالتدريب
الوحدة النمطية
Load data into a Microsoft Fabric data warehouse - Training
Explore the process of loading data into a warehouse in Microsoft Fabric.
الشهادة
Microsoft Certified: Azure Data Engineer Associate - Certifications
Demonstrate understanding of common data engineering tasks to implement and manage data engineering workloads on Microsoft Azure, using a number of Azure services.