تحميل البيانات لوظائف Apache Hadoop في HDInsight

مقالة
05/10/2024

يوفر HDInsight نظام ملفات موزعة Hadoop (HDFS) عبر تخزين Azure، وتخزين بحيرة البيانات Azure. ويشمل هذا التخزين Gen1 وGen2. تم تصميم تخزين Azure وتخزين بحيرة البيانات Gen1 وGen2 كملحقات HDFS. وهي تمكن المجموعة الكاملة من المكونات في بيئة Hadoop من العمل مباشرة على البيانات التي تديرها. تخزين Azure، Data Lake Storage Gen1، وGen2 هي أنظمة الملفات متميزة. تم تحسين الأنظمة لتخزين البيانات والحساب على تلك البيانات. للحصول على معلومات حول فوائد استخدام تخزين Azure، راجع استخدام تخزين Azure باستخدام HDInsight. انظر أيضا، استخدام البيانات بحيرة تخزين Gen1 مع HDInsight،واستخدام البيانات بحيرة تخزين Gen2 مع HDInsight.

المتطلبات الأساسية

لاحظ المتطلبات التالية قبل البدء:

نظام مجموعة Azure HDInsight. للحصول على إرشادات، راجع البدء باستخدام Azure HDInsight.
معرفة المقالات التالية:

تحميل البيانات إلى تخزين Azure

الأدوات المساعدة

توفر Microsoft الأدوات المساعدة التالية للعمل مع تخزين Azure:

الأداة	Linux	OS X	Windows
⁧⁩مدخل Microsoft Azure⁧⁩	✔	✔	✔
Azure CLI	✔	✔	✔
Azure PowerShell			✔
AzCopy	✔		✔
أمر Hadoop	✔	✔	✔

ملاحظة

يتوفر الأمر Hadoop فقط على نظام المجموعة HDInsight. يسمح الأمر فقط بتحميل البيانات من نظام الملفات المحلي إلى تخزين Azure.

سطر أوامر Hadoop

سطر الأوامر Hadoop مفيد فقط لتخزين البيانات في النقطة تخزين Azure عندما تكون البيانات موجودة بالفعل على عقدة رأس الكتلة.

لاستخدام الأمر Hadoop، يجب عليك أولاً الاتصال بالرأس باستخدام SSH أو PuTTY.

بمجرد الاتصال، يمكنك استخدام بناء الجملة التالي لتحميل ملف إلى المخزن.

hadoop fs -copyFromLocal <localFilePath> <storageFilePath>

على سبيل المثال، hadoop fs -copyFromLocal data.txt /example/data/data.txt

لأن نظام الملفات الافتراضي لـ HDInsight في تخزين Azure، /example/data/data.txt هو في الواقع في تخزين Azure. يمكنك أيضاً الرجوع إلى الملف على النحو التالي:

wasbs:///example/data/data.txt

أو

wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt

للحصول على قائمة بأوامر Hadoop الأخرى التي تعمل مع الملفات، راجع https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

تحذير

على مجموعات Apache HBase حجم الكتلة الافتراضية المستخدمة عند كتابة البيانات 256 كيلو بايت. بينما يعمل هذا بشكل جيد عند استخدام واجهات برمجة التطبيقات HBase أو واجهات برمجة التطبيقات REST، باستخدام hadoop أو hdfs dfs أوامر لكتابة بيانات أكبر من ~ 12 جيجابايت النتائج في خطأ. لمزيد من المعلومات، راجع استثناء التخزين للكتابة على النقطة.

عملاء رسوميين

هناك أيضاً العديد من التطبيقات التي توفر واجهة رسومية للعمل مع تخزين Azure. الجدول التالي هو قائمة بعدد قليل من هذه التطبيقات:

العمیل	Linux	OS X	Windows
Microsoft Visual Studio Tools لـ HDInsight	✔	✔	✔
Azure Storage Explorer	✔	✔	✔
`Cerulea`			✔
CloudXplorer			✔
CloudBerry Explorer لـ Microsoft Azure			✔
Cyberduck		✔	✔

إدخال تخزين Azure كمحرك أقراص محلي

راجع إدخال تخزين Azure كمحرك أقراص محلي.

تحميل استخدام الخدمات

Azure Data Factory

خدمة Azure Data Factory هي خدمة مدارة بالكامل لإنشاء البيانات: خدمات التخزين والمعالجة والحركة في خطوط أنابيب إنتاج بيانات مبسطة وقابلة للتكيف وموثوق بها.

نوع التخزين	‏‏الوثائق
موقع تخزين Azure Blob	نسخ البيانات من أو إلى تخزين Azure Blob باستخدام Azure Data Factory
Azure Data Lake Storage Gen1	نسخ البيانات إلى أو منAzure Data Lake Storage Gen1 باستخدام Azure Data Factory
Azure Data Lake Storage Gen2	حمّل البيانات في Azure Data Lake Storage Gen2 باستخدام مصنع بيانات Azure

Apache Sqoop

Sqoop هي أداة مصممة لنقل البيانات بين Hadoop وقواعد البيانات العلائقية. استخدامه لاستيراد البيانات من نظام إدارة قاعدة البيانات العلائقية (RDBMS)، مثل SQL Server أو MySQL أو Oracle. ثم في نظام الملفات الموزعة Hadoop (HDFS). تحويل البيانات في Hadoop مع MapReduce أو الخلية ثم تصدير البيانات مرة أخرى إلى RDBMS.

لمزيدٍ من المعلومات، راجع استخدام SSH مع HDInsight.

عدة تطوير البرامج للتطوير

يمكن أيضاً الوصول إلى تخزين Azure باستخدام SDK Azure من لغات البرمجة التالية:

.NET
Java
Node.js
PHP
Python
Ruby

لمزيد من المعلومات حول تثبيت Azure SDKs، راجع تنزيلات Azure

الخطوات التالية

الآن بعد أن فهمت كيفية الحصول على البيانات في HDInsight، اقرأ المقالات التالية لمعرفة التحليل:

مشاركة عبر