نماذج مجموعات البيانات

هناك مجموعة متنوعة من نماذج مجموعات البيانات التي توفرها Azure Databricks وتوفرها جهات خارجية يمكنك استخدامها في مساحة عمل Azure Databricks.

مجموعات بيانات كتالوج Unity

يوفر كتالوج Unity الوصول إلى عدد من مجموعات البيانات النموذجية في الكتالوج samples . يمكنك مراجعة مجموعات البيانات هذه في واجهة مستخدم مستكشف الكتالوج والإشارة إليها مباشرة في دفتر ملاحظات أو في محرر SQL باستخدام <catalog-name>.<schema-name>.<table-name> النمط.

nyctaxi يحتوي المخطط (المعروف أيضا باسم قاعدة البيانات) على الجدول trips، والذي يحتوي على تفاصيل حول رحلات سيارات الأجرة في مدينة نيويورك. ترجع العبارة التالية أول 10 سجلات في هذا الجدول:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpch يحتوي المخطط على بيانات من معيار TPC-H. لسرد الجداول في هذا المخطط، قم بتشغيل:

SHOW TABLES IN samples.tpch

نماذج مجموعات بيانات تابعة لجهة خارجية بتنسيق CSV

يحتوي Azure Databricks على أدوات مضمنة لتحميل مجموعات بيانات عينة تابعة لجهة خارجية بسرعة كملفات قيم مفصولة بفواصل (CSV) في مساحات عمل Azure Databricks. تتوفر بعض مجموعات البيانات النموذجية الشائعة التابعة لجهة خارجية بتنسيق CSV:

نموذج مجموعة بيانات لتنزيل عينة مجموعة البيانات كملف CSV...
تعداد السنجاب على صفحة البيانات على الويب، انقر فوق Park Data،
بيانات السنجاب أو القصص.
مجموعة بيانات OWID في مستودع GitHub، انقر فوق مجلد مجموعات البيانات. انقر فوق المجلد الفرعي الذي يحتوي على مجموعة البيانات الهدف، ثم انقر فوق ملف CSV لمجموعة البيانات.
Data.gov مجموعات بيانات CSV في صفحة ويب نتائج البحث، انقر فوق نتيجة البحث الهدف، وبالتالي أيقونة CSV ، انقر فوق تنزيل.
الماس (يتطلب حساب Kaggle) على صفحة ويب مجموعة البيانات، على علامة التبويب بيانات ، على علامة التبويب بيانات ، بجوار diamonds.csv، انقر فوق الأيقونة تنزيل .
مدة رحلة سيارات الأجرة في مدينة نيويورك (يتطلب حساب Kaggle ) على صفحة ويب مجموعة البيانات، على علامة التبويب بيانات ، إلى جانب sample_submission.zip، انقر فوق زر
أيقونة التنزيل . للعثور على ملفات CSV لمجموعة البيانات، يستخرج محتويات ملف ZIP الذي تم تنزيله.
مشاهد UFO (يتطلب حساب data.world ) على صفحة ويب مجموعة البيانات، بجوار
nuforc_reports.csv، انقر فوق الأيقونة تنزيل.

لاستخدام نماذج مجموعات بيانات تابعة لجهة خارجية في مساحة عمل Azure Databricks، قم بما يلي:

  1. اتبع إرشادات الجهة الخارجية لتنزيل مجموعة البيانات كملف CSV إلى جهازك المحلي.
  2. قم بتحميل ملف CSV من جهازك المحلي إلى مساحة عمل Azure Databricks.
  3. للعمل مع البيانات المستوردة، استخدم Databricks SQL للاستعلام عن البيانات. أو يمكنك استخدام دفتر ملاحظات لتحميل البيانات ك DataFrame.

نماذج مجموعات بيانات تابعة لجهة خارجية داخل المكتبات

تتضمن بعض الجهات الخارجية نماذج مجموعات البيانات داخل المكتبات، مثل حزم فهرس حزمة Python (PyPI) أو حزم شبكة أرشفة R الشاملة (CRAN ). لمزيد من المعلومات، راجع وثائق موفر المكتبة.

مجموعات بيانات Databricks (databricks-datasets) المثبتة على DBFS

توصي Azure Databricks بعدم استخدام DBFS وتخزين الكائنات السحابية المثبتة لمعظم حالات الاستخدام في مساحات عمل Databricks الممكنة لكتالوج Unity. تتوفر بعض نماذج مجموعات البيانات المثبتة على DBFS في Azure Databricks

إشعار

يخضع توفر مجموعات بيانات Databricks وموقعها للتغيير دون إشعار.

استعراض مجموعات بيانات Databricks المثبتة في DBFS

لاستعراض هذه الملفات من دفتر ملاحظات Python أو Scala أو R، يمكنك استخدام مرجع Databricks Utilities (dbutils). تسرد التعليمات البرمجية التالية جميع مجموعات بيانات Databricks المتوفرة.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"