نماذج مجموعات البيانات

هناك مجموعة متنوعة من نماذج مجموعات البيانات التي توفرها Azure Databricks وتوفرها جهات خارجية يمكنك استخدامها في مساحة عمل Azure Databricks.

مجموعات بيانات كتالوج Unity

يوفر كتالوج Unity الوصول إلى عدد من مجموعات البيانات النموذجية في الكتالوج samples . يمكنك مراجعة مجموعات البيانات هذه في واجهة مستخدم مستكشف الكتالوج والإشارة إليها مباشرة في دفتر ملاحظات أو في محرر SQL باستخدام <catalog-name>.<schema-name>.<table-name> النمط.

nyctaxi يحتوي المخطط (المعروف أيضا باسم قاعدة البيانات) على الجدول trips، والذي يحتوي على تفاصيل حول رحلات سيارات الأجرة في مدينة نيويورك. ترجع العبارة التالية أول 10 سجلات في هذا الجدول:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpch يحتوي المخطط على بيانات من معيار TPC-H. لسرد الجداول في هذا المخطط، قم بتشغيل:

SHOW TABLES IN samples.tpch

مجموعات بيانات Databricks (databricks-datasets)

يتضمن Azure Databricks مجموعة متنوعة من نماذج مجموعات البيانات المثبتة على DBFS.

إشعار

يخضع توفر مجموعات بيانات Databricks وموقعها للتغيير دون إشعار.

استعراض مجموعات بيانات Databricks

لاستعراض هذه الملفات من دفتر ملاحظات Python أو Scala أو R، يمكنك استخدام مرجع Databricks Utilities (dbutils). تسرد التعليمات البرمجية التالية جميع مجموعات بيانات Databricks المتوفرة.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

الحصول على معلومات حول مجموعات بيانات Databricks

للحصول على مزيد من المعلومات حول مجموعة بيانات Databricks، يمكنك استخدام واجهة برمجة تطبيقات ملف محلي لطباعة مجموعة README البيانات (إذا كانت متوفرة) باستخدام دفتر ملاحظات Python أو R أو Scala، كما هو موضح في مثال التعليمات البرمجية هذا.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

إنشاء جدول استنادا إلى مجموعة بيانات Databricks

يوضح مثال التعليمات البرمجية هذا كيفية استخدام SQL في محرر SQL، أو كيفية استخدام دفاتر ملاحظات SQL أو Python أو Scala أو R، لإنشاء جدول استنادا إلى مجموعة بيانات Databricks:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

نماذج مجموعات بيانات تابعة لجهة خارجية بتنسيق CSV

يحتوي Azure Databricks على أدوات مضمنة لتحميل مجموعات بيانات عينة تابعة لجهة خارجية بسرعة كملفات قيم مفصولة بفواصل (CSV) في مساحات عمل Azure Databricks. تتوفر بعض مجموعات البيانات النموذجية الشائعة التابعة لجهة خارجية بتنسيق CSV:

نموذج مجموعة بيانات لتنزيل عينة مجموعة البيانات كملف CSV...
تعداد السنجاب على صفحة البيانات على الويب، انقر فوق Park Data،
بيانات السنجاب أو القصص.
مجموعة بيانات OWID في مستودع GitHub، انقر فوق مجلد مجموعات البيانات. انقر فوق المجلد الفرعي الذي يحتوي على مجموعة البيانات الهدف، ثم انقر فوق ملف CSV لمجموعة البيانات.
Data.gov مجموعات بيانات CSV في صفحة ويب نتائج البحث، انقر فوق نتيجة البحث الهدف، وبالتالي أيقونة CSV ، انقر فوق تنزيل.
الماس (يتطلب حساب Kaggle) على صفحة ويب مجموعة البيانات، على علامة التبويب بيانات ، على علامة التبويب بيانات ، بجوار diamonds.csv، انقر فوق الأيقونة تنزيل .
مدة رحلة سيارات الأجرة في مدينة نيويورك (يتطلب حساب Kaggle ) على صفحة ويب مجموعة البيانات، على علامة التبويب بيانات ، إلى جانب sample_submission.zip، انقر فوق زر
أيقونة التنزيل . للعثور على ملفات CSV لمجموعة البيانات، يستخرج محتويات ملف ZIP الذي تم تنزيله.
مشاهد UFO (يتطلب حساب data.world ) على صفحة ويب مجموعة البيانات، بجوار
nuforc_reports.csv، انقر فوق الأيقونة تنزيل.

لاستخدام نماذج مجموعات بيانات تابعة لجهة خارجية في مساحة عمل Azure Databricks، قم بما يلي:

  1. اتبع إرشادات الجهة الخارجية لتنزيل مجموعة البيانات كملف CSV إلى جهازك المحلي.
  2. قم بتحميل ملف CSV من جهازك المحلي إلى مساحة عمل Azure Databricks.
  3. للعمل مع البيانات المستوردة، استخدم Databricks SQL للاستعلام عن البيانات. أو يمكنك استخدام دفتر ملاحظات لتحميل البيانات ك DataFrame.

نماذج مجموعات بيانات تابعة لجهة خارجية داخل المكتبات

تتضمن بعض الجهات الخارجية نماذج مجموعات البيانات داخل المكتبات، مثل حزم فهرس حزمة Python (PyPI) أو حزم شبكة أرشفة R الشاملة (CRAN ). لمزيد من المعلومات، راجع وثائق موفر المكتبة.