نماذج مجموعات البيانات
هناك مجموعة متنوعة من نماذج مجموعات البيانات التي توفرها Azure Databricks وتوفرها جهات خارجية يمكنك استخدامها في مساحة عمل Azure Databricks.
مجموعات بيانات كتالوج Unity
يوفر كتالوج Unity الوصول إلى عدد من مجموعات البيانات النموذجية في الكتالوج samples
. يمكنك مراجعة مجموعات البيانات هذه في واجهة مستخدم مستكشف الكتالوج والإشارة إليها مباشرة في دفتر ملاحظات أو في محرر SQL باستخدام <catalog-name>.<schema-name>.<table-name>
النمط.
nyctaxi
يحتوي المخطط (المعروف أيضا باسم قاعدة البيانات) على الجدول trips
، والذي يحتوي على تفاصيل حول رحلات سيارات الأجرة في مدينة نيويورك. ترجع العبارة التالية أول 10 سجلات في هذا الجدول:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
tpch
يحتوي المخطط على بيانات من معيار TPC-H. لسرد الجداول في هذا المخطط، قم بتشغيل:
SHOW TABLES IN samples.tpch
مجموعات بيانات Databricks (databricks-datasets)
يتضمن Azure Databricks مجموعة متنوعة من نماذج مجموعات البيانات المثبتة على DBFS.
إشعار
يخضع توفر مجموعات بيانات Databricks وموقعها للتغيير دون إشعار.
استعراض مجموعات بيانات Databricks
لاستعراض هذه الملفات من دفتر ملاحظات Python أو Scala أو R، يمكنك استخدام مرجع Databricks Utilities (dbutils). تسرد التعليمات البرمجية التالية جميع مجموعات بيانات Databricks المتوفرة.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"
الحصول على معلومات حول مجموعات بيانات Databricks
للحصول على مزيد من المعلومات حول مجموعة بيانات Databricks، يمكنك استخدام واجهة برمجة تطبيقات ملف محلي لطباعة مجموعة README
البيانات (إذا كانت متوفرة) باستخدام دفتر ملاحظات Python أو R أو Scala، كما هو موضح في مثال التعليمات البرمجية هذا.
Python
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
R
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
إنشاء جدول استنادا إلى مجموعة بيانات Databricks
يوضح مثال التعليمات البرمجية هذا كيفية استخدام SQL في محرر SQL، أو كيفية استخدام دفاتر ملاحظات SQL أو Python أو Scala أو R، لإنشاء جدول استنادا إلى مجموعة بيانات Databricks:
SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
نماذج مجموعات بيانات تابعة لجهة خارجية بتنسيق CSV
يحتوي Azure Databricks على أدوات مضمنة لتحميل مجموعات بيانات عينة تابعة لجهة خارجية بسرعة كملفات قيم مفصولة بفواصل (CSV) في مساحات عمل Azure Databricks. تتوفر بعض مجموعات البيانات النموذجية الشائعة التابعة لجهة خارجية بتنسيق CSV:
نموذج مجموعة بيانات | لتنزيل عينة مجموعة البيانات كملف CSV... |
---|---|
تعداد السنجاب | على صفحة البيانات على الويب، انقر فوق Park Data، بيانات السنجاب أو القصص. |
مجموعة بيانات OWID | في مستودع GitHub، انقر فوق مجلد مجموعات البيانات. انقر فوق المجلد الفرعي الذي يحتوي على مجموعة البيانات الهدف، ثم انقر فوق ملف CSV لمجموعة البيانات. |
Data.gov مجموعات بيانات CSV | في صفحة ويب نتائج البحث، انقر فوق نتيجة البحث الهدف، وبالتالي أيقونة CSV ، انقر فوق تنزيل. |
الماس (يتطلب حساب Kaggle) | على صفحة ويب مجموعة البيانات، على علامة التبويب بيانات ، على علامة التبويب بيانات ، بجوار diamonds.csv، انقر فوق الأيقونة تنزيل . |
مدة رحلة سيارات الأجرة في مدينة نيويورك (يتطلب حساب Kaggle ) | على صفحة ويب مجموعة البيانات، على علامة التبويب بيانات ، إلى جانب sample_submission.zip، انقر فوق زر أيقونة التنزيل . للعثور على ملفات CSV لمجموعة البيانات، يستخرج محتويات ملف ZIP الذي تم تنزيله. |
مشاهد UFO (يتطلب حساب data.world ) | على صفحة ويب مجموعة البيانات، بجوار nuforc_reports.csv، انقر فوق الأيقونة تنزيل. |
لاستخدام نماذج مجموعات بيانات تابعة لجهة خارجية في مساحة عمل Azure Databricks، قم بما يلي:
- اتبع إرشادات الجهة الخارجية لتنزيل مجموعة البيانات كملف CSV إلى جهازك المحلي.
- قم بتحميل ملف CSV من جهازك المحلي إلى مساحة عمل Azure Databricks.
- للعمل مع البيانات المستوردة، استخدم Databricks SQL للاستعلام عن البيانات. أو يمكنك استخدام دفتر ملاحظات لتحميل البيانات ك DataFrame.
نماذج مجموعات بيانات تابعة لجهة خارجية داخل المكتبات
تتضمن بعض الجهات الخارجية نماذج مجموعات البيانات داخل المكتبات، مثل حزم فهرس حزمة Python (PyPI) أو حزم شبكة أرشفة R الشاملة (CRAN ). لمزيد من المعلومات، راجع وثائق موفر المكتبة.
- لتثبيت مكتبة على مجموعة Azure Databricks باستخدام واجهة مستخدم نظام المجموعة، راجع مكتبات نظام المجموعة.
- لتثبيت مكتبة Python باستخدام دفتر ملاحظات Azure Databricks، راجع مكتبات Python ذات نطاق دفتر الملاحظات.
- لتثبيت مكتبة R باستخدام دفتر ملاحظات Azure Databricks، راجع مكتبات R ذات نطاق دفتر الملاحظات.
الملاحظات
https://aka.ms/ContentUserFeedback.
قريبًا: خلال عام 2024، سنتخلص تدريجيًا من GitHub Issues بوصفها آلية إرسال ملاحظات للمحتوى ونستبدلها بنظام ملاحظات جديد. لمزيد من المعلومات، راجعإرسال الملاحظات وعرضها المتعلقة بـ