Примеры наборов данных

Существует множество примеров наборов данных, предоставляемых Azure Databricks и предоставляемых сторонними лицами, которые можно использовать в рабочей области Azure Databricks.

Наборы данных каталога Unity

Каталог Unity предоставляет доступ к ряду примеров наборов данных в каталоге samples . Эти наборы данных можно просмотреть в пользовательском интерфейсе каталога Обозреватель и ссылаться на них непосредственно в записной книжке или в редакторе <catalog-name>.<schema-name>.<table-name> SQL с помощью шаблона.

Схема nyctaxi (также известная как база данных) содержит таблицу trips, которая содержит сведения о поездках на такси в Нью-Йорке. Следующая инструкция возвращает первые 10 записей в этой таблице:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Схема tpch содержит данные из TPC-H Benchmark. Чтобы получить список таблиц в этой схеме, выполните следующую команду:

SHOW TABLES IN samples.tpch

Наборы данных Databricks (databricks-datasets)

Azure Databricks включает различные примеры наборов данных, подключенных к DBFS.

Примечание.

Доступность и расположение наборов данных Databricks могут изменяться без уведомления.

Просмотр наборов данных Azure Databricks

Чтобы просмотреть эти файлы из записной книжки Python, Scala или R, можно использовать ссылку Databricks Utilities (dbutils). В следующем коде перечислены все доступные наборы данных Databricks.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Получение сведений о наборах данных Databricks

Чтобы получить дополнительные сведения о наборе данных Databricks, можно использовать локальный API файлов для печати набора README данных (если он доступен) с помощью записной книжки Python, R или Scala, как показано в этом примере кода.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Создание таблицы на основе набора данных Databricks

В этом примере кода показано, как использовать SQL в редакторе SQL или как использовать записные книжки SQL, Python, Scala или R для создания таблицы на основе набора данных Databricks:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Сторонние примеры наборов данных в формате CSV

Azure Databricks имеет встроенные средства для быстрого отправки сторонних примеров наборов данных в виде файлов с разделием запятыми (CSV) в рабочие области Azure Databricks. Некоторые популярные сторонние примеры наборов данных, доступные в формате CSV:

Пример набора данных Скачивание примера набора данных в виде CSV-файла...
Перепись белка На веб-странице "Данные" щелкните "Парк данных",
Беличьи данные или истории.
Коллекция наборов данных OWID В репозитории GitHub щелкните папку наборов данных. Щелкните вложенную папку, содержащую целевой набор данных, и выберите CSV-файл набора данных.
наборы данных DATA.GOV CSV На веб-странице результатов поиска щелкните целевой результат поиска и рядом с значком CSV нажмите кнопку "Скачать".
Алмазы (требуется учетная запись Kaggle) На веб-странице набора данных на вкладке "Данные" на вкладке "Данные" рядом с diamonds.csv щелкните значок "Скачать".
Длительность поездки в такси Нью-Йорка (требуетсяучетная запись Kaggle ) На веб-странице набора данных на вкладке "Данные" рядом с sample_submission.zip щелкните
Значок скачивания . Чтобы найти CSV-файлы набора данных, извлекает содержимое скачаированного ZIP-файла.
Просмотры UFO (требуется учетная запись data.world ) На веб-странице набора данных рядом с
nuforc_reports.csv щелкните значок скачивания.

Чтобы использовать сторонние примеры наборов данных в рабочей области Azure Databricks, сделайте следующее:

  1. Следуйте инструкциям сторонних разработчиков, чтобы скачать набор данных в виде CSV-файла на локальный компьютер.
  2. Отправьте CSV-файл с локального компьютера в рабочую область Azure Databricks.
  3. Чтобы работать с импортированными данными, используйте Databricks SQL для запроса данных. Также можно использовать записную книжку для загрузки данных в виде кадра данных.

Сторонние примеры наборов данных в библиотеках

Некоторые третьи стороны включают примеры наборов данных в библиотеках, таких как пакеты индексов пакетов Python (PyPI) или комплексные пакеты архивной сети R (CRAN). Дополнительные сведения см. в документации поставщика библиотеки.