Примеры наборов данных
Существует множество примеров наборов данных, предоставляемых Azure Databricks и предоставляемых сторонними лицами, которые можно использовать в рабочей области Azure Databricks.
Наборы данных каталога Unity
Каталог Unity предоставляет доступ к ряду примеров наборов данных в каталоге samples
. Эти наборы данных можно просмотреть в пользовательском интерфейсе каталога Обозреватель и ссылаться на них непосредственно в записной книжке или в редакторе <catalog-name>.<schema-name>.<table-name>
SQL с помощью шаблона.
Схема nyctaxi
(также известная как база данных) содержит таблицу trips
, которая содержит сведения о поездках на такси в Нью-Йорке. Следующая инструкция возвращает первые 10 записей в этой таблице:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Схема tpch
содержит данные из TPC-H Benchmark. Чтобы получить список таблиц в этой схеме, выполните следующую команду:
SHOW TABLES IN samples.tpch
Наборы данных Databricks (databricks-datasets)
Azure Databricks включает различные примеры наборов данных, подключенных к DBFS.
Примечание.
Доступность и расположение наборов данных Databricks могут изменяться без уведомления.
Просмотр наборов данных Azure Databricks
Чтобы просмотреть эти файлы из записной книжки Python, Scala или R, можно использовать ссылку Databricks Utilities (dbutils). В следующем коде перечислены все доступные наборы данных Databricks.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"
Получение сведений о наборах данных Databricks
Чтобы получить дополнительные сведения о наборе данных Databricks, можно использовать локальный API файлов для печати набора README
данных (если он доступен) с помощью записной книжки Python, R или Scala, как показано в этом примере кода.
Python
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
R
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Создание таблицы на основе набора данных Databricks
В этом примере кода показано, как использовать SQL в редакторе SQL или как использовать записные книжки SQL, Python, Scala или R для создания таблицы на основе набора данных Databricks:
SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Сторонние примеры наборов данных в формате CSV
Azure Databricks имеет встроенные средства для быстрого отправки сторонних примеров наборов данных в виде файлов с разделием запятыми (CSV) в рабочие области Azure Databricks. Некоторые популярные сторонние примеры наборов данных, доступные в формате CSV:
Пример набора данных | Скачивание примера набора данных в виде CSV-файла... |
---|---|
Перепись белка | На веб-странице "Данные" щелкните "Парк данных", Беличьи данные или истории. |
Коллекция наборов данных OWID | В репозитории GitHub щелкните папку наборов данных. Щелкните вложенную папку, содержащую целевой набор данных, и выберите CSV-файл набора данных. |
наборы данных DATA.GOV CSV | На веб-странице результатов поиска щелкните целевой результат поиска и рядом с значком CSV нажмите кнопку "Скачать". |
Алмазы (требуется учетная запись Kaggle) | На веб-странице набора данных на вкладке "Данные" на вкладке "Данные" рядом с diamonds.csv щелкните значок "Скачать". |
Длительность поездки в такси Нью-Йорка (требуетсяучетная запись Kaggle ) | На веб-странице набора данных на вкладке "Данные" рядом с sample_submission.zip щелкните Значок скачивания . Чтобы найти CSV-файлы набора данных, извлекает содержимое скачаированного ZIP-файла. |
Просмотры UFO (требуется учетная запись data.world ) | На веб-странице набора данных рядом с nuforc_reports.csv щелкните значок скачивания. |
Чтобы использовать сторонние примеры наборов данных в рабочей области Azure Databricks, сделайте следующее:
- Следуйте инструкциям сторонних разработчиков, чтобы скачать набор данных в виде CSV-файла на локальный компьютер.
- Отправьте CSV-файл с локального компьютера в рабочую область Azure Databricks.
- Чтобы работать с импортированными данными, используйте Databricks SQL для запроса данных. Также можно использовать записную книжку для загрузки данных в виде кадра данных.
Сторонние примеры наборов данных в библиотеках
Некоторые третьи стороны включают примеры наборов данных в библиотеках, таких как пакеты индексов пакетов Python (PyPI) или комплексные пакеты архивной сети R (CRAN). Дополнительные сведения см. в документации поставщика библиотеки.
- Сведения об установке библиотеки в кластере Azure Databricks с помощью пользовательского интерфейса кластера см. в разделе "Библиотеки кластеров".
- Чтобы установить библиотеку Python с помощью записной книжки Azure Databricks, ознакомьтесь с библиотеками Python, область d Notebook.
- Чтобы установить библиотеку R с помощью записной книжки Azure Databricks, ознакомьтесь с библиотеками Notebook область R.
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по