Обнаружение данных
Azure Databricks предоставляет набор средств и продуктов, упрощающих обнаружение ресурсов данных, доступных через платформу Databricks Data Intelligence. В этой статье представлен обзор того, как можно обнаруживать и просматривать данные, которые уже настроены для доступа в рабочей области.
- Сведения о подключении к источникам данных см. в разделе "Подключение к источникам данных".
- Сведения о получении доступа к данным в Databricks Marketplace см. в статье "Что такое Databricks Marketplace?".
В этом разделе рассматриваются объекты данных и файлы данных. Если вы ищете сведения о работе с ресурсами, такими как записные книжки, запросы SQL, библиотеки и модели, см . статью "Навигация по рабочей области".
Если вы ищете рекомендации по созданию сводной статистики для наборов данных или других задач, связанных с анализом аналитических данных (EDA), ознакомьтесь с аналитическим анализом данных в Azure Databricks: сервис и методы.
Как обнаружить ресурсы данных?
Средства обнаружения данных в Azure Databricks делятся на следующие общие категории:
- Аналитические сведения, сводка и поиск с помощью ИИ.
- Поиск по ключевому слову.
- Просмотр каталога с помощью пользовательского интерфейса.
- Программное описание и исследование метаданных.
Средства обнаружения данных оптимизированы для данных, управляемых каталогом Unity. Ресурсы данных, которые не были зарегистрированы в качестве объектов каталога Unity, могут быть недоступны для обнаружения с помощью некоторых из этих подходов.
Поиск данных с помощью пользовательского интерфейса
Обозреватель каталогов предоставляет средства для изучения и управления ресурсами данных. Вы обращаетесь к обозревателе каталогов с помощью каталога на боковой панели рабочей области. См. раздел "Что такое обозреватель каталогов?".
Записные книжки и редактор запросов SQL также предоставляют навигатор каталога для изучения объектов базы данных. Щелкните значок каталога в этих интерфейсах, чтобы развернуть или свернуть навигатор каталога, не выходя из редактора кода.
После обнаружения интересующего набора данных можно использовать вкладку "Аналитика ", чтобы узнать, как данные используются в рабочей области. Просмотр частых запросов и пользователей таблицы.
Программное изучение данных
Для обнаружения ресурсов, зарегистрированных в каталоге SHOW
Unity, можно использовать команду для всех объектов базы данных. LIST
Используйте команду, магическую команду или служебные %fs
программы Databricks для перечисления файлов.
Ознакомьтесь со сведениями о хранилище и поиске файлов данных и поиске объектов базы данных.
Просмотр комментариев к данным
Вы можете просмотреть комментарии, чтобы узнать о содержимом наборов данных, доступных в lakehouse. Примечания можно задать для объектов данных, включая каталоги, схемы, таблицы и столбцы. Комментарии можно просмотреть в обозревателе каталога или с помощью DESCRIBE
команды для объекта.
Обозреватель каталогов может предоставлять примечания, созданные ИИ для таблиц, что упрощает использование владельцев ресурсов данных для предоставления полного обзора наборов данных. См. сведения о добавлении примечаний, созданных ИИ, в объекты каталога Unity.
Пользователи также могут предоставлять комментарии к таблицам и другим объектам базы данных с помощью markdown, который отображается в обозревателе каталогов. См. раздел "Добавление комментариев к данным и ресурсам ИИ".
Поиск таблиц в lakehouse
Панель поиска в Azure Databricks можно использовать для поиска таблиц, зарегистрированных в каталоге Unity. Вы можете выполнить поиск по ключевым словам или использовать семантический поиск для поиска наборов данных или столбцов, связанных с запросом поиска. Поиск возвращает только результаты для таблиц, которые у вас есть разрешение на просмотр. Поиск проверяет имена таблиц, имена столбцов, примечания к таблицам и примечания к столбцам. См. статью "Поиск объектов рабочей области".