Udostępnij za pośrednictwem


Eksploracyjna analiza danych w usłudze Azure Databricks: narzędzia i techniki

W tym artykule opisano narzędzia i techniki eksploracyjnej analizy danych (EDA) w usłudze Azure Databricks.

Co to jest EDA i dlaczego jest to przydatne?

Eksploracyjna analiza danych (EDA) obejmuje metody eksplorowania zestawów danych w celu podsumowania ich głównych cech i identyfikowania wszelkich problemów z danymi. Korzystając z metod statystycznych i wizualizacji, możesz dowiedzieć się więcej o zestawie danych, aby określić jego gotowość do analizy i poinformować, jakie techniki mają być stosowane do przygotowywania danych. EDA może również mieć wpływ na algorytmy, które mają być stosowane do trenowania modeli uczenia maszynowego.

Jakie są narzędzia EDA w usłudze Azure Databricks?

Usługa Azure Databricks ma wbudowane narzędzia do analizy i wizualizacji zarówno w usłudze Databricks SQL, jak i w środowisku Databricks Runtime. Aby zapoznać się z ilustrowaną listą typów wizualizacji dostępnych w usłudze Azure Databricks, zobacz Typy wizualizacji.

EDA w usłudze Databricks SQL

Oto kilka przydatnych artykułów dotyczących wizualizacji danych i narzędzi do eksploracji w usłudze Databricks SQL:

EDA w środowisku Databricks Runtime

Środowisko Databricks Runtime udostępnia wstępnie utworzone środowisko, które ma już zainstalowane popularne biblioteki eksploracji danych. Listę wbudowanych bibliotek można wyświetlić w informacjach o wersji.

Ponadto w poniższych artykułach przedstawiono przykłady narzędzi do wizualizacji w środowisku Databricks Runtime:

W notesie języka Python usługi Databricks możesz połączyć języki SQL i Python w celu eksplorowania danych. Po uruchomieniu kodu w komórce języka SQL w notesie języka Python wyniki tabeli są automatycznie udostępniane jako ramka danych języka Python. Aby uzyskać szczegółowe informacje, zobacz Eksplorowanie wyników komórek SQL w notesach języka Python.