Feltáró adatelemzés az Azure Databricksen: Eszközök és technikák
Ez a cikk az Azure Databricks feltáró adatelemzési (EDA) eszközeit és technikáit ismerteti.
Mi az EDA, és miért hasznos?
A felderítő adatelemzés (EDA) olyan módszereket tartalmaz az adathalmazok feltárására, amelyek összefoglalják fő jellemzőiket, és azonosítják az adatokkal kapcsolatos problémákat. Statisztikai módszerek és vizualizációk használatával megismerheti az adathalmazokat, amelyek meghatározzák az elemzésre való felkészültséget, és tájékoztatják, hogy milyen technikákat kell alkalmazni az adat-előkészítéshez. Az EDA azt is befolyásolhatja, hogy mely algoritmusokat alkalmazza a betanítási ML-modellekre.
Mik az EDA-eszközök az Azure Databricksben?
Az Azure Databricks beépített elemzési és vizualizációs eszközökkel rendelkezik a Databricks SQL-ben és a Databricks Runtime-ban is. Az Azure Databricksben elérhető vizualizációtípusok illusztrált listáját a Vizualizációtípusok című témakörben találja.
EDA a Databricks SQL-ben
Íme néhány hasznos cikk a Databricks SQL adatvizualizációs és feltárási eszközeiről:
- Lekérdezések vizualizációja és irányítópult létrehozása
- Adatvizualizációk létrehozása a Databricks SQL-ben
EDA a Databricks Runtime-ban
A Databricks Runtime egy előre elkészített környezetet biztosít, amely már telepített népszerű adatfeltáró kódtárakat tartalmaz. A beépített kódtárak listáját a kibocsátási megjegyzésekben tekintheti meg.
Ezenkívül a következő cikkek példákat mutatnak be a Databricks Runtime vizualizációs eszközeire:
- Adatvizualizációk létrehozása Databricks-jegyzetfüzetekben
- Kód nélküli EDA használata bambuszlib használatával
A Databricks Python-jegyzetfüzetekben az SQL és a Python kombinálásával feltárhatja az adatokat. Amikor kódokat futtat egy SQL-nyelvcellában egy Python-jegyzetfüzetben, a rendszer automatikusan elérhetővé teszi a tábla eredményeit Python DataFrame-ként. További részletekért lásd : Sql-cellaeredmények felfedezése Python-jegyzetfüzetekben.