Bevezetés

Befejeződött

Az Apache Spark egy nyílt forráskód párhuzamos feldolgozási keretrendszer nagy léptékű adatfeldolgozáshoz és elemzéshez. A Spark rendkívül népszerűvé vált a "big data" feldolgozási forgatókönyvekben, és több platform implementációjában is elérhető; beleértve az Azure HDInsightot, az Azure Databrickset és az Azure Synapse Analyticset.

Ez a modul bemutatja, hogyan használhatja a Sparkot az Azure Synapse Analyticsben adatok betöltésére, feldolgozására és elemzésére egy adattóból. Bár az ebben a modulban ismertetett alapvető technikák és kód minden Spark-implementációban gyakoriak, az integrált eszközök és a Sparkkal való együttműködés képessége ugyanabban a környezetben, mint a többi Synapse elemzési futtatókörnyezet, az Azure Synapse Analyticsre jellemző.

A modul befejezését követően az alábbiakra lesz képes:

  • Az Apache Spark alapvető funkcióinak és képességeinek azonosítása.
  • Spark-készlet konfigurálása az Azure Synapse Analyticsben.
  • Kód futtatása a Spark-jegyzetfüzetek adatainak betöltéséhez, elemzéséhez és vizualizációjához.