Adatok átalakítása Azure Data Factory és Azure Synapse Analytics

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Fontos

Az Azure Machine Learning Studio (klasszikus) támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy Azure Machine Learning használatára váltson addig az időpontig.

2021. december 1-től nem hozhat létre új Machine Learning Studio (klasszikus) erőforrásokat (munkaterület és webszolgáltatás-csomag). 2024. augusztus 31-ig továbbra is használhatja a meglévő Machine Learning Studio (klasszikus) kísérleteket és webszolgáltatásokat. További információk:

Machine Learning Studio (klasszikus) dokumentáció kivezetése folyamatban van, és előfordulhat, hogy a jövőben nem frissül.

Áttekintés

Ez a cikk Azure Data Factory és Synapse-folyamatok adatátalakítási tevékenységeit ismerteti, amelyekkel a nyers adatokat nagy léptékű előrejelzésekké és elemzésekké alakíthatja és feldolgozhatja. Egy átalakítási tevékenységet hajtanak végre számítástechnikai környezetben, például az Azure Databricks vagy az Azure HDInsight. Az egyes átalakítási tevékenységekről részletes információkat tartalmazó cikkekre mutató hivatkozásokat tartalmaz.

A szolgáltatás az alábbi adatátalakítási tevékenységeket támogatja, amelyek egyenként vagy más tevékenységgel láncolt folyamatokhoz adhatók hozzá.

Natív átalakítás Azure Data Factory és Azure Synapse Analytics adatfolyamokkal

Adatfolyamok leképezése

** Az Azure Data Factory és az Azure Synapse környezetben a leképezési adatfolyamok vizuálisan megtervezett adatátalakításokat jelentenek. Az adatfolyamokkal az adatmérnökök kódírás nélkül fejleszthetnek grafikus adatátalakítási logikát. Az eredményként kapott adatfolyamok olyan folyamatok tevékenységeiként lesznek végrehajtva, amelyek kibővített Spark-fürtöket használnak. Az adatfolyam-tevékenységek a szolgáltatáson belüli meglévő ütemezési, vezérlési, folyamat- és monitorozási képességekkel kezelhetők. További információ: adatfolyamok leképezése.

Adat-előkészítés

A Power Query az Azure Data Factory-ben lehetővé teszi a felhőalapú adatcsomózást, így kódmentesen és iteratívan készíthet elő adatokat felhőszinten. Az adatcsiszolás integrálódik a Power Query Online-nal, és elérhetővé teszi a Power Query M függvényeket az adatok felhőbeli skálázásához Spark végrehajtással. További információkért lásd a adatkezelést az Azure Data Factory-ben.

Feljegyzés

Power Query jelenleg csak Azure Data Factory támogatott, és nem Azure Synapse. Az egyes szolgáltatásokban támogatott funkciók listáját az Azure Data Factory és az Azure Synapse Analytics folyamatok elérhető funkcióit ismertető cikkben találja.

Külső átalakítások

Igény szerint manuálisan is elvégezheti az átalakításokat, és saját maga kezelheti a külső számítási környezetet.

HDInsight Hive-tevékenység

A HDInsight Hive-tevékenység a folyamatban Hive-lekérdezéseket hajt végre az adott vagy igény szerint beállított Windows/Linux-alapú HDInsight-fürtön. A tevékenység részleteiért tekintse meg a Hive-tevékenységről szóló cikket.

HDInsight Pig-tevékenység

A folyamat HDInsight Pig-tevékenysége saját vagy igény szerinti Windows/Linux-alapú HDInsight-fürtön hajtja végre a Pig-lekérdezéseket. A tevékenység részleteiért olvassa el a Pig tevékenységéről szóló cikket.

HDInsight MapReduce-tevékenység

A folyamat HDInsight MapReduce-tevékenysége saját vagy igény szerinti Windows/Linux-alapú HDInsight-fürtön hajtja végre a MapReduce-programokat. A tevékenység részleteiért tekintse meg a MapReduce tevékenységről szóló cikket.

HDInsight Streaming-tevékenység

Az HDInsight Streaming tevékenység saját vagy igény szerinti Windows/Linux-alapú HDInsight-fürtön hajtja végre a Hadoop Streaming-programokat. Erről a tevékenységről további információt a HDInsight Streaming tevékenységében talál.

HDInsight Spark-tevékenység

A folyamat HDInsight Spark-tevékenysége Spark-programokat hajt végre a saját HDInsight-fürtöjén. Lásd a részleteket a Spark-programok Azure Data Factory-val vagy Azure Synapse Analytics-szel történő meghívásáról a című részben.

ML Studio (klasszikus) tevékenységek

Fontos

Az Azure Machine Learning Studio (klasszikus) támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy Azure Machine Learning használatára váltson addig az időpontig.

2021. december 1-től nem hozhat létre új Machine Learning Studio (klasszikus) erőforrásokat (munkaterület és webszolgáltatás-csomag). 2024. augusztus 31-ig továbbra is használhatja a meglévő Machine Learning Studio (klasszikus) kísérleteket és webszolgáltatásokat. További információk:

Machine Learning Studio (klasszikus) dokumentáció kivezetése folyamatban van, és előfordulhat, hogy a jövőben nem frissül.

A szolgáltatás lehetővé teszi, hogy könnyen hozzon létre folyamatokat, amelyek egy közzétett ML Studio (klasszikus) webszolgáltatást használnak prediktív elemzéshez. A Batch-végrehajtási tevékenység folyamaton belüli használatával meghívhat egy Studio (klasszikus) webszolgáltatást, amely előrejelzéseket készít a kötegben lévő adatokról.

Idővel a Studio (klasszikus) pontozási kísérleteinek prediktív modelljeit új bemeneti adatkészletek használatával kell újratanulni. Miután végzett az újratanítással, frissítenie kell a pontozó webszolgáltatást az újratanított gépi tanulási modellel. Az Erőforrás frissítése tevékenységgel frissítheti a webszolgáltatást az újonnan betanított modellel.

A Studio (klasszikus) tevékenységeinek részleteiért tekintse meg az ML Studio (klasszikus) tevékenységeinek használatát.

Tárolt eljárástevékenység

A Data Factory-folyamatokban a SQL Server tárolt eljárás tevékenységével meghívhat egy tárolt eljárást a következő adattárak egyikében: Azure SQL Database, Azure Synapse Analytics, SQL Server adatbázis a vállalatában vagy egy Azure virtuális gépen. Részletekért lásd a Tárolt eljárás tevékenységről szóló cikket.

Data Lake Analytics U-SQL-tevékenység

A Data Lake Analytics U-SQL tevékenység egy U-SQL szkriptet futtat egy Azure Data Lake Analytics fürtön. Részletekért tekintse meg a Data Analytics U-SQL-tevékenységről szóló cikkét.

Azure Synapse jegyzetfüzet-tevékenység

A Synapse-folyamat Azure Synapse jegyzetfüzet-tevékenysége egy Synapse-jegyzetfüzetet futtat a Azure Synapse munkaterületen. Lásd: Adatok átalakítása egy Azure Synapse jegyzetfüzet futtatásával.

Databricks Notebook-tevékenység

Az Azure Databricks jegyzetfüzet-tevékenység egy Databricks-jegyzetfüzetet futtat az Azure Databricks munkaterületen egy folyamatban. Azure Databricks egy felügyelt platform az Apache Spark futtatásához. Lásd: Adatok átalakítása Databricks-jegyzetfüzet futtatásával.

Databricks Jar-tevékenység

Az Azure Databricks-folyamat Jar-tevékenysége egy Spark Jar-t futtat az Azure Databricks-fürtön. Azure Databricks egy felügyelt platform az Apache Spark futtatásához. Tekintse meg az adatok átalakítását egy Jar-tevékenység futtatásával az Azure Databricksben.

Databricks Python tevékenység

A Azure Databricks Python tevékenysége egy Python fájlt futtat az Azure Databricks-fürtben. Azure Databricks egy felügyelt platform az Apache Spark futtatásához. Lásd: Adatok átalakítása egy Python tevékenység futtatásával az Azure Databricksben.

Egyéni tevékenység

Ha olyan módon kell átalakítania az adatokat, amelyet a Data Factory nem támogat, létrehozhat egy egyéni műveletet saját adatfeldolgozási logikával, és használhatja a pipeline-et. Az egyéni .NET tevékenységet úgy konfigurálhatja, hogy egy Azure Batch szolgáltatás vagy egy Azure HDInsight fürt használatával fusson. Részletekért lásd az Egyéni tevékenységek használata című cikket.

Létrehozhat egy egyéni tevékenységet R-parancsfájlok futtatására egy olyan HDInsight-fürtön, amelyen telepítve van az R. Lásd: R-szkript futtatása Azure Data Factory és Synapse-folyamatok használatával.

Számítási környezetek

Létrehoz egy társított szolgáltatást a számítási környezethez, majd egy átalakítási tevékenység definiálásakor használja a társított szolgáltatást. A számítási környezetek két támogatott típusa létezik.

  • Igény szerinti: Ebben az esetben a számítási környezetet teljes mértékben a szolgáltatás felügyeli. A szolgáltatás automatikusan létrehozza, mielőtt egy feladatot elküldenek az adatok feldolgozására, és eltávolítja a feladat befejezésekor. Konfigurálhatja és szabályozhatja az igény szerinti számítási környezet részletes beállításait a feladatok végrehajtásához, a fürtkezeléshez és a rendszerindítási műveletekhez.
  • Saját eszközök használata: Ebben az esetben lehetősége van regisztrálni saját számítási környezetét, például egy HDInsight-fürtöt, társított szolgáltatásként. A számítási környezetet Ön felügyeli, és a szolgáltatás a tevékenységek végrehajtásához használja.

A támogatott számítási szolgáltatásokról a Compute Linked Services cikk nyújt tájékoztatást.

Az átalakítási tevékenység használatára az alábbi oktatóanyagban talál példát: Oktatóanyag: adatok átalakítása a Spark használatával