Concepten voor opname van CSV-parser

Een CSV-bestand (door komma's gescheiden waarden) is een door komma's gescheiden tekstbestand dat wordt gebruikt om gegevens op te slaan in een gestructureerde tabelindeling.

Met een CSV-parser DAG kan een klant gegevens laden in microsoft Azure Data Manager for Energy-exemplaar op basis van een aangepast schema, een schema dat niet overeenkomt met het BEKENDE OSDU-schema® (WKS). Klanten moeten het aangepaste schema maken en registreren met behulp van de Schema-service voordat ze de gegevens laden.

Een CSV Parser DAG implementeert een ELT-benadering (Extract Load and Transform) voor het laden van gegevens, dat wil gezegd: gegevens worden eerst geëxtraheerd uit het bronsysteem in een CSV-indeling en worden geladen in de Instantie van Azure Data Manager for Energy. Deze kan vervolgens worden getransformeerd naar het bekende OSDU-schema® met behulp van een toewijzingsservice.

Wat doet CSV-opname?

Met een CSV-parser DAG kunnen klanten de CSV-gegevens laden in het Microsoft Azure Data Manager for Energy-exemplaar. Elke rij van een CSV-bestand wordt geparseerd en er wordt een opslagmetagegevensrecord gemaakt. Het voert uit schema validation om ervoor te zorgen dat de CSV-gegevens voldoen aan het geregistreerde aangepaste schema. Deze wordt automatisch uitgevoerd type coercion op de kolommen op basis van de definitie van het schemagegevenstype. Het genereert unique id voor elke rij van de CSV-record door bron, entiteitstype en een met Base64 gecodeerde tekenreeks te combineren die wordt gevormd door het samenvoegen van natuurlijke sleutel(s) in de gegevens. Het wordt uitgevoerd unit conversion door gedeclareerde referentiegegevens te converteren naar de juiste persistente verwijzing met behulp van de eenheidsservice. Deze wordt uitgevoerd CRS conversion voor ruimtelijk bewuste kolommen op basis van de foR-gegevens (Frame of Reference) die aanwezig zijn in het schema. Er worden metagegevens gemaakt relationships zoals gedeclareerd in het bronschema. Ten slotte persists wordt het de metagegevensrecord met behulp van de Storage-service.

Onderdelen van csv-parseropname

De WERKstroom CSV Parser DAG bestaat uit de volgende services:

  • Bestandsservice vereenvoudigt het beheer van bestanden in de Azure Data Manager for Energy-instantie. Hiermee kan de gebruiker bestanden veilig uploaden, detecteren en downloaden vanaf het gegevensplatform.
  • Schemaservice vereenvoudigt het beheer van schema's in het Azure Data Manager for Energy-exemplaar. Hiermee kan de gebruiker schema's maken, ophalen en zoeken in het gegevensplatform.
  • Storage Service vereenvoudigt de opslag van metagegevensgegevens voor domeinentiteiten die zijn opgenomen in het gegevensplatform. Het genereert ook wijzigingengebeurtenissen voor opslagrecords waarmee downstreamservices bewerkingen kunnen uitvoeren op opgenomen metagegevensrecords.
  • Unit Service faciliteert het beheer en de conversie van eenheden
  • Werkstroomservice vereenvoudigt het beheer van werkstromen in het Azure Data Manager for Energy-exemplaar. Het is een wrapper-service bovenop de Airflow-indelingsengine.

Diagram van CSV-opnameonderdelen

Schermopname van het diagram met CSV-opnameonderdelen.

Werkstroom voor opname van CSV-parser

Voor het uitvoeren van de CSV Parser DAG-werkstroom moet de gebruiker een geldig autorisatietoken en de juiste toegang hebben tot de volgende services: Search, Storage, Schema, File Service, Entitlement, Legal en Workflow.

In het onderstaande werkstroomdiagram ziet u de WERKstroom CSV Parser DAG: Schermopname van het csv-opnamevolgordediagram.

Als u de WERKstroom CSV Parser DAG wilt uitvoeren, moet de gebruiker eerst het schema maken en registreren met behulp van de werkstroomservice. Zodra het schema is gemaakt, gebruikt de gebruiker vervolgens de Bestandsservice om het CSV-bestand te uploaden naar de Microsoft Azure Data Manager for Energy-exemplaren en wordt ook de opslagrecord van het algemene bestandstype gemaakt. De bestandsservice biedt vervolgens een bestands-id aan de gebruiker, die wordt gebruikt tijdens het activeren van de CSV-parserwerkstroom met behulp van de werkstroomservice. De werkstroomservice biedt een uitvoerings-id, die de gebruiker kan gebruiken om de status van de uitvoering van de CSV-parserwerkstroom bij te houden.

OSDU® is een handelsmerk van The Open Group.

Volgende stappen

Ga naar de zelfstudie voor CSV-parser en leer hoe u een CSV-parseropname uitvoert