Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Important
Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Manage Azure Databricks Previews.
Diese Seite enthält Informationen zu bekannten Einschränkungen des verwalteten GitHub Connectors in Lakeflow Connect.
Allgemeine Einschränkungen
- Wenn Sie eine geplante Pipeline ausführen, werden Warnungen nicht sofort ausgelöst. Stattdessen werden sie ausgelöst, wenn das nächste Update ausgeführt wird.
- Wenn eine Quelltabelle gelöscht wird, wird die Zieltabelle nicht automatisch gelöscht. Sie müssen die Zieltabelle manuell löschen. Dieses Verhalten entspricht nicht dem Verhalten von Lakeflow Spark Declarative Pipelines.
- Während der Quellwartungszeiträume können Databricks möglicherweise nicht auf Ihre Daten zugreifen.
- Wenn ein Quelltabellenname mit einem vorhandenen Zieltabellennamen in Konflikt steht, schlägt die Pipelineaktualisierung fehl.
- Die Unterstützung für Multi-Destination-Pipelines erfolgt ausschließlich über die API.
- Sie können nach Belieben eine Tabelle umbenennen, die Sie importieren. Wenn Sie eine Tabelle in Ihrer Pipeline umbenennen, wird sie zu einer nur API-Pipeline, und Sie können die Pipeline nicht mehr in der Benutzeroberfläche bearbeiten.
- Auswahl und Abwahl auf Spaltenebene sind nur über die API verfügbar.
- Wenn Sie eine Spalte auswählen, nachdem eine Pipeline bereits gestartet wurde, füllt der Verbinder die Daten für die neue Spalte nicht automatisch aus. Um historische Daten zu erfassen, führen Sie manuell eine vollständige Aktualisierung der Tabelle aus.
- Databricks können nicht zwei oder mehr Tabellen mit demselben Namen in derselben Pipeline aufnehmen, auch wenn sie aus verschiedenen Quellschemas stammen.
- Das Quellsystem geht davon aus, dass die Cursorspalten monoton steigen.
- Der Connector erfasst rohe Daten ohne Transformationen. Verwenden Sie die Downstream-Pipelines von Lakeflow Spark Declarative Pipelines für Transformationen.
Löschen wird nicht unterstützt
Der GitHub-Connector unterstützt das Abrufen von Löschvorgängen nicht. Dies ist eine GitHub API-Einschränkung.
Eingeschränkte inkrementelle Unterstützung
Die meisten Tabellen unterstützen keine inkrementellen Updates, da die GitHub-API keine Möglichkeit zum Filtern von Datensätzen auf der Grundlage eines Cursors bietet. Diese Tabellen werden für jedes Pipelineupdate vollständig aktualisiert. Eine Liste der Tabellen und deren Aktualisierungsmuster finden Sie unter "Unterstützte Daten".
Leistungsleitfaden für große Organisationen
Tabellen wie commits, pull_requestsund issues können Millionen von Datensätzen in großen Organisationen enthalten. Da diese Tabellen bei jeder Pipelineausführung vollständig aktualisiert werden, steigen die Aufnahmekosten mit der Größe der Organisation und der Häufigkeit der Pipelineausführungen.
So reduzieren Sie das Volumen pro Ausführung:
- Verwenden Sie die Spaltenauswahl , um die für diese Tabellen aufgenommenen Spalten einzuschränken.
- Verwenden Sie für Pipelines, die Tabellen mit hohem Datenvolumen enthalten, eine geringere Pipeline-Frequenz.
Unterstützte Daten
Tabellen mit inkrementellen Aktualisierungen
Die folgenden Tabellen unterstützen inkrementelle Updates:
repositories-
audit_logs: Nur Organisationskonten. Imgithub.comkostenlosen Plan ist der Überwachungsprotokollverlauf auf 90 Tage beschränkt.
Tabellen mit ausschließlich Batch-Aktualisierungen
Die folgenden Tabellen werden bei jeder Pipeline-Aktualisierung vollständig aktualisiert (nicht inkrementell):
branchescollaboratorscommitsdeploymentsdeployment_statusesdiscussionsissueslabelsmilestonesorg_memberspull_request_commitspull_request_review_commentspull_request_reviewspull_requestsreleasestagsteam_membersteamsworkflows