Bewährte Methoden für die Kusto-Erfassungsbibliothek

In diesem Artikel werden die bewährten Methoden für die Datenerfassung mit der Kusto-Erfassungsbibliothek erläutert.

Vorziehen der Warteschlange gegenüber der direkten Erfassung

Verwenden Sie für Produktionsszenarien den In die Warteschlange eingereihten Erfassungsclient. Weitere Informationen finden Sie unter Erfassung in die Warteschlange und Direkte Erfassung.

Verwenden eines einzelnen Erfassungsclients instance

Kusto Ingest-Clientimplementierungen sind threadsicher und wiederverwendbar. Verwenden Sie für jeden Zielcluster einen einzelnen instance eines Client in der Warteschlange oder eines direkten Erfassungsclients pro Prozess. Das Ausführen mehrerer Instanzen kann den Cluster überlasten, sodass er nicht mehr reagiert oder langsam auf gültige Anforderungen reagiert.

Limit tracking operation status

Beschränken Sie bei Datenströmen mit großem Volumen die Verwendung positiver Benachrichtigungen für Erfassungsanforderungen. Eine übermäßige Nachverfolgung kann zu einer erhöhten Erfassungslatenz und sogar zu einer vollständigen Nichtreaktion des Clusters führen. Weitere Informationen finden Sie unter Operation status.

Optimieren des Durchsatzes

Berücksichtigen Sie bei der Planung Ihrer Erfassungspipeline die folgenden Faktoren, da sie erhebliche Auswirkungen auf den Erfassungsdurchsatz haben können.

Faktor BESCHREIBUNG
Datengröße Die Erfassung ist effizienter, wenn sie in großen Blöcken erfolgt. Es wird empfohlen, Daten in Batches von 100 MB bis 1 GB (unkomprimiert) zu senden.
Datenformat CSV ist das schnellste Zu erfassende Format. Für die gleiche Datenmenge kann JSON 2x oder 3x länger dauern. Weitere Informationen finden Sie unter Für die Erfassung unterstützte Datenformate.
Tabellenbreite Erfassen Sie nur wichtige Daten. Jede Spalte muss codiert und indiziert werden, was bedeutet, dass breitere Tabellen möglicherweise einen niedrigeren Durchsatz aufweisen. Steuern Sie, welche Felder erfasst werden, indem Sie eine Erfassungszuordnung bereitstellen.
Quelldatenspeicherort Vermeiden Sie regionsübergreifende Lesevorgänge, um die Erfassung zu beschleunigen.
Laden des Clusters Wenn ein Cluster eine hohe Abfragelast aufweist, dauert die Erfassung länger.

Hinweis

Der In die Warteschlange eingereihte Erfassungsclient teilt große Datasets in Blöcke auf und aggregiert sie, was nützlich ist, wenn die Daten vor der Erfassung nicht im Batch zusammengefasst werden können.

Optimieren für Kosten

Die Verwendung von Kusto-Clientbibliotheken zum Erfassen von Daten in Ihrem Cluster bleibt die kostengünstigste und stabilste Option. Wir fordern unsere Kunden auf, ihre Erfassungsmethoden zu überprüfen, um die Kosten zu optimieren und die Azure Storage-Preise zu nutzen, die Blobtransaktionen erheblich kosteneffektiv machen.

Für eine kostengünstige Erfassung:

  • Beschränken Sie die Anzahl der erfassten Datenblöcke, z. B. Dateien, Blobs und Streams.
  • Erfassen Sie große Blöcke mit bis zu 1 GB nicht komprimierter Daten.
  • Entscheiden Sie sich für die Batchverarbeitung.
  • Stellen Sie eine genaue, nicht komprimierte Datengröße bereit, um zusätzliche Speichertransaktionen zu vermeiden.
  • Vermeiden Sie die Einstellung FlushImmediately auf true.
  • Vermeiden Sie das Senden kleiner Datenmengen mit ingest-by oder drop-byExtenttags.

Hinweis

Eine Überlastung der letzten beiden Methoden kann die Datenaggregation beeinträchtigen, zu zusätzlichen Speichertransaktionen führen und die Erfassungs- und Abfrageleistung beeinträchtigen.