Azure Cosmos DB voor NoSQL-prestaties meten met een benchmarking-framework

Artikel
08/15/2024

Er zijn nu meer keuzes voor het type database dat u met uw gegevensworkload kunt gebruiken. Een van de belangrijkste factoren voor het kiezen van een database is de prestaties van de database of service, maar benchmarkingprestaties kunnen omslachtig en foutgevoelig zijn. Het benchmarkingframework voor Azure Databases vereenvoudigt het proces van het meten van prestaties met populaire opensource-benchmarkinghulpprogramma's met recepten met lage wrijving die algemene aanbevolen procedures implementeren. In Azure Cosmos DB for NoSQL implementeert het framework best practices voor de Java SDK en maakt gebruik van het opensource-hulpprogramma YCSB . In deze handleiding gebruikt u dit benchmarkingframework om een leesworkload te implementeren om vertrouwd te raken met het framework.

Vereisten

Een Azure-account met een actief abonnement. Gratis een account maken
Azure Cosmos DB for NoSQL-account. Maak een API voor een NoSQL-account.
- Noteer de eindpunt-URI en de primaire sleutel voor het account.
Azure-opslagaccount. Maak een Azure Storage-account.
- Noteer de verbindingsreeks voor het opslagaccount. Azure Storage-verbindingsreeks.
Tweede lege resourcegroep. Maak een resourcegroep.
Azure-opdrachtregelinterface (CLI).

Azure Cosmos DB-accountbronnen maken

Eerst maakt u een database en container in het bestaande API voor NoSQL-account.

Azure-portal
Azure-CLI

Navigeer naar uw bestaande API voor NoSQL-account in Azure Portal.
Selecteer Data Explorer in het resourcemenu.
Selecteer op de pagina Data Explorer de optie Nieuwe container in de opdrachtbalk.
Maak in het dialoogvenster Nieuwe container een nieuwe container met de volgende instellingen:

Instelling Weergegeven als

Database-id ycsb

Type databasedoorvoer Handmatig

Hoeveelheid databasedoorvoer 400

Container-id usertable

Partitiesleutel /id

Als u dat nog niet hebt gedaan, meldt u zich aan bij de Azure CLI met behulp van de az login opdracht.

Maak shellvariabelen voor de volgende waarden:

Naam van uw bestaande Azure Cosmos DB for NoSQL-account met de naam cosmosAccountName.
Naam van uw eerste resourcegroep met de naam sourceResourceGroupNameresources.
Naam van de tweede lege resourcegroep met de naam targetResourceGroupName.
Bestaande eindpunt-URI van Azure Cosmos DB voor NoSQL-account met de naam cosmosEndpoint
Bestaande primaire sleutel van azure Cosmos DB for NoSQL-account met de naam cosmosPrimaryKey

# Variable for Azure Cosmos DB for NoSQL account name
cosmosAccountName="<cosmos-db-nosql-account-name>"

# Variable for resource group with Azure Cosmos DB and Azure Storage accounts
sourceResourceGroupName="<first-resource-group-name>"

# Variable for empty resource group
targetResourceGroupName="<second-resource-group-name>"

# Variable for API for NoSQL endpoint URI
cosmosEndpoint="<cosmos-db-nosql-endpoint-uri>"

# Variable for API for NoSQL primary key
cosmosPrimaryKey="<cosmos-db-nosql-primary-key>"

# Variable for Azure Storage account name
storageAccountName="<storage-account-name>"

# Variable for storage account connection string
storageConnectionString="<storage-connection-string>"

Maak met de az cosmosdb sql database create opdracht een nieuwe database met de volgende instellingen:

Instelling Weergegeven als

Database-id ycsb

Type databasedoorvoer Handmatig

Hoeveelheid databasedoorvoer 400
```
az cosmosdb sql database create \
    --resource-group $sourceResourceGroupName \
    --account-name $cosmosAccountName \
    --name "ycsb" \
    --throughput 400
```

Maak met de az cosmosdb sql container create opdracht een nieuwe container met de volgende instellingen:

Instelling	Weergegeven als
Database-id	`ycsb`
Container-id	`usertable`
Partitiesleutel	`/id`

az cosmosdb sql container create \
    --resource-group $sourceResourceGroupName \
    --account-name $cosmosAccountName \
    --database-name "ycsb" \
    --name "usertable" \
    --partition-key-path "/id"

Benchmarking-framework implementeren in Azure

U gebruikt nu een Azure Resource Manager-sjabloon om het benchmarkingframework in Azure te implementeren met het standaard leesrecept.

Azure-portal
Azure-CLI

Implementeer het benchmarking-framework met behulp van een Azure Resource Manager-sjabloon die beschikbaar is via deze koppeling.
Op de pagina Aangepaste implementatie zijn de volgende parameters
Selecteer Beoordelen en maken en vervolgens Maken om de sjabloon te implementeren.
Wacht totdat de installatie is voltooid.

Tip

Het kan 5-10 minuten duren voordat de implementatie is voltooid.

Gebruik az deployment group create dit om het benchmarking-framework te implementeren met behulp van een Azure Resource Manager-sjabloon.

# Variable for raw template JSON on GitHub
templateUri="https://raw.githubusercontent.com/Azure/azure-db-benchmarking/main/cosmos/sql/tools/java/ycsb/recipes/read/try-it-read/azuredeploy.json"

az deployment group create \
    --resource-group $targetResourceGroupName \
    --name "benchmarking-framework" \
    --template-uri $templateUri \
    --parameters \
        adminPassword='P@ssw.rd' \
        resultsStorageConnectionString=$storageConnectionString \
        cosmosURI=$cosmosEndpoint \
        cosmosKey=$cosmosPrimaryKey

Wacht totdat de installatie is voltooid.

Tip

Het kan 5-10 minuten duren voordat de implementatie is voltooid.

Resultaten van de benchmark weergeven

U kunt nu het bestaande Azure Storage-account gebruiken om de status van de benchmarktaak te controleren en de geaggregeerde resultaten weer te geven. De status wordt opgeslagen met behulp van een opslagtabel en de resultaten worden samengevoegd in een opslagblob met behulp van de CSV-indeling.

Azure-portal
Azure-CLI

Navigeer naar uw bestaande Azure Storage-account in Azure Portal.
Navigeer naar een opslagtabel met de naam ycsbbenchmarkingmetadata en zoek de entiteit met een partitiesleutel van ycsb_sql.
Bekijk het JobStatus veld van de tabelentiteit. In eerste instantie is Started de status van de taak en bevat deze een tijdstempel in de JobStartTime eigenschap, maar niet de JobFinishTime eigenschap.
Wacht totdat de taak de status heeft en Finished een tijdstempel bevat in de JobFinishTime eigenschap.

Tip

Het kan ongeveer 20-30 minuten duren voordat de taak is voltooid.
Navigeer naar de opslagcontainer in hetzelfde account met het voorvoegsel ycsbbenchmarking-*. Bekijk de uitvoer- en diagnostische blobs voor het hulpprogramma.

Open de aggregation.csv blob en bekijk de inhoud. U hebt nu een CSV-gegevensset met geaggregeerde resultaten van alle benchmarkclients.

Schermopname van de inhoud van de blob met aggregatieresultaten.

Operation,Count,Throughput,Min(microsecond),Max(microsecond),Avg(microsecond),P9S(microsecond),P99(microsecond)
READ,180000,299,706,448255,1079,1159,2867

Voer een query uit op de taakrecord in een opslagtabel met de naam ycsbbenchmarkingmetadata .az storage entity query

az storage entity query \
    --account-name $storageAccountName \
    --connection-string $storageConnectionString \
    --table-name ycsbbenchmarkingmetadata

Bekijk de resultaten van deze query. De resultaten moeten één taak retourneren met JobStartTime, JobStatusen JobFinishTime eigenschappen. In eerste instantie is Started de status van de taak en bevat deze een tijdstempel in de JobStartTime eigenschap, maar niet de JobFinishTime eigenschap.

{
  "items": [
    {
      "JobFinishTime": "",
      "JobStartTime": "2023-02-02T13:59:42Z",
      "JobStatus": "Started",
      "NoOfClientsCompleted": "0",
      "NoOfClientsStarted": {
        "edm_type": "Edm.Int64",
        "value": 1
      },
      "PartitionKey": "ycsb_sql",
      ...
    }
  ],
  ...
}

Voer indien nodig meerdere keren uit az storage entity query totdat de taak de status Finished heeft en een tijdstempel in de JobFinishTime eigenschap bevat.
```
{
  "items": [
    {
      "JobFinishTime": "2023-02-02T14:21:12Z",
      "JobStartTime": "2023-02-02T13:59:42Z",
      "JobStatus": "Finished",
      ...
    }
  ],
  ...
}
```
Tip

Het kan ongeveer 20-30 minuten duren voordat de taak is voltooid.

Zoek de naam van de laatst gewijzigde opslagcontainer met een voorvoegsel van ycsbbenchmarking-* het gebruik az storage container list en een JMESPath-query.

az storage container list \
    --account-name $storageAccountName \
    --connection-string $storageConnectionString \
    --query "sort_by([?starts_with(name, 'ycsbbenchmarking-')], &properties.lastModified)[-1].name" \
    --output tsv

Sla de containertekenreeks op in een variabele met de naam storageConnectionString.

storageContainerName=$( \
    az storage container list \
        --account-name $storageAccountName \
        --connection-string $storageConnectionString \
        --query "sort_by([?starts_with(name, 'ycsbbenchmarking-')], &properties.lastModified)[-1].name" \
        --output tsv \
)

Gebruik [az storage blob query]/cli/azure/storage/blob#az-storage-blob-query) om een query uit te voeren op de taakresultaten in een opslagblob die is opgeslagen in de eerder geplaatste container.

az storage blob query \
    --account-name $storageAccountName \
    --connection-string $storageConnectionString \
    --container-name $storageContainerName \
    --name aggregation.csv \
    --query-expression "SELECT * FROM BlobStorage"

Bekijk de resultaten van deze query. U hebt nu een CSV-gegevensset met geaggregeerde resultaten van alle benchmarkclients.

Operation,Count,Throughput,Min(microsecond),Max(microsecond),Avg(microsecond),P9S(microsecond),P99(microsecond)
READ,180000,299,706,448255,1079,1159,2867

Recepten

Het benchmarkingframework voor Azure Databases bevat recepten voor het inkapselen van de workloaddefinities die worden doorgegeven aan het onderliggende benchmarkinghulpprogramma voor een '1-Klik'-ervaring. De workloaddefinities zijn ontworpen op basis van de best practices die zijn gepubliceerd door het Azure Cosmos DB-team en het team van het benchmarkinghulpprogramma. De recepten zijn getest en gevalideerd voor consistente resultaten.

U kunt de volgende latenties verwachten voor alle lees- en schrijfrecepten in de GitHub-opslagplaats.

Leeslatentie
Schrijflatentie

Algemene problemen

Deze sectie bevat de veelvoorkomende fouten die kunnen optreden bij het uitvoeren van het benchmarking-hulpprogramma. De foutenlogboeken voor het hulpprogramma zijn doorgaans beschikbaar in een container binnen het Azure Storage-account.

Schermopname van container en blobs in een opslagaccount.

Als de logboeken niet beschikbaar zijn in het opslagaccount, wordt dit probleem meestal veroorzaakt door een onjuiste of ontbrekende opslag verbindingsreeks. In dit geval wordt deze fout vermeld in het bestand agent.out in de map /home/benchmarking van de virtuele clientmachine.
```
Error while accessing storage account, exiting from this machine in agent.out on the VM
```
Deze fout wordt vermeld in het bestand agent.out , zowel in de client-VM als het opslagaccount als de Azure Cosmos DB-eindpunt-URI onjuist of onbereikbaar is.
```
Caused by: java.net.UnknownHostException: rtcosmosdbsss.documents.azure.com: Name or service not known 
```
Deze fout wordt vermeld in het bestand agent.out , zowel in de client-VM als het opslagaccount als de Azure Cosmos DB-sleutel onjuist is.
```
The input authorization token can't serve the request. The wrong key is being used….
```

Volgende stappen

Meer informatie over het benchmarkprogramma met de handleiding Aan de slag.

Delen via