Gegevens kopiëren naar een Azure AI Search-index met behulp van Azure Data Factory of Synapse Analytics

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

In dit artikel wordt beschreven hoe u de kopieeractiviteit gebruikt in een Azure Data Factory- of Synapse Analytics-pijplijn om gegevens te kopiëren naar de Azure AI Search-index. Het is gebaseerd op het artikel over het overzicht van kopieeractiviteiten met een algemeen overzicht van de kopieeractiviteit.

Ondersteunde mogelijkheden

Deze Azure AI Search-connector wordt ondersteund voor de volgende mogelijkheden:

Ondersteunde mogelijkheden IR Beheerd privé-eindpunt
Copy-activiteit (-/sink) ① ②

(1) Azure Integration Runtime (2) Zelf-hostende Integration Runtime

U kunt gegevens kopiëren uit elk ondersteund brongegevensarchief in de zoekindex. Zie de tabel Ondersteunde gegevensarchieven voor een lijst met gegevensarchieven die worden ondersteund als bronnen/sinks door de kopieeractiviteit.

Aan de slag

Als u de kopieeractiviteit wilt uitvoeren met een pijplijn, kunt u een van de volgende hulpprogramma's of SDK's gebruiken:

Een gekoppelde service maken in Azure Search met behulp van de gebruikersinterface

Gebruik de volgende stappen om een gekoppelde service te maken voor Azure Search in de gebruikersinterface van Azure Portal.

  1. Blader naar het tabblad Beheren in uw Azure Data Factory- of Synapse-werkruimte en selecteer Gekoppelde services en klik vervolgens op Nieuw:

  2. Zoek naar Zoeken en selecteer de Azure Search-connector.

    Select the Azure Search connector.

  3. Configureer de servicedetails, test de verbinding en maak de nieuwe gekoppelde service.

    Configure a linked service to Azure Search.

configuratiedetails Verbinding maken or

De volgende secties bevatten details over eigenschappen die worden gebruikt om Data Factory-entiteiten te definiëren die specifiek zijn voor de Azure AI Search-connector.

Eigenschappen van gekoppelde service

De volgende eigenschappen worden ondersteund voor de gekoppelde Azure AI Search-service:

Eigenschappen Beschrijving Vereist
type De typeeigenschap moet worden ingesteld op: AzureSearch Ja
URL URL voor de zoekservice. Ja
sleutel Beheer sleutel voor de zoekservice. Markeer dit veld als SecureString om het veilig op te slaan of verwijs naar een geheim dat is opgeslagen in Azure Key Vault. Ja
connectVia De Integration Runtime die moet worden gebruikt om verbinding te maken met het gegevensarchief. U kunt Azure Integration Runtime of zelf-hostende Integration Runtime gebruiken (als uw gegevensarchief zich in een privénetwerk bevindt). Als dit niet is opgegeven, wordt de standaard Azure Integration Runtime gebruikt. Nee

Belangrijk

Wanneer u gegevens uit een cloudgegevensarchief kopieert naar een zoekindex, moet u in de gekoppelde Azure AI Search-service verwijzen naar een Azure Integration Runtime met een expliciete regio in ConnactVia. Stel de regio in als de regio waarin uw zoekservice zich bevindt. Meer informatie van Azure Integration Runtime.

Voorbeeld:

{
    "name": "AzureSearchLinkedService",
    "properties": {
        "type": "AzureSearch",
        "typeProperties": {
            "url": "https://<service>.search.windows.net",
            "key": {
                "type": "SecureString",
                "value": "<AdminKey>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Eigenschappen van gegevensset

Zie het artikel gegevenssets voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van gegevenssets . Deze sectie bevat een lijst met eigenschappen die worden ondersteund door de Azure AI Search-gegevensset.

Als u gegevens wilt kopiëren naar Azure AI Search, worden de volgende eigenschappen ondersteund:

Eigenschappen Beschrijving Vereist
type De typeeigenschap van de gegevensset moet worden ingesteld op: AzureSearchIndex Ja
indexName Naam van de zoekindex. De service maakt de index niet. De index moet bestaan in Azure AI Search. Ja

Voorbeeld:

{
    "name": "AzureSearchIndexDataset",
    "properties": {
        "type": "AzureSearchIndex",
        "typeProperties" : {
            "indexName": "products"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Azure AI Search linked service name>",
            "type": "LinkedServiceReference"
        }
   }
}

Eigenschappen van de kopieeractiviteit

Zie het artikel Pijplijnen voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van activiteiten. Deze sectie bevat een lijst met eigenschappen die worden ondersteund door de Azure AI Search-bron.

Azure AI Search als sink

Als u gegevens wilt kopiëren naar Azure AI Search, stelt u het brontype in de kopieeractiviteit in op AzureSearchIndexSink. De volgende eigenschappen worden ondersteund in de sectie sink voor kopieeractiviteit:

Eigenschappen Beschrijving Vereist
type De typeeigenschap van de bron van de kopieeractiviteit moet worden ingesteld op: AzureSearchIndexSink Ja
writeBehavior Hiermee geeft u op of u een document wilt samenvoegen of vervangen wanneer er al een document in de index bestaat. Zie de eigenschap WriteBehavior.

Toegestane waarden zijn: Samenvoegen (standaard) en Uploaden.
Nee
writeBatchSize Hiermee worden gegevens geüpload naar de zoekindex wanneer de buffergrootte writeBatchSize bereikt. Zie de eigenschap WriteBatchSize voor meer informatie.

Toegestane waarden zijn: geheel getal 1 tot 1.000; de standaardwaarde is 1000.
Nee
maxConcurrent Verbinding maken ions De bovengrens van gelijktijdige verbindingen die tijdens de uitvoering van de activiteit tot stand zijn gebracht met het gegevensarchief. Geef alleen een waarde op wanneer u gelijktijdige verbindingen wilt beperken. Nee

Eigenschap WriteBehavior

AzureSearchSink-upserts bij het schrijven van gegevens. Met andere woorden, bij het schrijven van een document, als de documentsleutel al bestaat in de zoekindex, werkt Azure AI Search het bestaande document bij in plaats van een conflictuitzondering te genereren.

AzureSearchSink biedt de volgende twee upsert-gedragingen (met behulp van de AzureSearch SDK):

  • Samenvoegen: combineer alle kolommen in het nieuwe document met de bestaande. Voor kolommen met null-waarde in het nieuwe document blijft de waarde in het bestaande document behouden.
  • Uploaden: Het nieuwe document vervangt het bestaande document. Voor kolommen die niet zijn opgegeven in het nieuwe document, wordt de waarde ingesteld op null, ongeacht of het bestaande document een niet-null-waarde bevat.

Het standaardgedrag is Samenvoegen.

Eigenschap WriteBatchSize

Azure AI Search-service ondersteunt het schrijven van documenten als batch. Een batch kan 1 tot 1000 acties bevatten. Een actie verwerkt één document om de bewerking voor uploaden/samenvoegen uit te voeren.

Voorbeeld:

"activities":[
    {
        "name": "CopyToAzureSearch",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Azure AI Search output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureSearchIndexSink",
                "writeBehavior": "Merge"
            }
        }
    }
]

Ondersteuning voor gegevenstypen

In de volgende tabel wordt aangegeven of een Azure AI Search-gegevenstype wordt ondersteund of niet.

Azure AI Search-gegevenstype Ondersteund in Azure AI Search Sink
String J
Int32 J
Int64 J
Dubbel J
Boolean J
DataTimeOffset J
Tekenreeksmatrix N
GeographyPoint N

Momenteel worden andere gegevenstypen, zoals ComplexType, niet ondersteund. Zie Ondersteunde gegevenstypen (Azure AI Search) voor een volledige lijst met ondersteunde gegevenstypen van Azure AI Search.

Zie ondersteunde gegevensarchieven voor een lijst met gegevensarchieven die worden ondersteund als bronnen en sinks door de kopieeractiviteit.