Udostępnij za pośrednictwem


IndexingParametersConfiguration interface

Słownik właściwości konfiguracji specyficznych dla indeksatora. Każda nazwa jest nazwą określonej właściwości. Każda wartość musi być typu pierwotnego.

Właściwości

allowSkillsetToReadFileData

Jeśli wartość true, utworzy ścieżkę //document//file_data, która jest obiektem reprezentującym oryginalne dane pliku pobrane ze źródła danych obiektu blob. Umożliwia to przekazanie oryginalnych danych plików do niestandardowej umiejętności przetwarzania w potoku wzbogacania lub umiejętności wyodrębniania dokumentów.

dataToExtract

Określa dane do wyodrębnienia z usługi Azure Blob Storage i informuje indeksator, który dane mają zostać wyodrębnione z zawartości obrazu, gdy wartość "imageAction" jest ustawiona na wartość inną niż "none". Dotyczy to zawartości obrazu osadzonego w .PDF lub innej aplikacji albo plików obrazów, takich jak .jpg i .png, w obiektach blob platformy Azure.

delimitedTextDelimiter

W przypadku obiektów blob CSV określa ogranicznik jednoznaczny końca wiersza dla plików CSV, w których każdy wiersz uruchamia nowy dokument (na przykład "|").

delimitedTextHeaders

W przypadku obiektów blob CSV określa rozdzielaną przecinkami listę nagłówków kolumn, przydatną do mapowania pól źródłowych na pola docelowe w indeksie.

documentRoot

W przypadku tablic JSON, biorąc pod uwagę ustrukturyzowany lub częściowo ustrukturyzowany dokument, można określić ścieżkę do tablicy przy użyciu tej właściwości.

excludedFileNameExtensions

Rozdzielana przecinkami lista rozszerzeń nazw plików do ignorowania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład wykluczyć ".png, .mp4", aby pominąć te pliki podczas indeksowania.

executionEnvironment

Określa środowisko, w którym indeksator powinien być wykonywany.

failOnUnprocessableDocument

W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie, jeśli indeksowanie dokumentu zakończy się niepowodzeniem.

failOnUnsupportedContentType

W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie po napotkaniu nieobsługiwanego typu zawartości i nie znasz wcześniej wszystkich typów zawartości (rozszerzeń plików).

firstLineContainsHeaders

W przypadku obiektów blob CSV wskazuje, że pierwszy (niepusty) wiersz każdego obiektu blob zawiera nagłówki.

imageAction

Określa sposób przetwarzania osadzonych obrazów i plików obrazów w usłudze Azure Blob Storage. Ustawienie konfiguracji "imageAction" na dowolną wartość inną niż "none" wymaga, aby zestaw umiejętności był również dołączony do tego indeksatora.

indexedFileNameExtensions

Rozdzielana przecinkami lista rozszerzeń nazw plików do wybrania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład skupić się na indeksowaniu określonych plików aplikacji ".docx, .pptx, msg", aby uwzględnić te typy plików.

indexStorageMetadataOnlyForOversizedDocuments

W przypadku obiektów blob platformy Azure ustaw tę właściwość na wartość true, aby nadal indeksować metadane magazynu dla zawartości obiektu blob, która jest zbyt duża do przetworzenia. Oversized blobs są domyślnie traktowane jako błędy. Aby uzyskać informacje o limitach rozmiaru obiektu blob, zobacz https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

parsingMode

Reprezentuje tryb analizowania indeksowania ze źródła danych obiektu blob platformy Azure.

pdfTextRotationAlgorithm

Określa algorytm wyodrębniania tekstu z plików PDF w usłudze Azure Blob Storage.

queryTimeout

Zwiększa limit czasu poza 5-minutową wartość domyślną dla Azure SQL źródeł danych bazy danych określonych w formacie "hh:mm:ss".

Szczegóły właściwości

allowSkillsetToReadFileData

Jeśli wartość true, utworzy ścieżkę //document//file_data, która jest obiektem reprezentującym oryginalne dane pliku pobrane ze źródła danych obiektu blob. Umożliwia to przekazanie oryginalnych danych plików do niestandardowej umiejętności przetwarzania w potoku wzbogacania lub umiejętności wyodrębniania dokumentów.

allowSkillsetToReadFileData?: boolean

Wartość właściwości

boolean

dataToExtract

Określa dane do wyodrębnienia z usługi Azure Blob Storage i informuje indeksator, który dane mają zostać wyodrębnione z zawartości obrazu, gdy wartość "imageAction" jest ustawiona na wartość inną niż "none". Dotyczy to zawartości obrazu osadzonego w .PDF lub innej aplikacji albo plików obrazów, takich jak .jpg i .png, w obiektach blob platformy Azure.

dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"

Wartość właściwości

"storageMetadata" | "allMetadata" | "contentAndMetadata"

delimitedTextDelimiter

W przypadku obiektów blob CSV określa ogranicznik jednoznaczny końca wiersza dla plików CSV, w których każdy wiersz uruchamia nowy dokument (na przykład "|").

delimitedTextDelimiter?: string

Wartość właściwości

string

delimitedTextHeaders

W przypadku obiektów blob CSV określa rozdzielaną przecinkami listę nagłówków kolumn, przydatną do mapowania pól źródłowych na pola docelowe w indeksie.

delimitedTextHeaders?: string

Wartość właściwości

string

documentRoot

W przypadku tablic JSON, biorąc pod uwagę ustrukturyzowany lub częściowo ustrukturyzowany dokument, można określić ścieżkę do tablicy przy użyciu tej właściwości.

documentRoot?: string

Wartość właściwości

string

excludedFileNameExtensions

Rozdzielana przecinkami lista rozszerzeń nazw plików do ignorowania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład wykluczyć ".png, .mp4", aby pominąć te pliki podczas indeksowania.

excludedFileNameExtensions?: string

Wartość właściwości

string

executionEnvironment

Określa środowisko, w którym indeksator powinien być wykonywany.

executionEnvironment?: "standard" | "private"

Wartość właściwości

"standard" | "private"

failOnUnprocessableDocument

W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie, jeśli indeksowanie dokumentu zakończy się niepowodzeniem.

failOnUnprocessableDocument?: boolean

Wartość właściwości

boolean

failOnUnsupportedContentType

W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie po napotkaniu nieobsługiwanego typu zawartości i nie znasz wcześniej wszystkich typów zawartości (rozszerzeń plików).

failOnUnsupportedContentType?: boolean

Wartość właściwości

boolean

firstLineContainsHeaders

W przypadku obiektów blob CSV wskazuje, że pierwszy (niepusty) wiersz każdego obiektu blob zawiera nagłówki.

firstLineContainsHeaders?: boolean

Wartość właściwości

boolean

imageAction

Określa sposób przetwarzania osadzonych obrazów i plików obrazów w usłudze Azure Blob Storage. Ustawienie konfiguracji "imageAction" na dowolną wartość inną niż "none" wymaga, aby zestaw umiejętności był również dołączony do tego indeksatora.

imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

Wartość właściwości

"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

indexedFileNameExtensions

Rozdzielana przecinkami lista rozszerzeń nazw plików do wybrania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład skupić się na indeksowaniu określonych plików aplikacji ".docx, .pptx, msg", aby uwzględnić te typy plików.

indexedFileNameExtensions?: string

Wartość właściwości

string

indexStorageMetadataOnlyForOversizedDocuments

W przypadku obiektów blob platformy Azure ustaw tę właściwość na wartość true, aby nadal indeksować metadane magazynu dla zawartości obiektu blob, która jest zbyt duża do przetworzenia. Oversized blobs są domyślnie traktowane jako błędy. Aby uzyskać informacje o limitach rozmiaru obiektu blob, zobacz https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Wartość właściwości

boolean

parsingMode

Reprezentuje tryb analizowania indeksowania ze źródła danych obiektu blob platformy Azure.

parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

Wartość właściwości

"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

pdfTextRotationAlgorithm

Określa algorytm wyodrębniania tekstu z plików PDF w usłudze Azure Blob Storage.

pdfTextRotationAlgorithm?: "none" | "detectAngles"

Wartość właściwości

"none" | "detectAngles"

queryTimeout

Zwiększa limit czasu poza 5-minutową wartość domyślną dla Azure SQL źródeł danych bazy danych określonych w formacie "hh:mm:ss".

queryTimeout?: string

Wartość właściwości

string