IndexingParametersConfiguration interface
Słownik właściwości konfiguracji specyficznych dla indeksatora. Każda nazwa jest nazwą określonej właściwości. Każda wartość musi być typu pierwotnego.
Właściwości
allow |
Jeśli wartość true, utworzy ścieżkę //document//file_data, która jest obiektem reprezentującym oryginalne dane pliku pobrane ze źródła danych obiektu blob. Umożliwia to przekazanie oryginalnych danych plików do niestandardowej umiejętności przetwarzania w potoku wzbogacania lub umiejętności wyodrębniania dokumentów. |
data |
Określa dane do wyodrębnienia z usługi Azure Blob Storage i informuje indeksator, który dane mają zostać wyodrębnione z zawartości obrazu, gdy wartość "imageAction" jest ustawiona na wartość inną niż "none". Dotyczy to zawartości obrazu osadzonego w .PDF lub innej aplikacji albo plików obrazów, takich jak .jpg i .png, w obiektach blob platformy Azure. |
delimited |
W przypadku obiektów blob CSV określa ogranicznik jednoznaczny końca wiersza dla plików CSV, w których każdy wiersz uruchamia nowy dokument (na przykład "|"). |
delimited |
W przypadku obiektów blob CSV określa rozdzielaną przecinkami listę nagłówków kolumn, przydatną do mapowania pól źródłowych na pola docelowe w indeksie. |
document |
W przypadku tablic JSON, biorąc pod uwagę ustrukturyzowany lub częściowo ustrukturyzowany dokument, można określić ścieżkę do tablicy przy użyciu tej właściwości. |
excluded |
Rozdzielana przecinkami lista rozszerzeń nazw plików do ignorowania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład wykluczyć ".png, .mp4", aby pominąć te pliki podczas indeksowania. |
execution |
Określa środowisko, w którym indeksator powinien być wykonywany. |
fail |
W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie, jeśli indeksowanie dokumentu zakończy się niepowodzeniem. |
fail |
W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie po napotkaniu nieobsługiwanego typu zawartości i nie znasz wcześniej wszystkich typów zawartości (rozszerzeń plików). |
first |
W przypadku obiektów blob CSV wskazuje, że pierwszy (niepusty) wiersz każdego obiektu blob zawiera nagłówki. |
image |
Określa sposób przetwarzania osadzonych obrazów i plików obrazów w usłudze Azure Blob Storage. Ustawienie konfiguracji "imageAction" na dowolną wartość inną niż "none" wymaga, aby zestaw umiejętności był również dołączony do tego indeksatora. |
indexed |
Rozdzielana przecinkami lista rozszerzeń nazw plików do wybrania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład skupić się na indeksowaniu określonych plików aplikacji ".docx, .pptx, msg", aby uwzględnić te typy plików. |
index |
W przypadku obiektów blob platformy Azure ustaw tę właściwość na wartość true, aby nadal indeksować metadane magazynu dla zawartości obiektu blob, która jest zbyt duża do przetworzenia. Oversized blobs są domyślnie traktowane jako błędy. Aby uzyskać informacje o limitach rozmiaru obiektu blob, zobacz https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
parsing |
Reprezentuje tryb analizowania indeksowania ze źródła danych obiektu blob platformy Azure. |
pdf |
Określa algorytm wyodrębniania tekstu z plików PDF w usłudze Azure Blob Storage. |
query |
Zwiększa limit czasu poza 5-minutową wartość domyślną dla Azure SQL źródeł danych bazy danych określonych w formacie "hh:mm:ss". |
Szczegóły właściwości
allowSkillsetToReadFileData
Jeśli wartość true, utworzy ścieżkę //document//file_data, która jest obiektem reprezentującym oryginalne dane pliku pobrane ze źródła danych obiektu blob. Umożliwia to przekazanie oryginalnych danych plików do niestandardowej umiejętności przetwarzania w potoku wzbogacania lub umiejętności wyodrębniania dokumentów.
allowSkillsetToReadFileData?: boolean
Wartość właściwości
boolean
dataToExtract
Określa dane do wyodrębnienia z usługi Azure Blob Storage i informuje indeksator, który dane mają zostać wyodrębnione z zawartości obrazu, gdy wartość "imageAction" jest ustawiona na wartość inną niż "none". Dotyczy to zawartości obrazu osadzonego w .PDF lub innej aplikacji albo plików obrazów, takich jak .jpg i .png, w obiektach blob platformy Azure.
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
Wartość właściwości
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
W przypadku obiektów blob CSV określa ogranicznik jednoznaczny końca wiersza dla plików CSV, w których każdy wiersz uruchamia nowy dokument (na przykład "|").
delimitedTextDelimiter?: string
Wartość właściwości
string
delimitedTextHeaders
W przypadku obiektów blob CSV określa rozdzielaną przecinkami listę nagłówków kolumn, przydatną do mapowania pól źródłowych na pola docelowe w indeksie.
delimitedTextHeaders?: string
Wartość właściwości
string
documentRoot
W przypadku tablic JSON, biorąc pod uwagę ustrukturyzowany lub częściowo ustrukturyzowany dokument, można określić ścieżkę do tablicy przy użyciu tej właściwości.
documentRoot?: string
Wartość właściwości
string
excludedFileNameExtensions
Rozdzielana przecinkami lista rozszerzeń nazw plików do ignorowania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład wykluczyć ".png, .mp4", aby pominąć te pliki podczas indeksowania.
excludedFileNameExtensions?: string
Wartość właściwości
string
executionEnvironment
Określa środowisko, w którym indeksator powinien być wykonywany.
executionEnvironment?: "standard" | "private"
Wartość właściwości
"standard" | "private"
failOnUnprocessableDocument
W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie, jeśli indeksowanie dokumentu zakończy się niepowodzeniem.
failOnUnprocessableDocument?: boolean
Wartość właściwości
boolean
failOnUnsupportedContentType
W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie po napotkaniu nieobsługiwanego typu zawartości i nie znasz wcześniej wszystkich typów zawartości (rozszerzeń plików).
failOnUnsupportedContentType?: boolean
Wartość właściwości
boolean
firstLineContainsHeaders
W przypadku obiektów blob CSV wskazuje, że pierwszy (niepusty) wiersz każdego obiektu blob zawiera nagłówki.
firstLineContainsHeaders?: boolean
Wartość właściwości
boolean
imageAction
Określa sposób przetwarzania osadzonych obrazów i plików obrazów w usłudze Azure Blob Storage. Ustawienie konfiguracji "imageAction" na dowolną wartość inną niż "none" wymaga, aby zestaw umiejętności był również dołączony do tego indeksatora.
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
Wartość właściwości
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
Rozdzielana przecinkami lista rozszerzeń nazw plików do wybrania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład skupić się na indeksowaniu określonych plików aplikacji ".docx, .pptx, msg", aby uwzględnić te typy plików.
indexedFileNameExtensions?: string
Wartość właściwości
string
indexStorageMetadataOnlyForOversizedDocuments
W przypadku obiektów blob platformy Azure ustaw tę właściwość na wartość true, aby nadal indeksować metadane magazynu dla zawartości obiektu blob, która jest zbyt duża do przetworzenia. Oversized blobs są domyślnie traktowane jako błędy. Aby uzyskać informacje o limitach rozmiaru obiektu blob, zobacz https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
indexStorageMetadataOnlyForOversizedDocuments?: boolean
Wartość właściwości
boolean
parsingMode
Reprezentuje tryb analizowania indeksowania ze źródła danych obiektu blob platformy Azure.
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
Wartość właściwości
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
pdfTextRotationAlgorithm
Określa algorytm wyodrębniania tekstu z plików PDF w usłudze Azure Blob Storage.
pdfTextRotationAlgorithm?: "none" | "detectAngles"
Wartość właściwości
"none" | "detectAngles"
queryTimeout
Zwiększa limit czasu poza 5-minutową wartość domyślną dla Azure SQL źródeł danych bazy danych określonych w formacie "hh:mm:ss".
queryTimeout?: string
Wartość właściwości
string