Umiejętności poznawcze wyodrębniania dokumentów

2025-05-28

Umiejętność wyodrębniania dokumentów wyodrębnia zawartość z pliku w potoku wzbogacania. Domyślnie wyodrębnianie lub pobieranie zawartości jest wbudowane w potok indeksatora. Jednak korzystając z umiejętności wyodrębniania dokumentów, możesz kontrolować sposób ustawiania parametrów i jak wyodrębniona zawartość jest nazwana w drzewie wzbogacania.

W przypadku wyszukiwania wektorowego i wielomodalnego wyodrębnianie dokumentów w połączeniu z umiejętnościami dzielenia tekstu jest bardziej przystępne niż inne podejścia fragmentowania danych. W poniższych samouczkach przedstawiono użycie umiejętności dla różnych scenariuszy:

Uwaga / Notatka

Ta umiejętność nie jest powiązana z usługami azure AI i nie ma kluczowych wymagań dotyczących usług sztucznej inteligencji platformy Azure.

Ta umiejętność wyodrębnia tekst i obrazy. Wyodrębnianie tekstu jest darmowe. Wyodrębnianie obrazów jest rozliczane za pomocą usługi Azure AI Search. W bezpłatnej usłudze wyszukiwania koszt 20 transakcji na indeksator dziennie jest wchłonięty, dzięki czemu można ukończyć przewodniki Szybki start, samouczki i małe projekty bez opłat. W przypadku warstw podstawowych i wyższych wyodrębnianie obrazów jest rozliczane.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Obsługiwane formaty dokumentów

Plik DocumentExtractionSkill może wyodrębnić tekst z następujących formatów dokumentów:

CSV (zobacz Indeksowanie obiektów blob CSV)
EML
EPUB
GZ
HTML
JSON (zobacz Indeksowanie obiektów blob JSON)
KML (XML dla reprezentacji geograficznych)
Formaty pakietu Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (wiadomości e-mail programu Outlook), XML (zarówno 2003, jak i 2006 WORD XML)
Otwieranie formatów dokumentów: ODT, ODS, ODP
PDF
Pliki zwykłego tekstu (zobacz też Indeksowanie zwykłego tekstu)
RTF
XML
ZAMEK

Parametry umiejętności

W parametrach jest rozróżniana wielkość liter.

Dane wejściowe Dozwolone wartości Opis

Dane wejściowe	Dozwolone wartości	Opis
`parsingMode`	`default` `text` `json`	Ustaw wartość na `default` w celu wyodrębniania dokumentów z plików, które nie są czystym tekstem ani plikiem json. W przypadku plików źródłowych, które zawierają znaczniki (takie jak pliki PDF, HTML, RTF i Microsoft Office), użyj wartości domyślnej, aby wyodrębnić tylko tekst, pomniejszonego o dowolny język znaczników lub tagi. Jeśli `parsingMode` nie zdefiniowano jawnie, zostanie ustawiona wartość `default`. Ustaw wartość , `text` jeśli pliki źródłowe to TXT. Ten tryb analizowania zwiększa wydajność plików zwykłego tekstu. Jeśli pliki zawierają znaczniki, ten tryb zachowa tagi w końcowych danych wyjściowych. Ustaw wartość na w celu `json` wyodrębnienia zawartości ustrukturyzowanej z plików json.
`dataToExtract`	`contentAndMetadata` `allMetadata`	Ustaw wartość na , aby `contentAndMetadata` wyodrębnić wszystkie metadane i zawartość tekstową z każdego pliku. Jeśli `dataToExtract` nie zdefiniowano jawnie, zostanie ustawiona wartość `contentAndMetadata`. Ustaw wartość na , aby `allMetadata` wyodrębnić tylko właściwości metadanych dla typu zawartości (na przykład metadane unikatowe dla tylko .png plików).
`configuration`	Zobacz poniżej.	Słownik opcjonalnych parametrów, który dostosowuje sposób wyodrębniania dokumentów. Poniższa tabela zawiera opisy obsługiwanych właściwości konfiguracji.

parsingMode

default
text
json

Ustaw wartość na default w celu wyodrębniania dokumentów z plików, które nie są czystym tekstem ani plikiem json. W przypadku plików źródłowych, które zawierają znaczniki (takie jak pliki PDF, HTML, RTF i Microsoft Office), użyj wartości domyślnej, aby wyodrębnić tylko tekst, pomniejszonego o dowolny język znaczników lub tagi. Jeśli parsingMode nie zdefiniowano jawnie, zostanie ustawiona wartość default.

Ustaw wartość , text jeśli pliki źródłowe to TXT. Ten tryb analizowania zwiększa wydajność plików zwykłego tekstu. Jeśli pliki zawierają znaczniki, ten tryb zachowa tagi w końcowych danych wyjściowych.

Ustaw wartość na w celu json wyodrębnienia zawartości ustrukturyzowanej z plików json.

dataToExtract

contentAndMetadata
allMetadata

Ustaw wartość na , aby contentAndMetadata wyodrębnić wszystkie metadane i zawartość tekstową z każdego pliku. Jeśli dataToExtract nie zdefiniowano jawnie, zostanie ustawiona wartość contentAndMetadata.

Ustaw wartość na , aby allMetadata wyodrębnić tylko właściwości metadanych dla typu zawartości (na przykład metadane unikatowe dla tylko .png plików).

configuration Zobacz poniżej. Słownik opcjonalnych parametrów, który dostosowuje sposób wyodrębniania dokumentów. Poniższa tabela zawiera opisy obsługiwanych właściwości konfiguracji.

Parametr konfiguracji Dozwolone wartości Opis

Parametr konfiguracji	Dozwolone wartości	Opis
`imageAction`	`none` `generateNormalizedImages` `generateNormalizedImagePerPage`	Ustaw wartość na wartość , aby `none` ignorować osadzone obrazy lub pliki obrazów w zestawie danych lub jeśli dane źródłowe nie zawierają plików obrazów. Jest to wartość domyślna. W przypadku analizy OCR i obrazów ustaw na wartość , aby `generateNormalizedImages` mieć umiejętności tworzenia tablicy znormalizowanych obrazów w ramach łamania dokumentów. Ta akcja wymaga `parsingMode` ustawienia `default` i `dataToExtract` jest ustawiona na `contentAndMetadata`wartość . Znormalizowany obraz odnosi się do dodatkowego przetwarzania, co powoduje jednolite dane wyjściowe obrazu, rozmiar i obrócony w celu promowania spójnego renderowania podczas dołączania obrazów w wynikach wyszukiwania wizualnego (na przykład zdjęć o takim samym rozmiarze w kontrolce grafu, jak pokazano w pokazie zestawu JFK). Te informacje są generowane dla każdego obrazu podczas korzystania z tej opcji. W przypadku ustawienia `generateNormalizedImagePerPage`wartości pliki PDF są traktowane inaczej zamiast wyodrębniania obrazów osadzonych, każda strona jest renderowana jako obraz i odpowiednio znormalizowana. Typy plików innych niż PDF są traktowane tak samo, jak w przypadku `generateNormalizedImages` ustawienia.
`normalizedImageMaxWidth`	Dowolna liczba całkowita z zakresu od 50 do 10000	Maksymalna szerokość (w pikselach) dla wygenerowanych znormalizowanych obrazów. Wartość domyślna to 2000.
`normalizedImageMaxHeight`	Dowolna liczba całkowita z zakresu od 50 do 10000	Maksymalna wysokość (w pikselach) dla wygenerowanych znormalizowanych obrazów. Wartość domyślna to 2000.

imageAction

none
generateNormalizedImages
generateNormalizedImagePerPage

Ustaw wartość na wartość , aby none ignorować osadzone obrazy lub pliki obrazów w zestawie danych lub jeśli dane źródłowe nie zawierają plików obrazów. Jest to wartość domyślna.

W przypadku analizy OCR i obrazów ustaw na wartość , aby generateNormalizedImages mieć umiejętności tworzenia tablicy znormalizowanych obrazów w ramach łamania dokumentów. Ta akcja wymaga parsingMode ustawienia default i dataToExtract jest ustawiona na contentAndMetadatawartość . Znormalizowany obraz odnosi się do dodatkowego przetwarzania, co powoduje jednolite dane wyjściowe obrazu, rozmiar i obrócony w celu promowania spójnego renderowania podczas dołączania obrazów w wynikach wyszukiwania wizualnego (na przykład zdjęć o takim samym rozmiarze w kontrolce grafu, jak pokazano w pokazie zestawu JFK). Te informacje są generowane dla każdego obrazu podczas korzystania z tej opcji.

W przypadku ustawienia generateNormalizedImagePerPagewartości pliki PDF są traktowane inaczej zamiast wyodrębniania obrazów osadzonych, każda strona jest renderowana jako obraz i odpowiednio znormalizowana. Typy plików innych niż PDF są traktowane tak samo, jak w przypadku generateNormalizedImages ustawienia.

normalizedImageMaxWidth Dowolna liczba całkowita z zakresu od 50 do 10000 Maksymalna szerokość (w pikselach) dla wygenerowanych znormalizowanych obrazów. Wartość domyślna to 2000.

normalizedImageMaxHeight Dowolna liczba całkowita z zakresu od 50 do 10000 Maksymalna wysokość (w pikselach) dla wygenerowanych znormalizowanych obrazów. Wartość domyślna to 2000.

Uwaga / Notatka

Wartość domyślna 2000 pikseli znormalizowanych obrazów o maksymalnej szerokości i wysokości jest oparta na maksymalnych rozmiarach obsługiwanych przez umiejętności OCR i umiejętności analizy obrazów. Umiejętność OCR obsługuje maksymalną szerokość i wysokość 4200 dla języków innych niż angielski i 10000 dla języka angielskiego. Jeśli zwiększysz maksymalne limity, przetwarzanie może zakończyć się niepowodzeniem w przypadku większych obrazów w zależności od definicji zestawu umiejętności i języka dokumentów.

Dane wejściowe umiejętności

Nazwa danych wejściowych	Opis
`file_data`	Plik, z którego należy wyodrębnić zawartość.

Dane wejściowe "file_data" muszą być obiektem zdefiniowanym jako:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Alternatywnie można go zdefiniować jako:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Obiekt odwołania do pliku można wygenerować na jeden z trzech sposobów:

Ustawianie parametru w definicji indeksatora allowSkillsetToReadFileData na wartość "true". Spowoduje to utworzenie ścieżki /document/file_data reprezentującej oryginalne dane pliku pobrane ze źródła danych obiektu blob. Ten parametr dotyczy tylko plików w usłudze Blob Storage.
Ustawienie parametru imageAction w definicji indeksatora na wartość inną niż none. Spowoduje to utworzenie tablicy obrazów, która jest zgodna z wymaganą konwencją dla danych wejściowych tej umiejętności, jeśli zostanie przekazana indywidualnie (czyli /document/normalized_images/*).
Posiadanie niestandardowej umiejętności zwraca obiekt json zdefiniowany dokładnie tak, jak powyżej. Parametr $type musi być ustawiony na dokładnie file i data parametr musi być podstawowymi danymi tablicy bajtów zakodowanymi w formacie 64 lub url parametr musi być poprawnie sformatowanym adresem URL z dostępem do pobrania pliku w tej lokalizacji.

Dane wyjściowe umiejętności

Nazwa danych wyjściowych	Opis
`content`	Tekstowa zawartość dokumentu.
`normalized_images`	`imageAction` Gdy właściwość jest ustawiona na wartość inną niż `none`, nowe pole normalized_images zawiera tablicę obrazów. Aby uzyskać więcej informacji na temat formatu wyjściowego, zobacz Wyodrębnianie tekstu i informacji z obrazów .

Przykładowa definicja

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Przykładowe dane wejściowe

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Przykładowe dane wyjściowe

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}