Umiejętności poznawcze wyodrębniania dokumentów

Umiejętność wyodrębniania dokumentów wyodrębnia zawartość z pliku w potoku wzbogacania. Dzięki temu można skorzystać z kroku wyodrębniania dokumentów, który zwykle występuje przed wykonaniem zestawu umiejętności z plikami, które mogą być generowane przez inne umiejętności.

Uwaga

Ta umiejętność nie jest powiązana z usługami azure AI i nie ma kluczowych wymagań dotyczących usług sztucznej inteligencji platformy Azure. Ta umiejętność wyodrębnia tekst i obrazy. Wyodrębnianie tekstu jest bezpłatne. Wyodrębnianie obrazów jest mierzone przez usługę Azure AI Search. W bezpłatnej usłudze wyszukiwania koszt 20 transakcji na indeksator dziennie jest wchłonięty, dzięki czemu można ukończyć przewodniki Szybki start, samouczki i małe projekty bez opłat. W przypadku warstwy Podstawowa, Standardowa i powyżej wyodrębnianie obrazów jest rozliczane.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Obsługiwane formaty dokumentów

Plik DocumentExtractionSkill może wyodrębnić tekst z następujących formatów dokumentów:

  • CSV (zobacz Indeksowanie obiektów blob CSV)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (zobacz Indeksowanie obiektów blob JSON)
  • KML (XML dla reprezentacji geograficznych)
  • Formaty pakietu Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (wiadomości e-mail programu Outlook), XML (zarówno 2003, jak i 2006 WORD XML)
  • Otwieranie formatów dokumentów: ODT, ODS, ODP
  • PDF
  • Pliki zwykłego tekstu (zobacz też Indeksowanie zwykłego tekstu)
  • RTF
  • Plik XML
  • ZIP

Parametry umiejętności

W parametrach jest rozróżniana wielkość liter.

Dane wejściowe Dozwolone wartości opis
parsingMode default
text
json
Ustaw wartość na default w celu wyodrębniania dokumentów z plików, które nie są czystym tekstem ani plikiem json. W przypadku plików źródłowych, które zawierają znaczniki (takie jak pliki PDF, HTML, RTF i Microsoft Office), użyj wartości domyślnej, aby wyodrębnić tylko tekst, pomniejszonego o dowolny język znaczników lub tagi. Jeśli parsingMode nie zdefiniowano jawnie, zostanie ustawiona wartość default.

Ustaw wartość , text jeśli pliki źródłowe to TXT. Ten tryb analizowania zwiększa wydajność plików zwykłego tekstu. Jeśli pliki zawierają znaczniki, ten tryb zachowa tagi w końcowych danych wyjściowych.

Ustaw wartość na w celu json wyodrębnienia zawartości ustrukturyzowanej z plików json.
dataToExtract contentAndMetadata
allMetadata
Ustaw wartość na , aby contentAndMetadata wyodrębnić wszystkie metadane i zawartość tekstową z każdego pliku. Jeśli dataToExtract nie zdefiniowano jawnie, zostanie ustawiona wartość contentAndMetadata.

Ustaw wartość na , aby allMetadata wyodrębnić tylko właściwości metadanych dla typu zawartości (na przykład metadane unikatowe dla tylko plików PNG).
configuration Zobacz poniżej. Słownik opcjonalnych parametrów, który dostosowuje sposób wyodrębniania dokumentów. Poniższa tabela zawiera opisy obsługiwanych właściwości konfiguracji.
Parametr konfiguracji Dozwolone wartości opis
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
Ustaw wartość na wartość , aby none ignorować osadzone obrazy lub pliki obrazów w zestawie danych lub jeśli dane źródłowe nie zawierają plików obrazów. Jest to opcja domyślna.

W przypadku analizy OCR i obrazów ustaw na wartość , aby generateNormalizedImages mieć umiejętności tworzenia tablicy znormalizowanych obrazów w ramach łamania dokumentów. Ta akcja wymaga parsingMode ustawienia default i dataToExtract jest ustawiona na contentAndMetadatawartość . Znormalizowany obraz odnosi się do dodatkowego przetwarzania, co powoduje jednolite dane wyjściowe obrazu, rozmiar i obrócony w celu promowania spójnego renderowania podczas dołączania obrazów w wynikach wyszukiwania wizualnego (na przykład zdjęć o takim samym rozmiarze w kontrolce grafu, jak pokazano w pokazie zestawu JFK). Te informacje są generowane dla każdego obrazu podczas korzystania z tej opcji.

W przypadku ustawienia generateNormalizedImagePerPagewartości pliki PDF są traktowane inaczej zamiast wyodrębniania obrazów osadzonych, każda strona jest renderowana jako obraz i odpowiednio znormalizowana. Typy plików innych niż PDF są traktowane tak samo, jak w przypadku generateNormalizedImages ustawienia.
normalizedImageMaxWidth Dowolna liczba całkowita z zakresu od 50 do 10000 Maksymalna szerokość (w pikselach) dla wygenerowanych znormalizowanych obrazów. Wartość domyślna to 2000.
normalizedImageMaxHeight Dowolna liczba całkowita z zakresu od 50 do 10000 Maksymalna wysokość (w pikselach) dla wygenerowanych znormalizowanych obrazów. Wartość domyślna to 2000.

Uwaga

Wartość domyślna 2000 pikseli znormalizowanych obrazów o maksymalnej szerokości i wysokości jest oparta na maksymalnych rozmiarach obsługiwanych przez umiejętności OCR i umiejętności analizy obrazów. Umiejętność OCR obsługuje maksymalną szerokość i wysokość 4200 dla języków innych niż angielski i 10000 dla języka angielskiego. Jeśli zwiększysz maksymalne limity, przetwarzanie może zakończyć się niepowodzeniem w przypadku większych obrazów w zależności od definicji zestawu umiejętności i języka dokumentów.

Dane wejściowe umiejętności

Nazwa danych wejściowych opis
file_data Plik, z którego należy wyodrębnić zawartość.

Dane wejściowe "file_data" muszą być obiektem zdefiniowanym jako:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Alternatywnie można go zdefiniować jako:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Obiekt odwołania do pliku można wygenerować na jeden z trzech sposobów:

  • Ustawianie parametru w definicji indeksatora allowSkillsetToReadFileData na wartość "true". Spowoduje to utworzenie ścieżki /document/file_data reprezentującej oryginalne dane pliku pobrane ze źródła danych obiektu blob. Ten parametr dotyczy tylko plików w usłudze Blob Storage.

  • Ustawienie parametru imageAction w definicji indeksatora na wartość inną niż none. Spowoduje to utworzenie tablicy obrazów, która jest zgodna z wymaganą konwencją dla danych wejściowych tej umiejętności, jeśli zostanie przekazana indywidualnie (czyli /document/normalized_images/*).

  • Posiadanie niestandardowej umiejętności zwraca obiekt json zdefiniowany dokładnie tak, jak powyżej. Parametr $type musi być ustawiony na dokładnie file i data parametr musi być podstawowymi danymi tablicy bajtów zakodowanymi w formacie 64 lub url parametr musi być poprawnie sformatowanym adresem URL z dostępem do pobrania pliku w tej lokalizacji.

Dane wyjściowe umiejętności

Nazwa danych wyjściowych opis
content Tekstowa zawartość dokumentu.
normalized_images imageAction Gdy właściwość jest ustawiona na wartość inną niż none, nowe pole normalized_images zawiera tablicę obrazów. Aby uzyskać więcej informacji na temat formatu wyjściowego, zobacz Wyodrębnianie tekstu i informacji z obrazów .

Przykładowa definicja

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Przykładowe dane wejściowe

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Przykładowe dane wyjściowe

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

Zobacz też