Umiejętności poznawcze wyodrębniania dokumentów
Umiejętność wyodrębniania dokumentów wyodrębnia zawartość z pliku w potoku wzbogacania. Dzięki temu można skorzystać z kroku wyodrębniania dokumentów, który zwykle występuje przed wykonaniem zestawu umiejętności z plikami, które mogą być generowane przez inne umiejętności.
Uwaga
Ta umiejętność nie jest powiązana z usługami azure AI i nie ma kluczowych wymagań dotyczących usług sztucznej inteligencji platformy Azure. Ta umiejętność wyodrębnia tekst i obrazy. Wyodrębnianie tekstu jest bezpłatne. Wyodrębnianie obrazów jest mierzone przez usługę Azure AI Search. W bezpłatnej usłudze wyszukiwania koszt 20 transakcji na indeksator dziennie jest wchłonięty, dzięki czemu można ukończyć przewodniki Szybki start, samouczki i małe projekty bez opłat. W przypadku warstwy Podstawowa, Standardowa i powyżej wyodrębnianie obrazów jest rozliczane.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Obsługiwane formaty dokumentów
Plik DocumentExtractionSkill może wyodrębnić tekst z następujących formatów dokumentów:
- CSV (zobacz Indeksowanie obiektów blob CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (zobacz Indeksowanie obiektów blob JSON)
- KML (XML dla reprezentacji geograficznych)
- Formaty pakietu Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (wiadomości e-mail programu Outlook), XML (zarówno 2003, jak i 2006 WORD XML)
- Otwieranie formatów dokumentów: ODT, ODS, ODP
- Pliki zwykłego tekstu (zobacz też Indeksowanie zwykłego tekstu)
- RTF
- Plik XML
- ZIP
Parametry umiejętności
W parametrach jest rozróżniana wielkość liter.
Dane wejściowe | Dozwolone wartości | opis |
---|---|---|
parsingMode |
default text json |
Ustaw wartość na default w celu wyodrębniania dokumentów z plików, które nie są czystym tekstem ani plikiem json. W przypadku plików źródłowych, które zawierają znaczniki (takie jak pliki PDF, HTML, RTF i Microsoft Office), użyj wartości domyślnej, aby wyodrębnić tylko tekst, pomniejszonego o dowolny język znaczników lub tagi. Jeśli parsingMode nie zdefiniowano jawnie, zostanie ustawiona wartość default . Ustaw wartość , text jeśli pliki źródłowe to TXT. Ten tryb analizowania zwiększa wydajność plików zwykłego tekstu. Jeśli pliki zawierają znaczniki, ten tryb zachowa tagi w końcowych danych wyjściowych. Ustaw wartość na w celu json wyodrębnienia zawartości ustrukturyzowanej z plików json. |
dataToExtract |
contentAndMetadata allMetadata |
Ustaw wartość na , aby contentAndMetadata wyodrębnić wszystkie metadane i zawartość tekstową z każdego pliku. Jeśli dataToExtract nie zdefiniowano jawnie, zostanie ustawiona wartość contentAndMetadata . Ustaw wartość na w celu allMetadata wyodrębnienia tylko właściwości metadanych dla typu zawartości (na przykład metadanych unikatowych dla tylko .png plików). |
configuration |
Zobacz poniżej. | Słownik opcjonalnych parametrów, który dostosowuje sposób wyodrębniania dokumentów. Poniższa tabela zawiera opisy obsługiwanych właściwości konfiguracji. |
Parametr konfiguracji | Dozwolone wartości | opis |
---|---|---|
imageAction |
none generateNormalizedImages generateNormalizedImagePerPage |
Ustaw wartość na wartość , aby none ignorować osadzone obrazy lub pliki obrazów w zestawie danych lub jeśli dane źródłowe nie zawierają plików obrazów. Jest to opcja domyślna. W przypadku analizy OCR i obrazów ustaw na wartość , aby generateNormalizedImages mieć umiejętności tworzenia tablicy znormalizowanych obrazów w ramach łamania dokumentów. Ta akcja wymaga parsingMode ustawienia default i dataToExtract jest ustawiona na contentAndMetadata wartość . Znormalizowany obraz odnosi się do dodatkowego przetwarzania, co powoduje jednolite dane wyjściowe obrazu, rozmiar i obrócony w celu promowania spójnego renderowania podczas dołączania obrazów w wynikach wyszukiwania wizualnego (na przykład zdjęć o takim samym rozmiarze w kontrolce grafu, jak pokazano w pokazie zestawu JFK). Te informacje są generowane dla każdego obrazu podczas korzystania z tej opcji. W przypadku ustawienia generateNormalizedImagePerPage wartości pliki PDF są traktowane inaczej zamiast wyodrębniania obrazów osadzonych, każda strona jest renderowana jako obraz i odpowiednio znormalizowana. Typy plików innych niż PDF są traktowane tak samo, jak w przypadku generateNormalizedImages ustawienia. |
normalizedImageMaxWidth |
Dowolna liczba całkowita z zakresu od 50 do 10000 | Maksymalna szerokość (w pikselach) dla wygenerowanych znormalizowanych obrazów. Wartość domyślna to 2000. |
normalizedImageMaxHeight |
Dowolna liczba całkowita z zakresu od 50 do 10000 | Maksymalna wysokość (w pikselach) dla wygenerowanych znormalizowanych obrazów. Wartość domyślna to 2000. |
Uwaga
Wartość domyślna 2000 pikseli znormalizowanych obrazów o maksymalnej szerokości i wysokości jest oparta na maksymalnych rozmiarach obsługiwanych przez umiejętności OCR i umiejętności analizy obrazów. Umiejętność OCR obsługuje maksymalną szerokość i wysokość 4200 dla języków innych niż angielski i 10000 dla języka angielskiego. Jeśli zwiększysz maksymalne limity, przetwarzanie może zakończyć się niepowodzeniem w przypadku większych obrazów w zależności od definicji zestawu umiejętności i języka dokumentów.
Dane wejściowe umiejętności
Nazwa danych wejściowych | opis |
---|---|
file_data |
Plik, z którego należy wyodrębnić zawartość. |
Dane wejściowe "file_data" muszą być obiektem zdefiniowanym jako:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Alternatywnie można go zdefiniować jako:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
Obiekt odwołania do pliku można wygenerować na jeden z trzech sposobów:
Ustawianie parametru w definicji indeksatora
allowSkillsetToReadFileData
na wartość "true". Spowoduje to utworzenie ścieżki/document/file_data
reprezentującej oryginalne dane pliku pobrane ze źródła danych obiektu blob. Ten parametr dotyczy tylko plików w usłudze Blob Storage.Ustawienie parametru
imageAction
w definicji indeksatora na wartość inną niżnone
. Spowoduje to utworzenie tablicy obrazów, która jest zgodna z wymaganą konwencją dla danych wejściowych tej umiejętności, jeśli zostanie przekazana indywidualnie (czyli/document/normalized_images/*
).Posiadanie niestandardowej umiejętności zwraca obiekt json zdefiniowany dokładnie tak, jak powyżej. Parametr
$type
musi być ustawiony na dokładniefile
idata
parametr musi być podstawowymi danymi tablicy bajtów zakodowanymi w formacie 64 luburl
parametr musi być poprawnie sformatowanym adresem URL z dostępem do pobrania pliku w tej lokalizacji.
Dane wyjściowe umiejętności
Nazwa danych wyjściowych | opis |
---|---|
content |
Tekstowa zawartość dokumentu. |
normalized_images |
imageAction Gdy właściwość jest ustawiona na wartość inną niż none , nowe pole normalized_images zawiera tablicę obrazów. Aby uzyskać więcej informacji na temat formatu wyjściowego, zobacz Wyodrębnianie tekstu i informacji z obrazów . |
Przykładowa definicja
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Przykładowe dane wejściowe
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Przykładowe dane wyjściowe
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}