Natív dokumentumtámogatás az Azure AI-nyelvhez (előzetes verzió)
Fontos
A natív dokumentumtámogatás egy kapus előzetes verzió. Ha hozzáférést szeretne kérni a natív dokumentumtámogatási funkcióhoz, töltse ki és küldje el az Apply for access to Language Service previews (Hozzáférés kérése a Language Service előzetes verziójához ) űrlapot.
Az Azure AI Language nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz.
A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
Az Azure AI Language egy felhőalapú szolgáltatás, amely természetes nyelvi feldolgozási (NLP) funkciókat alkalmaz a szövegalapú adatokra. A natív dokumentumtámogatási funkció lehetővé teszi az API-kérések aszinkron küldését egy HTTP POST kérelemtörzs használatával az adatok és a HTTP GET kérések lekérdezési sztringjének elküldéséhez az állapoteredmények lekéréséhez. A feldolgozott dokumentumok az Azure Blob Storage céltárolójában találhatók.
A natív dokumentumok az eredeti dokumentum, például a Microsoft Word (docx) vagy egy hordozható dokumentumfájl (pdf) létrehozásához használt fájlformátumra utalnak. A natív dokumentumtámogatás szükségtelenné teszi a szövegelőfeldolgozást az Azure AI Language erőforrás-képességeinek használata előtt. A natív dokumentumok támogatása jelenleg a következő képességekhez érhető el:
Személyazonosításra alkalmas adatok (PII). A PII-észlelési funkció képes azonosítani, kategorizálni és újrajelezni a strukturálatlan szövegek bizalmas információit. Az
PiiEntityRecognition
API támogatja a natív dokumentumfeldolgozást.Dokumentumösszesítés. A dokumentumösszesítés természetes nyelvi feldolgozással kivonatoló (salient mondatok kinyerése) vagy absztraktív (környezetfüggő szókinyerés) összefoglalókat hoz létre a dokumentumokhoz. Mind
AbstractiveSummarization
azExtractiveSummarization
API-k támogatják a natív dokumentumfeldolgozást.
Támogatott dokumentumformátumok
Az alkalmazások natív fájlformátumokat használnak natív dokumentumok létrehozásához, mentéséhez vagy megnyitásához. A PII és a Document summarization jelenleg a következő natív dokumentumformátumokat támogatja:
Fájltípus | Fájlkiterjesztés | Leírás |
---|---|---|
Szöveges | .txt |
Formázatlan szöveges dokumentum. |
Adobe PDF | .pdf |
Egy hordozható dokumentumfájl formázott dokumentuma. |
Microsoft Word | .docx |
Egy Microsoft Word-dokumentumfájl. |
Bemeneti irányelvek
Támogatott fájlformátumok
Típus | támogatás és korlátozások |
---|---|
A teljes mértékben beolvasott PDF-fájlok nem támogatottak. | |
Képeken belüli szöveg | A beágyazott szöveggel rendelkező digitális képek nem támogatottak. |
Digitális táblák | A beolvasott dokumentumok táblái nem támogatottak. |
Dokumentumméret
Attribútum | Bemeneti korlát |
---|---|
Dokumentumok teljes száma kérelemenként | ≤ 20 |
Teljes tartalomméret kérésenként | ≤ 1 MB |
Natív dokumentumok belefoglalása HTTP-kéréssel
Első lépések:
Ebben a projektben a cURL parancssori eszközzel indítunk REST API-hívásokat.
Feljegyzés
A cURL-csomag előre telepítve van a Legtöbb Windows 10-ben és Windows 11-ben, valamint a legtöbb macOS- és Linux-disztribúcióban. A csomag verzióját a következő parancsokkal ellenőrizheti: Windows:
curl.exe -V
macOScurl -V
Linux:curl --version
Ha a cURL nincs telepítve, az alábbi telepítési hivatkozások találhatók a platformhoz:
Aktív Azure-fiók. Ha még nincs fiókja, hozzon létre egy ingyenes fiókot.
Egy Azure Blob Storage-fiók. Tárolókat is létre kell hoznia az Azure Blob Storage-fiókban a forrás- és célfájlokhoz:
- Forrástároló. Ebben a tárolóban töltheti fel a natív fájlokat elemzésre (kötelező).
- Céltároló. Ez a tároló tárolja az elemzett fájlokat (kötelező).
Egyszolgáltatásos nyelvi erőforrás (nem többszolgáltatásos Azure AI-szolgáltatási erőforrás):
Töltse ki a Language erőforrásprojekt és a példány részletei mezőket az alábbiak szerint:
Előfizetés. Válasszon egyet az elérhető Azure-előfizetései közül.
Erőforráscsoport. Létrehozhat egy új erőforráscsoportot, vagy hozzáadhatja az erőforrást egy már meglévő erőforráscsoporthoz, amely ugyanazokkal az életciklussal, engedélyekkel és szabályzatokkal rendelkezik.
Erőforrásrégió. Válassza a Globális lehetőséget, kivéve, ha a vállalat vagy az alkalmazás egy adott régiót igényel. Ha rendszer által hozzárendelt felügyelt identitást (RBAC) szeretne használni a hitelesítéshez, válasszon egy olyan földrajzi régiót, mint az USA nyugati régiója.
Név. Adja meg az erőforráshoz választott nevet. A választott névnek egyedinek kell lennie az Azure-ban.
Tarifacsomag. Az ingyenes tarifacsomag (
Free F0
) használatával kipróbálhatja a szolgáltatást, és később frissíthet egy fizetős szintre az éles környezetben.Válassza a Felülvizsgálat és létrehozás lehetőséget.
Tekintse át a szolgáltatási feltételeket, és válassza a Létrehozás lehetőséget az erőforrás üzembe helyezéséhez.
Az erőforrás sikeres üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget.
A kulcs- és nyelvi szolgáltatásvégpont lekérése
A Language service-hez érkező kérésekhez írásvédett kulcsra és egyéni végpontra van szükség a hozzáférés hitelesítéséhez.
Ha létrehozott egy új erőforrást, az üzembe helyezés után válassza az Ugrás az erőforrásra lehetőséget. Ha már rendelkezik nyelvi szolgáltatási erőforrással, lépjen közvetlenül az erőforráslapra.
A bal oldali korlát Erőforrás-kezelés területén válassza a Kulcsok és végpont lehetőséget.
A nyelvi szolgáltatáshoz küldött kérés hitelesítéséhez másolhatja és beillesztheti a
key
language service instance endpoint
kódmintákba. API-hívás létrehozásához csak egy kulcs szükséges.
Azure Blob Storage-tárolók létrehozása
Hozzon létre tárolókat az Azure Blob Storage-fiókjában a forrás- és célfájlokhoz.
- Forrástároló. Ebben a tárolóban töltheti fel a natív fájlokat elemzésre (kötelező).
- Céltároló. Ez a tároló tárolja az elemzett fájlokat (kötelező).
Hitelesítés
A nyelvi erőforrásnak hozzáférést kell biztosítani a tárfiókhoz, mielőtt blobokat hozhat létre, olvashat vagy törölhet. A tárolási adatokhoz két elsődleges módszer használható:
Közös hozzáférésű jogosultságkódok (SAS)-jogkivonatok. A felhasználói delegálási SAS-jogkivonatokat a Microsoft Entra hitelesítő adatai védik. Az SAS-jogkivonatok biztonságos, delegált hozzáférést biztosítanak az Azure Storage-fiók erőforrásaihoz.
Felügyelt identitás szerepköralapú hozzáférés-vezérlés (RBAC). Az Azure-erőforrások felügyelt identitásai olyan szolgáltatásnevek, amelyek Létrehoznak egy Microsoft Entra-identitást, és meghatározott engedélyeket hoznak létre az Azure-beli felügyelt erőforrásokhoz.
Ebben a projektben lekérdezési sztringekként hozzáfűzött közös hozzáférésű jogosultságkód (SAS) jogkivonatokkal hitelesítjük a source location
hozzáférést és target location
az URL-címeket. Minden jogkivonat egy adott blobhoz (fájlhoz) van rendelve.
- A forrástárolónak vagy blobnak olvasási és listahozzáférést kell kijelölnie.
- A céltárolónak vagy blobnak írási és listahozzáférést kell kijelölnie.
Tipp.
Mivel egyetlen fájlt (blobot) dolgozunk fel, javasoljuk, hogy a blob szintjén delegálja az SAS-hozzáférést.
Kérelemfejlécek és paraméterek
paraméter | Leírás |
---|---|
-X POST <endpoint> |
Megadja a nyelvi erőforrásvégpontot az API eléréséhez. |
--header Content-Type: application/json |
A JSON-adatok küldéséhez használt tartalomtípus. |
--header "Ocp-Apim-Subscription-Key:<key> |
Megadja az API eléréséhez szükséges nyelvi erőforráskulcsot. |
-data |
A kéréssel átadni kívánt adatokat tartalmazó JSON-fájl. |
A következő cURL-parancsok bash-rendszerhéjból lesznek végrehajtva. Szerkessze ezeket a parancsokat saját erőforrásnevével, erőforráskulcsával és JSON-értékeivel. Próbálja ki a natív dokumentumok elemzését a mintaprojekt vagy Document Summarization
a Personally Identifiable Information (PII)
kódminta kiválasztásával:
PII-mintadokumentum
Ehhez a rövid útmutatóhoz fel kell töltenie egy forrásdokumentumot a forrástárolóba. Letöltheti a Microsoft Word mintadokumentumát vagy az Adobe PDF-et ehhez a projekthez. A forrásnyelv az angol.
A POST-kérelem létrehozása
Az előnyben részesített szerkesztő vagy IDE használatával hozzon létre egy új könyvtárat az alkalmazáshoz.
native-document
Hozzon létre egy pii-detection.json nevű új json-fájlt a natív dokumentum könyvtárában.
Másolja és illessze be a fájlba a következő személyazonosításra alkalmas adatok (PII) kérésmintáját
pii-detection.json
. Cserélje le{your-source-container-SAS-URL}
és{your-target-container-SAS-URL}
használja az Azure Portal Storage-fióktárolók példányának értékeit:
Minta kérése
{
"displayName": "Extracting Location & US Region",
"analysisInput": {
"documents": [
{
"language": "en-US",
"id": "Output-excel-file",
"source": {
"location": "{your-source-blob-with-SAS-URL}"
},
"target": {
"location": "{your-target-container-with-SAS-URL}"
}
}
]
},
"tasks": [
{
"kind": "PiiEntityRecognition",
"parameters":{
"excludePiiCategories" : ["PersonType", "Category2", "Category3"],
"redactionPolicy": "UseRedactionCharacterWithRefId"
}
}
]
}
A forrásérték
location
a forrásdokumentum (blob) SAS URL-címe, nem pedig a forrástároló SAS URL-címe.A
redactionPolicy
lehetséges értékek (UseRedactionCharacterWithRefId
alapértelmezett) vagyUseEntityTypeName
. További információ: PiiTask Parameters.
A POST-kérelem futtatása
A POST-kérelem előzetes felépítése:
POST {your-language-endpoint}/language/analyze-documents/jobs?api-version=2023-11-15-preview
A POST-kérelem futtatása előtt cserélje le és
{your-key}
cserélje le{your-language-resource-endpoint}
az Azure Portal Language service-példány értékeit.Fontos
Ne felejtse el eltávolítani a kulcsot a kódból, amikor elkészült, és soha ne tegye közzé nyilvánosan. Éles környezetben biztonságos módon tárolhatja és érheti el a hitelesítő adatait, például az Azure Key Vaultot. További információ: Azure AI-szolgáltatások biztonsága.
PowerShell
cmd /c curl "{your-language-resource-endpoint}/language/analyze-documents/jobs?api-version=2023-11-15-preview" -i -X POST --header "Content-Type: application/json" --header "Ocp-Apim-Subscription-Key: {your-key}" --data "@pii-detection.json"
parancssor / terminál
curl -v -X POST "{your-language-resource-endpoint}/language/analyze-documents/jobs?api-version=2023-11-15-preview" --header "Content-Type: application/json" --header "Ocp-Apim-Subscription-Key: {your-key}" --data "@pii-detection.json"
Íme egy mintaválasz:
HTTP/1.1 202 Accepted Content-Length: 0 operation-location: https://{your-language-resource-endpoint}/language/analyze-documents/jobs/f1cc29ff-9738-42ea-afa5-98d2d3cabf94?api-version=2023-11-15-preview apim-request-id: e7d6fa0c-0efd-416a-8b1e-1cd9287f5f81 x-ms-region: West US 2 Date: Thu, 25 Jan 2024 15:12:32 GMT
POST válasz (jobId)
Egy 202(sikeres) választ kap, amely egy írásvédett műveleti hely fejlécet tartalmaz. Ennek a fejlécnek az értéke egy feladatazonosítót tartalmaz, amely lekérdezhető az aszinkron művelet állapotának lekéréséhez, és lekérheti az eredményeket egy GET kéréssel:
Elemzési eredmények lekérése (GET-kérés)
A sikeres POST-kérés után lekérdezheti a POST-kérelemben visszaadott művelethely fejlécét a feldolgozott adatok megtekintéséhez.
A GET-kérelem előzetes felépítése:
GET {your-language-endpoint}/language/analyze-documents/jobs/{jobId}?api-version=2023-11-15-preview
A parancs futtatása előtt végezze el a következő módosításokat:
Cserélje le a(z) {jobId} elemet a POST-válasz Műveleti hely fejlécére.
Cserélje le a(z) {your-language-resource-endpoint} és a {your-key} értéket a Language service-példány értékeire az Azure Portalon.
Kérés lekérése
cmd /c curl "{your-language-resource-endpoint}/language/analyze-documents/jobs/{jobId}?api-version=2023-11-15-preview" -i -X GET --header "Content-Type: application/json" --header "Ocp-Apim-Subscription-Key: {your-key}"
curl -v -X GET "{your-language-resource-endpoint}/language/analyze-documents/jobs/{jobId}?api-version=2023-11-15-preview" --header "Content-Type: application/json" --header "Ocp-Apim-Subscription-Key: {your-key}"
A válasz vizsgálata
200 (sikeres) választ kap JSON-kimenettel. Az állapotmező a művelet eredményét jelzi. Ha a művelet nem fejeződött be, az állapot értéke "fut" vagy "notStarted", és újra meg kell hívnia az API-t manuálisan vagy parancsfájlon keresztül. Javasoljuk, hogy a hívások között legalább egy másodperces időközt válasszon.
Mintaválasz
{
"jobId": "f1cc29ff-9738-42ea-afa5-98d2d3cabf94",
"lastUpdatedDateTime": "2024-01-24T13:17:58Z",
"createdDateTime": "2024-01-24T13:17:47Z",
"expirationDateTime": "2024-01-25T13:17:47Z",
"status": "succeeded",
"errors": [],
"tasks": {
"completed": 1,
"failed": 0,
"inProgress": 0,
"total": 1,
"items": [
{
"kind": "PiiEntityRecognitionLROResults",
"lastUpdateDateTime": "2024-01-24T13:17:58.33934Z",
"status": "succeeded",
"results": {
"documents": [
{
"id": "doc_0",
"source": {
"kind": "AzureBlob",
"location": "https://myaccount.blob.core.windows.net/sample-input/input.pdf"
},
"targets": [
{
"kind": "AzureBlob",
"location": "https://myaccount.blob.core.windows.net/sample-output/df6611a3-fe74-44f8-b8d4-58ac7491cb13/PiiEntityRecognition-0001/input.result.json"
},
{
"kind": "AzureBlob",
"location": "https://myaccount.blob.core.windows.net/sample-output/df6611a3-fe74-44f8-b8d4-58ac7491cb13/PiiEntityRecognition-0001/input.docx"
}
],
"warnings": []
}
],
"errors": [],
"modelVersion": "2023-09-01"
}
}
]
}
}
Sikeres befejezés esetén:
- Az elemzett dokumentumok a céltárolóban találhatók.
- A sikeres POST metódus egy
202 Accepted
válaszkódot ad vissza, amely azt jelzi, hogy a szolgáltatás létrehozta a kötegkérelmet. - A POST-kérés válaszfejléceket is visszaadott, beleértve
Operation-Location
a későbbi GET-kérelmekben használt értéket is.
Az erőforrások eltávolítása
Ha törölni és eltávolítani szeretne egy Azure AI-szolgáltatási előfizetést, törölheti az erőforrást vagy az erőforráscsoportot. Az erőforráscsoport törlése a hozzá társított egyéb erőforrásokat is törli.