Megosztás a következőn keresztül:


Natív dokumentumtámogatás az Azure AI-nyelvhez (előzetes verzió)

Fontos

  • A natív dokumentumtámogatás egy kapus előzetes verzió. Ha hozzáférést szeretne kérni a natív dokumentumtámogatási funkcióhoz, töltse ki és küldje el az Apply for access to Language Service previews (Hozzáférés kérése a Language Service előzetes verziójához ) űrlapot.

  • Az Azure AI Language nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz.

  • A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.

Az Azure AI Language egy felhőalapú szolgáltatás, amely természetes nyelvi feldolgozási (NLP) funkciókat alkalmaz a szövegalapú adatokra. A natív dokumentumtámogatási funkció lehetővé teszi az API-kérések aszinkron küldését egy HTTP POST kérelemtörzs használatával az adatok és a HTTP GET kérések lekérdezési sztringjének elküldéséhez az állapoteredmények lekéréséhez. A feldolgozott dokumentumok az Azure Blob Storage céltárolójában találhatók.

A natív dokumentumok az eredeti dokumentum, például a Microsoft Word (docx) vagy egy hordozható dokumentumfájl (pdf) létrehozásához használt fájlformátumra utalnak. A natív dokumentumtámogatás szükségtelenné teszi a szövegelőfeldolgozást az Azure AI Language erőforrás-képességeinek használata előtt. A natív dokumentumok támogatása jelenleg a következő képességekhez érhető el:

  • Személyazonosításra alkalmas adatok (PII). A PII-észlelési funkció képes azonosítani, kategorizálni és újrajelezni a strukturálatlan szövegek bizalmas információit. Az PiiEntityRecognition API támogatja a natív dokumentumfeldolgozást.

  • Dokumentumösszesítés. A dokumentumösszesítés természetes nyelvi feldolgozással kivonatoló (salient mondatok kinyerése) vagy absztraktív (környezetfüggő szókinyerés) összefoglalókat hoz létre a dokumentumokhoz. Mind AbstractiveSummarization az ExtractiveSummarization API-k támogatják a natív dokumentumfeldolgozást.

Támogatott dokumentumformátumok

Az alkalmazások natív fájlformátumokat használnak natív dokumentumok létrehozásához, mentéséhez vagy megnyitásához. A PII és a Document summarization jelenleg a következő natív dokumentumformátumokat támogatja:

Fájltípus Fájlkiterjesztés Leírás
Szöveges .txt Formázatlan szöveges dokumentum.
Adobe PDF .pdf Egy hordozható dokumentumfájl formázott dokumentuma.
Microsoft Word .docx Egy Microsoft Word-dokumentumfájl.

Bemeneti irányelvek

Támogatott fájlformátumok

Típus támogatás és korlátozások
Pdf A teljes mértékben beolvasott PDF-fájlok nem támogatottak.
Képeken belüli szöveg A beágyazott szöveggel rendelkező digitális képek nem támogatottak.
Digitális táblák A beolvasott dokumentumok táblái nem támogatottak.

Dokumentumméret

Attribútum Bemeneti korlát
Dokumentumok teljes száma kérelemenként ≤ 20
Teljes tartalomméret kérésenként ≤ 1 MB

Natív dokumentumok belefoglalása HTTP-kéréssel

Első lépések:

  • Ebben a projektben a cURL parancssori eszközzel indítunk REST API-hívásokat.

    Feljegyzés

    A cURL-csomag előre telepítve van a Legtöbb Windows 10-ben és Windows 11-ben, valamint a legtöbb macOS- és Linux-disztribúcióban. A csomag verzióját a következő parancsokkal ellenőrizheti: Windows: curl.exe -V macOS curl -V Linux: curl --version

  • Ha a cURL nincs telepítve, az alábbi telepítési hivatkozások találhatók a platformhoz:

  • Aktív Azure-fiók. Ha még nincs fiókja, hozzon létre egy ingyenes fiókot.

  • Egy Azure Blob Storage-fiók. Tárolókat is létre kell hoznia az Azure Blob Storage-fiókban a forrás- és célfájlokhoz:

    • Forrástároló. Ebben a tárolóban töltheti fel a natív fájlokat elemzésre (kötelező).
    • Céltároló. Ez a tároló tárolja az elemzett fájlokat (kötelező).
  • Egyszolgáltatásos nyelvi erőforrás (nem többszolgáltatásos Azure AI-szolgáltatási erőforrás):

    Töltse ki a Language erőforrásprojekt és a példány részletei mezőket az alábbiak szerint:

    1. Előfizetés. Válasszon egyet az elérhető Azure-előfizetései közül.

    2. Erőforráscsoport. Létrehozhat egy új erőforráscsoportot, vagy hozzáadhatja az erőforrást egy már meglévő erőforráscsoporthoz, amely ugyanazokkal az életciklussal, engedélyekkel és szabályzatokkal rendelkezik.

    3. Erőforrásrégió. Válassza a Globális lehetőséget, kivéve, ha a vállalat vagy az alkalmazás egy adott régiót igényel. Ha rendszer által hozzárendelt felügyelt identitást (RBAC) szeretne használni a hitelesítéshez, válasszon egy olyan földrajzi régiót, mint az USA nyugati régiója.

    4. Név. Adja meg az erőforráshoz választott nevet. A választott névnek egyedinek kell lennie az Azure-ban.

    5. Tarifacsomag. Az ingyenes tarifacsomag (Free F0) használatával kipróbálhatja a szolgáltatást, és később frissíthet egy fizetős szintre az éles környezetben.

    6. Válassza a Felülvizsgálat és létrehozás lehetőséget.

    7. Tekintse át a szolgáltatási feltételeket, és válassza a Létrehozás lehetőséget az erőforrás üzembe helyezéséhez.

    8. Az erőforrás sikeres üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget.

A kulcs- és nyelvi szolgáltatásvégpont lekérése

A Language service-hez érkező kérésekhez írásvédett kulcsra és egyéni végpontra van szükség a hozzáférés hitelesítéséhez.

  1. Ha létrehozott egy új erőforrást, az üzembe helyezés után válassza az Ugrás az erőforrásra lehetőséget. Ha már rendelkezik nyelvi szolgáltatási erőforrással, lépjen közvetlenül az erőforráslapra.

  2. A bal oldali korlát Erőforrás-kezelés területén válassza a Kulcsok és végpont lehetőséget.

  3. A nyelvi szolgáltatáshoz küldött kérés hitelesítéséhez másolhatja és beillesztheti a keylanguage service instance endpoint kódmintákba. API-hívás létrehozásához csak egy kulcs szükséges.

Azure Blob Storage-tárolók létrehozása

Hozzon létre tárolókat az Azure Blob Storage-fiókjában a forrás- és célfájlokhoz.

  • Forrástároló. Ebben a tárolóban töltheti fel a natív fájlokat elemzésre (kötelező).
  • Céltároló. Ez a tároló tárolja az elemzett fájlokat (kötelező).

Hitelesítés

A nyelvi erőforrásnak hozzáférést kell biztosítani a tárfiókhoz, mielőtt blobokat hozhat létre, olvashat vagy törölhet. A tárolási adatokhoz két elsődleges módszer használható:

Ebben a projektben lekérdezési sztringekként hozzáfűzött közös hozzáférésű jogosultságkód (SAS) jogkivonatokkal hitelesítjük a source location hozzáférést és target location az URL-címeket. Minden jogkivonat egy adott blobhoz (fájlhoz) van rendelve.

Screenshot of a storage url with SAS token appended.

  • A forrástárolónak vagy blobnak olvasási és listahozzáférést kell kijelölnie.
  • A céltárolónak vagy blobnak írási és listahozzáférést kell kijelölnie.

Tipp.

Mivel egyetlen fájlt (blobot) dolgozunk fel, javasoljuk, hogy a blob szintjén delegálja az SAS-hozzáférést.

Kérelemfejlécek és paraméterek

paraméter Leírás
-X POST <endpoint> Megadja a nyelvi erőforrásvégpontot az API eléréséhez.
--header Content-Type: application/json A JSON-adatok küldéséhez használt tartalomtípus.
--header "Ocp-Apim-Subscription-Key:<key> Megadja az API eléréséhez szükséges nyelvi erőforráskulcsot.
-data A kéréssel átadni kívánt adatokat tartalmazó JSON-fájl.

A következő cURL-parancsok bash-rendszerhéjból lesznek végrehajtva. Szerkessze ezeket a parancsokat saját erőforrásnevével, erőforráskulcsával és JSON-értékeivel. Próbálja ki a natív dokumentumok elemzését a mintaprojekt vagy Document Summarization a Personally Identifiable Information (PII) kódminta kiválasztásával:

PII-mintadokumentum

Ehhez a rövid útmutatóhoz fel kell töltenie egy forrásdokumentumot a forrástárolóba. Letöltheti a Microsoft Word mintadokumentumát vagy az Adobe PDF-et ehhez a projekthez. A forrásnyelv az angol.

A POST-kérelem létrehozása

  1. Az előnyben részesített szerkesztő vagy IDE használatával hozzon létre egy új könyvtárat az alkalmazáshoz.native-document

  2. Hozzon létre egy pii-detection.json nevű új json-fájlt a natív dokumentum könyvtárában.

  3. Másolja és illessze be a fájlba a következő személyazonosításra alkalmas adatok (PII) kérésmintájátpii-detection.json. Cserélje le {your-source-container-SAS-URL} és {your-target-container-SAS-URL} használja az Azure Portal Storage-fióktárolók példányának értékeit:

Minta kérése

{
    "displayName": "Extracting Location & US Region",
    "analysisInput": {
        "documents": [
            {
                "language": "en-US",
                "id": "Output-excel-file",
                "source": {
                    "location": "{your-source-blob-with-SAS-URL}"
                },
                "target": {
                    "location": "{your-target-container-with-SAS-URL}"
                }
            } 
        ]
    },
    "tasks": [
        {
            "kind": "PiiEntityRecognition",
            "parameters":{
                "excludePiiCategories" : ["PersonType", "Category2", "Category3"],
                "redactionPolicy": "UseRedactionCharacterWithRefId" 
            }
        }
    ]
}
  • A forrásérték location a forrásdokumentum (blob) SAS URL-címe, nem pedig a forrástároló SAS URL-címe.

  • A redactionPolicy lehetséges értékek ( UseRedactionCharacterWithRefId alapértelmezett) vagy UseEntityTypeName. További információ: PiiTask Parameters.

A POST-kérelem futtatása

  1. A POST-kérelem előzetes felépítése:

       POST {your-language-endpoint}/language/analyze-documents/jobs?api-version=2023-11-15-preview
    
  2. A POST-kérelem futtatása előtt cserélje le és {your-key} cserélje le {your-language-resource-endpoint} az Azure Portal Language service-példány értékeit.

    Fontos

    Ne felejtse el eltávolítani a kulcsot a kódból, amikor elkészült, és soha ne tegye közzé nyilvánosan. Éles környezetben biztonságos módon tárolhatja és érheti el a hitelesítő adatait, például az Azure Key Vaultot. További információ: Azure AI-szolgáltatások biztonsága.

    PowerShell

       cmd /c curl "{your-language-resource-endpoint}/language/analyze-documents/jobs?api-version=2023-11-15-preview" -i -X POST --header "Content-Type: application/json" --header "Ocp-Apim-Subscription-Key: {your-key}" --data "@pii-detection.json"
    

    parancssor / terminál

       curl -v -X POST "{your-language-resource-endpoint}/language/analyze-documents/jobs?api-version=2023-11-15-preview" --header "Content-Type: application/json" --header "Ocp-Apim-Subscription-Key: {your-key}" --data "@pii-detection.json"
    
  3. Íme egy mintaválasz:

    HTTP/1.1 202 Accepted
    Content-Length: 0
    operation-location: https://{your-language-resource-endpoint}/language/analyze-documents/jobs/f1cc29ff-9738-42ea-afa5-98d2d3cabf94?api-version=2023-11-15-preview
    apim-request-id: e7d6fa0c-0efd-416a-8b1e-1cd9287f5f81
    x-ms-region: West US 2
    Date: Thu, 25 Jan 2024 15:12:32 GMT
    

POST válasz (jobId)

Egy 202(sikeres) választ kap, amely egy írásvédett műveleti hely fejlécet tartalmaz. Ennek a fejlécnek az értéke egy feladatazonosítót tartalmaz, amely lekérdezhető az aszinkron művelet állapotának lekéréséhez, és lekérheti az eredményeket egy GET kéréssel:

Screenshot showing the operation-location value in the POST response.

Elemzési eredmények lekérése (GET-kérés)

  1. A sikeres POST-kérés után lekérdezheti a POST-kérelemben visszaadott művelethely fejlécét a feldolgozott adatok megtekintéséhez.

  2. A GET-kérelem előzetes felépítése:

      GET {your-language-endpoint}/language/analyze-documents/jobs/{jobId}?api-version=2023-11-15-preview
    
  3. A parancs futtatása előtt végezze el a következő módosításokat:

    • Cserélje le a(z) {jobId} elemet a POST-válasz Műveleti hely fejlécére.

    • Cserélje le a(z) {your-language-resource-endpoint} és a {your-key} értéket a Language service-példány értékeire az Azure Portalon.

Kérés lekérése

    cmd /c curl "{your-language-resource-endpoint}/language/analyze-documents/jobs/{jobId}?api-version=2023-11-15-preview" -i -X GET --header "Content-Type: application/json" --header "Ocp-Apim-Subscription-Key: {your-key}"
    curl -v -X GET "{your-language-resource-endpoint}/language/analyze-documents/jobs/{jobId}?api-version=2023-11-15-preview" --header "Content-Type: application/json" --header "Ocp-Apim-Subscription-Key: {your-key}"

A válasz vizsgálata

200 (sikeres) választ kap JSON-kimenettel. Az állapotmező a művelet eredményét jelzi. Ha a művelet nem fejeződött be, az állapot értéke "fut" vagy "notStarted", és újra meg kell hívnia az API-t manuálisan vagy parancsfájlon keresztül. Javasoljuk, hogy a hívások között legalább egy másodperces időközt válasszon.

Mintaválasz

{
  "jobId": "f1cc29ff-9738-42ea-afa5-98d2d3cabf94",
  "lastUpdatedDateTime": "2024-01-24T13:17:58Z",
  "createdDateTime": "2024-01-24T13:17:47Z",
  "expirationDateTime": "2024-01-25T13:17:47Z",
  "status": "succeeded",
  "errors": [],
  "tasks": {
    "completed": 1,
    "failed": 0,
    "inProgress": 0,
    "total": 1,
    "items": [
      {
        "kind": "PiiEntityRecognitionLROResults",
        "lastUpdateDateTime": "2024-01-24T13:17:58.33934Z",
        "status": "succeeded",
        "results": {
          "documents": [
            {
              "id": "doc_0",
              "source": {
                "kind": "AzureBlob",
                "location": "https://myaccount.blob.core.windows.net/sample-input/input.pdf"
              },
              "targets": [
                {
                  "kind": "AzureBlob",
                  "location": "https://myaccount.blob.core.windows.net/sample-output/df6611a3-fe74-44f8-b8d4-58ac7491cb13/PiiEntityRecognition-0001/input.result.json"
                },
                {
                  "kind": "AzureBlob",
                  "location": "https://myaccount.blob.core.windows.net/sample-output/df6611a3-fe74-44f8-b8d4-58ac7491cb13/PiiEntityRecognition-0001/input.docx"
                }
              ],
              "warnings": []
            }
          ],
          "errors": [],
          "modelVersion": "2023-09-01"
        }
      }
    ]
  }
}

Sikeres befejezés esetén:

  • Az elemzett dokumentumok a céltárolóban találhatók.
  • A sikeres POST metódus egy 202 Accepted válaszkódot ad vissza, amely azt jelzi, hogy a szolgáltatás létrehozta a kötegkérelmet.
  • A POST-kérés válaszfejléceket is visszaadott, beleértve Operation-Location a későbbi GET-kérelmekben használt értéket is.

Az erőforrások eltávolítása

Ha törölni és eltávolítani szeretne egy Azure AI-szolgáltatási előfizetést, törölheti az erőforrást vagy az erőforráscsoportot. Az erőforráscsoport törlése a hozzá társított egyéb erőforrásokat is törli.

Következő lépések