Megosztás a következőn keresztül:


Adatok indexelése SharePoint-dokumentumtárakból

Fontos

A SharePoint Online indexelőinek támogatása nyilvános előzetes verzióban érhető el. A kiegészítő használati feltételek alatt elérhető", és csak a legjobb munkával támogatott. Az előzetes verziójú funkciók nem ajánlottak éles számítási feladatokhoz, és nem garantáltan általánosan elérhetővé válnak.

A kezdés előtt mindenképpen látogasson el az ismert korlátozások szakaszba.

Az előnézet használatához töltse ki ezt az űrlapot. Közvetlenül azután nem kap jóváhagyási értesítést, mivel a beküldés után a rendszer automatikusan elfogadja a hozzáférési kéréseket. A hozzáférés engedélyezése után egy előzetes REST API-val indexelheti a tartalmat.

Ez a cikk bemutatja, hogyan konfigurálhat keresési indexelőt a SharePoint-dokumentumtárakban tárolt dokumentumok indexelésére teljes szöveges keresés céljából az Azure AI Searchben. A konfigurációs lépések az elsők, amelyeket viselkedések és forgatókönyvek követnek

Funkciók

Az Azure AI Search egyik indexelője egy keresőrobot, amely kereshető adatokat és metaadatokat nyer ki egy adatforrásból. A SharePoint Online indexelője csatlakozik a SharePoint-webhelyhez, és egy vagy több dokumentumtárból indexeli a dokumentumokat. Az indexelő a következő funkciókat biztosítja:

  • Egy vagy több dokumentumtár fájljainak és metaadatainak indexelése.
  • Indexelés növekményesen, csak az új és módosított fájlok és metaadatok felvétele.
  • A törlésészlelés be van építve. A dokumentumtárakban való törlést a rendszer a következő indexelő futtatásakor veszi át, és a dokumentum törlődik az indexből.
  • A rendszer alapértelmezés szerint kinyeri a szöveget és a normalizált képeket az indexelt dokumentumokból. Igény szerint hozzáadhat egy készségkészletet a mélyebb AI-bővítéshez, például OCR-hez vagy szövegfordításhoz.

Előfeltételek

Támogatott dokumentumformátumok

A SharePoint Online indexelője a következő dokumentumformátumokból tud szöveget kinyerni:

  • CSV (lásd : CSV-blobok indexelése)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (lásd : JSON-blobok indexelése)
  • KML (XML földrajzi ábrázolásokhoz)
  • Microsoft Office-formátumok: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-e-mailek), XML (2003 és 2006 WORD XML)
  • Dokumentumformátumok megnyitása: ODT, ODS, ODP
  • PDF
  • Egyszerű szöveges fájlok (lásd még : Egyszerű szöveg indexelése)
  • RTF
  • XML
  • FÜTYÜLÉS

Korlátozások és szempontok

A funkció korlátai a következők:

  • A SharePoint-listák indexelése nem támogatott.

  • A SharePoint indexelése. Az ASPX-webhely tartalma nem támogatott.

  • A OneNote-jegyzetfüzetfájlok nem támogatottak.

  • A privát végpont nem támogatott.

  • A SharePoint-mappa átnevezése nem indítja el a növekményes indexelést. Az átnevezett mappa új tartalomként lesz kezelve.

  • A SharePoint egy részletes engedélyezési modellt támogat, amely felhasználónkénti hozzáférést határoz meg a dokumentum szintjén. Az indexelő nem húzza be ezeket az engedélyeket az indexbe, és az Azure AI Search nem támogatja a dokumentumszintű engedélyezést. Amikor egy dokumentumot indexel a SharePointból egy keresési szolgáltatásba, a tartalom mindenki számára elérhető, aki olvasási hozzáféréssel rendelkezik az indexhez. Ha dokumentumszintű engedélyekre van szüksége, érdemes megfontolnia a biztonsági szűrőket az eredmények levágásához és az engedélyek fájlszinten történő másolásának automatizálásához az index egy mezőjébe.

  • A felhasználó által titkosított fájlok, az Information Rights Management (IRM) által védett fájlok, a jelszóval vagy hasonló titkosított tartalommal rendelkező ZIP-fájlok indexelése nem támogatott. A titkosított tartalom feldolgozásához az adott fájlhoz megfelelő engedélyekkel rendelkező felhasználónak el kell távolítania a titkosítást, hogy az elem ennek megfelelően indexelhető legyen, amikor az indexelő a következő ütemezett iterációt futtatja.

  • Az alwebhelyek rekurzív indexelése egy megadott webhelyről nem támogatott.

A funkció használatakor az alábbi szempontokat érdemes figyelembe venni:

  • Ha éles környezetben SharePoint-tartalomindexelési megoldásra van szüksége, érdemes lehet egyéni összekötőt létrehozni a SharePoint Webhooks szolgáltatással, meghívni a Microsoft Graph API-t, hogy exportálja az adatokat egy Azure Blob-tárolóba, majd használja az Azure Blob Indexert a növekményes indexeléshez.
  • Ha a SharePoint-konfiguráció lehetővé teszi a Microsoft 365-folyamatok számára a SharePoint fájlrendszer metaadatainak frissítését, vegye figyelembe, hogy ezek a frissítések aktiválhatják a SharePoint Online-indexelőt, ami miatt az indexelő többször is betölti a dokumentumokat. Mivel a SharePoint Online indexelő egy külső azure-összekötő, az indexelő nem tudja elolvasni a konfigurációt, és nem módosíthatja annak viselkedését. Reagál az új és módosított tartalmak változásaira, függetlenül attól, hogy ezek a frissítések hogyan lettek létrehozva. Ezért győződjön meg arról, hogy teszteli a telepítőt, és tisztában van a dokumentumfeldolgozások számával az indexelő és az AI-bővítés használata előtt.

A SharePoint Online indexelőjének konfigurálása

A SharePoint Online-indexelő beállításához használja az Azure Portalt és az előzetes REST API-t is. Használhatja a 2020-06-30-preview vagy újabb verziót. Javasoljuk, hogy a legújabb előzetes verziójú API-t használja.

Ez a szakasz ismerteti a lépéseket. Az alábbi videót is megtekintheti.

1. lépés (nem kötelező): A rendszer által hozzárendelt felügyelt identitás engedélyezése

Engedélyezze a rendszer által hozzárendelt felügyelt identitást , hogy automatikusan észlelje azt a bérlőt, amelyben a keresési szolgáltatás ki van építve.

Ezt a lépést akkor hajtsa végre, ha a SharePoint-webhely ugyanabban a bérlőben van, mint a keresési szolgáltatás. Hagyja ki ezt a lépést, ha a SharePoint-webhely másik bérlőben van. Az identitás nem indexelésre, csak bérlőészlelésre szolgál. Ezt a lépést akkor is kihagyhatja, ha a bérlőazonosítót a kapcsolati sztring szeretné elhelyezni.

Képernyőkép a rendszer által hozzárendelt felügyelt identitás engedélyezéséről.

A Mentés lehetőség kiválasztása után egy objektumazonosítót kap, amely hozzá lett rendelve a keresési szolgáltatáshoz.

Képernyőkép az objektumazonosítóról.

2. lépés: Annak eldöntése, hogy az indexelő milyen engedélyeket igényel

A SharePoint Online indexelője támogatja a delegált és az alkalmazásengedélyeket is. Válassza ki a forgatókönyv alapján használni kívánt engedélyeket.

Alkalmazásalapú engedélyek használatát javasoljuk. Tekintse meg a delegált engedélyekkel kapcsolatos ismert problémák korlátozásait .

  • Alkalmazásengedélyek (ajánlott), ahol az indexelő a SharePoint-bérlő identitása alatt fut az összes webhelyhez és fájlhoz való hozzáféréssel. Az indexelőnek titkos ügyfélkódra van szüksége. Az indexelőnek bérlői rendszergazdai jóváhagyásra is szüksége lesz, mielőtt bármilyen tartalmat indexelhet.

  • Delegált engedélyek, ahol az indexelő a kérelmet küldő felhasználó vagy alkalmazás identitása alatt fut. Az adathozzáférés azon webhelyekre és fájlokra korlátozódik, amelyekhez a hívó hozzáfér. A delegált engedélyek támogatásához az indexelőnek egy eszközkód-kérésre van szüksége a felhasználó nevében való bejelentkezéshez. A felhasználó által delegált engedélyek 75 percenként érvényesítik a jogkivonatok lejáratát az ilyen hitelesítési típus implementálásához használt legújabb biztonsági kódtárak szerint. Ez nem módosítható viselkedés. A lejárt jogkivonatok manuális indexelést igényelnek az Indexelő futtatása (előzetes verzió) használatával. Ezért lehet, hogy inkább alkalmazásalapú engedélyeket szeretne.

Ha a Microsoft Entra-szervezet feltételes hozzáféréssel rendelkezik, és a rendszergazda nem tud eszközhozzáférést biztosítani a delegált engedélyekhez, érdemes inkább alkalmazásalapú engedélyeket használnia. További információ: Microsoft Entra Feltételes hozzáférési szabályzatok.

3. lépés: Microsoft Entra-alkalmazásregisztráció létrehozása

A SharePoint Online indexelője ezt a Microsoft Entra-alkalmazást használja hitelesítésre.

  1. Jelentkezzen be az Azure Portalra.

  2. Keresse meg vagy keresse meg a Microsoft Entra-azonosítót, majd válassza a Alkalmazásregisztrációk.

  3. Válassza az + Új regisztráció lehetőséget:

    1. Adja meg az alkalmazás nevét.
    2. Válassza az Önálló bérlő lehetőséget.
    3. Hagyja ki az URI-kijelölési lépést. Nincs szükség átirányítási URI-ra.
    4. Válassza ki a pénztárgépet.
  4. A bal oldalon válassza az API-engedélyeket, majd az Engedély hozzáadása, majd a Microsoft Graph lehetőséget.

    • Ha az indexelő alkalmazás API-engedélyeket használ, válassza az Alkalmazásengedélyek lehetőséget, és adja hozzá a következőket:

      • Alkalmazás – Files.Read.All
      • Alkalmazás – Sites.Read.All

      Képernyőkép az alkalmazás API-engedélyéről.

      Az alkalmazásengedélyek használata azt jelenti, hogy az indexelő szolgáltatáskörnyezetben fér hozzá a SharePoint-webhelyhez. Az indexelő futtatásakor tehát a SharePoint-bérlő összes tartalmához hozzáfér, amelyhez bérlői rendszergazdai jóváhagyás szükséges. A hitelesítéshez ügyfélkód is szükséges. Az ügyfél titkos kódjának beállítását a cikk későbbi részében ismertetjük.

    • Ha az indexelő delegált API-engedélyeket használ, válassza a Delegált engedélyek lehetőséget , és adja hozzá a következőket:

      • Delegált – Files.Read.All
      • Delegált – Sites.Read.All
      • Delegált – User.Read

      Képernyőkép a delegált API-engedélyekről.

      A delegált engedélyek lehetővé teszik, hogy a keresési ügyfél az aktuális felhasználó biztonsági identitása alatt csatlakozzon a SharePointhoz.

  5. Adjon rendszergazdai hozzájárulást.

    Az alkalmazás API-engedélyeinek használatakor bérlői rendszergazdai hozzájárulásra van szükség. Egyes bérlők zárolva vannak oly módon, hogy a bérlői rendszergazdai hozzájárulás a delegált API-engedélyekhez is szükséges. Ha a fenti feltételek bármelyike érvényes, az indexelő létrehozása előtt rendelkeznie kell egy bérlői rendszergazdai hozzájárulással ehhez a Microsoft Entra-alkalmazáshoz.

    Képernyőkép a Microsoft Entra alkalmazás rendszergazdai hozzájárulásának megadásáról.

  6. Válassza a Hitelesítés lapot.

  7. Állítsa a Nyilvános ügyfélfolyamatok engedélyezése igen értékre, majd válassza a Mentés lehetőséget.

  8. Válassza a + Platform hozzáadása, majd a Mobil- és asztali alkalmazások, majd a https://login.microsoftonline.com/common/oauth2/nativeclientKonfigurálás lehetőséget.

    Képernyőkép a Microsoft Entra alkalmazáshitelesítési konfigurációjáról.

  9. (Csak application API-engedélyek) Ahhoz, hogy a Microsoft Entra alkalmazáshoz alkalmazásengedélyek használatával hitelesíthesse magát, az indexelőnek titkos ügyfélkódra van szüksége.

    • A bal oldali menüben válassza a Tanúsítványok &titkos kulcsok lehetőséget, majd az Ügyfél titkos kulcsait, majd az Új ügyfélkulcs lehetőséget.

      Képernyőkép az új ügyfélkódról.

    • Az előugró menüben adja meg az új ügyfél titkos kódjának leírását. Szükség esetén módosítsa a lejárati dátumot. Ha a titkos kód lejár, újra létre kell hozni, és az indexelőt frissíteni kell az új titkos kóddal.

      Képernyőkép az ügyfél titkos kód beállításáról.

    • Az új ügyfélkód megjelenik a titkos kódok listájában. A lapról való navigálás után a titkos kód már nem látható, ezért másolja a másolás gombra, és mentse biztonságos helyre.

      Képernyőkép az ügyfél titkos kulcsának másolási helyről.

4. lépés: Adatforrás létrehozása

Ebben a szakaszban kezdődően használjon egy előzetes REST API-t a többi lépéshez. Javasoljuk, hogy a legújabb előzetes verziójú API-t használja.

Az adatforrás meghatározza, hogy mely adatokat indexelje, hitelesítő adatokat és szabályzatokat az adatok változásainak (új, módosított vagy törölt sorok) hatékony azonosításához. Egy adatforrást több indexelő is használhat ugyanabban a keresési szolgáltatásban.

SharePoint-indexelés esetén az adatforrásnak a következő szükséges tulajdonságokkal kell rendelkeznie:

  • A név az adatforrás egyedi neve a keresési szolgáltatásban.
  • A típusnak "sharepoint" típusúnak kell lennie. Ez az érték megkülönbözteti a kis- és nagybetűk értékét.
  • A hitelesítő adatok megadják a SharePoint-végpontot és a Microsoft Entra-alkalmazás (ügyfél) azonosítóját. Példa a SharePoint-végpontra https://microsoft.sharepoint.com/teams/MySharePointSite. A végpont lekéréséhez navigáljon a SharePoint-webhely kezdőlapjára, és másolja az URL-címet a böngészőből.
  • A tároló megadja, hogy melyik dokumentumtárat indexelje. A tulajdonságok szabályozzák, hogy mely dokumentumok legyenek indexelve.

Adatforrás létrehozásához hívja meg az Adatforrás létrehozása (előzetes verzió) parancsot.

POST https://[service name].search.windows.net/datasources?api-version=2024-05-01-preview
Content-Type: application/json
api-key: [admin key]

{
    "name" : "sharepoint-datasource",
    "type" : "sharepoint",
    "credentials" : { "connectionString" : "[connection-string]" },
    "container" : { "name" : "defaultSiteLibrary", "query" : null }
}

Kapcsolati sztring formátuma

A kapcsolati sztring formátuma attól függően változik, hogy az indexelő delegált API-engedélyeket vagy alkalmazás API-engedélyeket használ-e

  • Delegált API-engedélyek kapcsolati sztring formátum

    SharePointOnlineEndpoint=[SharePoint site url];ApplicationId=[Azure AD App ID];TenantId=[SharePoint site tenant id]

  • Application API-engedélyek kapcsolati sztring formátum

    SharePointOnlineEndpoint=[SharePoint site url];ApplicationId=[Azure AD App ID];ApplicationSecret=[Azure AD App client secret];TenantId=[SharePoint site tenant id]

Feljegyzés

Ha a SharePoint-webhely ugyanabban a bérlőben található, mint a keresési szolgáltatás, és a rendszer által hozzárendelt felügyelt identitás engedélyezve van, TenantId nem kell szerepelnie a kapcsolati sztring. Ha a SharePoint-webhely a keresési szolgáltatástól eltérő bérlőben található, TenantId akkor azt is tartalmaznia kell.

5. lépés: Index létrehozása

Az index meghatározza a dokumentum mezőit, attribútumait és a keresési felületet formázó egyéb szerkezeteket.

Index létrehozásához hívja meg az Index létrehozása (előzetes verzió) parancsot:

POST https://[service name].search.windows.net/indexes?api-version=2024-05-01-preview
Content-Type: application/json
api-key: [admin key]

{
    "name" : "sharepoint-index",
    "fields": [
        { "name": "id", "type": "Edm.String", "key": true, "searchable": false },
        { "name": "metadata_spo_item_name", "type": "Edm.String", "key": false, "searchable": true, "filterable": false, "sortable": false, "facetable": false },
        { "name": "metadata_spo_item_path", "type": "Edm.String", "key": false, "searchable": false, "filterable": false, "sortable": false, "facetable": false },
        { "name": "metadata_spo_item_content_type", "type": "Edm.String", "key": false, "searchable": false, "filterable": true, "sortable": false, "facetable": true },
        { "name": "metadata_spo_item_last_modified", "type": "Edm.DateTimeOffset", "key": false, "searchable": false, "filterable": false, "sortable": true, "facetable": false },
        { "name": "metadata_spo_item_size", "type": "Edm.Int64", "key": false, "searchable": false, "filterable": false, "sortable": false, "facetable": false },
        { "name": "content", "type": "Edm.String", "searchable": true, "filterable": false, "sortable": false, "facetable": false }
    ]
}

Fontos

Csak metadata_spo_site_library_item_id a SharePoint Online indexelője által feltöltött index kulcsmezőjeként használható. Ha egy kulcsmező nem létezik az adatforrásban, metadata_spo_site_library_item_id a rendszer automatikusan a kulcsmezőre van leképezve.

6. lépés: Indexelő létrehozása

Az indexelők egy adatforrást csatlakoztatnak egy célkeresési indexhez, és ütemezést biztosítanak az adatfrissítés automatizálásához. Az index és az adatforrás létrehozása után létrehozhatja az indexelőt.

Ha delegált engedélyeket használ, ebben a lépésben a rendszer arra kéri, hogy jelentkezzen be olyan szervezeti hitelesítő adatokkal, amelyek hozzáférnek a SharePoint-webhelyhez. Ha lehetséges, javasoljuk, hogy hozzon létre egy új szervezeti felhasználói fiókot, és adja meg az új felhasználónak a pontos engedélyeket, amelyekkel az indexelőnek rendelkeznie kell.

Az indexelő létrehozásának néhány lépése van:

  1. Indexelő létrehozása (előzetes verzió) kérés küldése:

    POST https://[service name].search.windows.net/indexers?api-version=2024-05-01-preview
    Content-Type: application/json
    api-key: [admin key]
    
    {
        "name" : "sharepoint-indexer",
        "dataSourceName" : "sharepoint-datasource",
        "targetIndexName" : "sharepoint-index",
        "parameters": {
        "batchSize": null,
        "maxFailedItems": null,
        "maxFailedItemsPerBatch": null,
        "base64EncodeKeys": null,
        "configuration": {
            "indexedFileNameExtensions" : ".pdf, .docx",
            "excludedFileNameExtensions" : ".png, .jpg",
            "dataToExtract": "contentAndMetadata"
          }
        },
        "schedule" : { },
        "fieldMappings" : [
            { 
              "sourceFieldName" : "metadata_spo_site_library_item_id", 
              "targetFieldName" : "id", 
              "mappingFunction" : { 
                "name" : "base64Encode" 
              } 
             }
        ]
    }
    

    Ha alkalmazásengedélyeket használ, meg kell várnia, amíg a kezdeti futtatás befejeződik, mielőtt elkezdené lekérdezni az indexet. Az ebben a lépésben megadott alábbi utasítások kifejezetten a delegált engedélyekre vonatkoznak, és nem alkalmazhatók az alkalmazásengedélyekre.

  2. Amikor első alkalommal hozza létre az indexelőt, az Indexelő létrehozása (előzetes verzió) kérés megvárja, amíg végrehajtja a következő lépést. A hivatkozás lekéréséhez és az új eszközkód megadásához meg kell hívnia az Indexelő állapotának lekérését.

    GET https://[service name].search.windows.net/indexers/sharepoint-indexer/status?api-version=2024-05-01-preview
    Content-Type: application/json
    api-key: [admin key]
    

    Ha 10 percen belül nem futtatja az indexelő állapotát, a kód lejár, és újra létre kell hoznia az adatforrást.

  3. Másolja ki az eszköz bejelentkezési kódját az Indexelő állapotának lekérése válaszból. Az eszköz bejelentkezése a "errorMessage" fájlban található.

    {
        "lastResult": {
            "status": "transientFailure",
            "errorMessage": "To sign in, use a web browser to open the page https://microsoft.com/devicelogin and enter the code <CODE> to authenticate."
        }
    }
    
  4. Adja meg a hibaüzenetben szereplő kódot.

    Képernyőkép az eszközkód megadásáról.

  5. A SharePoint Online indexelője bejelentkezett felhasználóként fogja elérni a SharePoint-tartalmat. A lépés során bejelentkező felhasználó lesz az a bejelentkezett felhasználó. Ha tehát olyan felhasználói fiókkal jelentkezik be, amely nem rendelkezik hozzáféréssel az indexelni kívánt dokumentumtárban lévő dokumentumhoz, az indexelő nem fér hozzá a dokumentumhoz.

    Ha lehetséges, javasoljuk, hogy hozzon létre egy új felhasználói fiókot, és adja meg az új felhasználónak a pontos engedélyeket, amelyekkel az indexelő rendelkezik.

  6. Hagyja jóvá a kért engedélyeket.

    Képernyőkép az API-engedélyek jóváhagyásáról.

  7. Az Indexelő létrehozása (előzetes verzió) kezdeti kérés akkor fejeződik be, ha a fent megadott összes engedély helyes, és a 10 perces időkereten belül.

Feljegyzés

Ha a Microsoft Entra alkalmazás rendszergazdai jóváhagyást igényel, és a bejelentkezés előtt nem lett jóváhagyva, a következő képernyő jelenhet meg. A folytatáshoz rendszergazdai jóváhagyás szükséges. Képernyőkép a szükséges rendszergazdai jóváhagyásról.

7. lépés: Az indexelő állapotának ellenőrzése

Az indexelő létrehozása után meghívhatja az Indexelő állapotának lekérését:

GET https://[service name].search.windows.net/indexers/sharepoint-indexer/status?api-version=2024-05-01-preview
Content-Type: application/json
api-key: [admin key]

Az adatforrás frissítése

Ha az adatforrás-objektum nem frissül, az indexelő felhasználói beavatkozás nélkül, ütemezés szerint fut.

Ha azonban az eszközkód lejártakor módosítja az adatforrás-objektumot, újra be kell jelentkeznie ahhoz, hogy az indexelő fusson. Ha például módosítja az adatforrás-lekérdezést, jelentkezzen be újra az https://microsoft.com/devicelogin új eszközkóddal.

Az adatforrás frissítésének lépései egy lejárt eszközkód felvállalásával:

  1. Az Indexelő futtatása (előzetes verzió) meghívása az indexelő végrehajtásának manuális elindításához.

    POST https://[service name].search.windows.net/indexers/sharepoint-indexer/run?api-version=2024-05-01-preview  
    Content-Type: application/json
    api-key: [admin key]
    
  2. Ellenőrizze az indexelő állapotát.

    GET https://[service name].search.windows.net/indexers/sharepoint-indexer/status?api-version=2024-05-01-preview
    Content-Type: application/json
    api-key: [admin key]
    
  3. Ha hibaüzenet jelenik meg, amely arra kéri, hogy látogasson el https://microsoft.com/devicelogin, nyissa meg a lapot, és másolja ki az új kódot.

  4. Illessze be a kódot a párbeszédpanelre.

  5. Futtassa manuálisan újra az indexelőt, és ellenőrizze az indexelő állapotát. Ezúttal az indexelő futtatásának sikeresnek kell lennie.

Dokumentum metaadatainak indexelése

Ha a dokumentum metaadatait indexeli ("dataToExtract": "contentAndMetadata"), az alábbi metaadatok lesznek elérhetők az indexeléshez.

Azonosító Típus Leírás
metadata_spo_site_library_item_id Edm.String A helyazonosító, a tárazonosító és az elemazonosító kombinációs kulcsa, amely egyedileg azonosít egy elemet egy webhely dokumentumtárában.
metadata_spo_site_id Edm.String A SharePoint-webhely azonosítója.
metadata_spo_library_id Edm.String A dokumentumtár azonosítója.
metadata_spo_item_id Edm.String A tár (dokumentum) elemének azonosítója.
metadata_spo_item_last_modified Edm.DateTimeOffset Az elem utolsó módosított dátuma/ideje (UTC).
metadata_spo_item_name Edm.String Az elem neve.
metadata_spo_item_size Edm.Int64 Az elem mérete (bájtban kifejezve).
metadata_spo_item_content_type Edm.String Az elem tartalomtípusa.
metadata_spo_item_extension Edm.String Az elem kiterjesztése.
metadata_spo_item_weburi Edm.String Az elem URI-ja.
metadata_spo_item_path Edm.String A szülőútvonal és az elemnév kombinációja.

A SharePoint Online-indexelő az egyes dokumentumtípusokra jellemző metaadatokat is támogatja. További információt az Azure AI Searchben használt tartalom-metaadat-tulajdonságokban talál.

Feljegyzés

Az egyéni metaadatok indexeléséhez az adatforrás lekérdezési paraméterében meg kell adni az "additionalColumns" értéket.

Fájltípus szerinti belefoglalás vagy kizárás

Az indexelő definíciójának "paraméterek" szakaszában a befogadási és kizárási feltételek beállításával szabályozhatja, hogy mely fájlok legyenek indexelve.

Adjon meg adott fájlkiterjesztéseket a fájlkiterjesztések vesszővel tagolt listájának beállításával "indexedFileNameExtensions" (vezető ponttal). Bizonyos fájlkiterjesztések kizárása a kihagyandó bővítmények beállításával "excludedFileNameExtensions" . Ha ugyanaz a bővítmény mindkét listában szerepel, akkor az indexelésből ki lesz zárva.

PUT /indexers/[indexer name]?api-version=2024-05-01-preview
{
    "parameters" : { 
        "configuration" : { 
            "indexedFileNameExtensions" : ".pdf, .docx",
            "excludedFileNameExtensions" : ".png, .jpeg" 
        } 
    }
}

Az indexelt dokumentumok szabályozása

Egyetlen SharePoint Online-indexelő egy vagy több dokumentumtár tartalmát indexelheti. Az adatforrás definíciójának "tároló" paraméterével jelezheti, hogy mely helyekről és dokumentumtárakból érdemes indexelni.

Az adatforrás "tároló" szakaszának két tulajdonsága van ehhez a feladathoz: "name" és "query".

Név

A "name" tulajdonság megadása kötelező, és a három érték egyikének kell lennie:

Érték Leírás
defaultSiteLibrary A webhely alapértelmezett dokumentumtárából származó összes tartalom indexelése.
allSiteLibraries A webhely összes dokumentumtárából származó összes tartalom indexelése. Az alwebhelyek dokumentumtárai nem tartoznak hatókörbe/ Ha alwebhelyekről származó tartalomra van szüksége, válassza a "useQuery" lehetőséget, és adja meg az "includeLibrariesInSite" értéket.
useQuery Csak a "lekérdezésben" definiált tartalom indexelése.

Lekérdezés

Az adatforrás "lekérdezés" paramétere kulcsszó-érték párokból áll. Az alábbi kulcsszavak használhatók. Az értékek vagy webhely URL-címei, vagy a dokumentumtár URL-címei.

Feljegyzés

Egy adott kulcsszó értékének lekéréséhez javasoljuk, hogy navigáljon arra a dokumentumtárra, amelyet be szeretne vonni/kizárni, és másolja az URI-t a böngészőből. Ez a legegyszerűbb módja annak, hogy a lekérdezésben egy kulcsszóval használandó értéket lekérje.

Kulcsszó Érték leírása és példák
null Ha null vagy üres, indexelje az alapértelmezett dokumentumtárat vagy az összes dokumentumtárat a tároló nevétől függően.

Példa:

"container" : { "name" : "defaultSiteLibrary", "query" : null }
includeLibrariesInSite Indexelje a tartalmat az kapcsolati sztring megadott webhely összes tárából. Az értéknek a webhely vagy alwebhely URI-jának kell lennie.

1. példa:

"container" : { "name" : "useQuery", "query" : "includeLibrariesInSite=https://mycompany.sharepoint.com/mysite" }

2. példa (csak néhány alwebet tartalmaz):

"container" : { "name" : "useQuery", "query" : "includeLibrariesInSite=https://mycompany.sharepoint.com/sites/TopSite/SubSite1;includeLibrariesInSite=https://mycompany.sharepoint.com/sites/TopSite/SubSite2" }
includeLibrary Indexelje a tár összes tartalmát. Az érték a tár teljes elérési útja, amely a böngészőből másolható:

1. példa (teljes elérési út):

"container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/mysite/MyDocumentLibrary" }

2. példa (a böngészőből másolt URI):

"container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/teams/mysite/MyDocumentLibrary/Forms/AllItems.aspx" }
excludeLibrary Ne indexelje a tár tartalmát. Az érték a tár teljes elérési útja, amely a böngészőből másolható:

1. példa (teljes elérési út):

"container" : { "name" : "useQuery", "query" : "includeLibrariesInSite=https://mysite.sharepoint.com/subsite1; excludeLibrary=https://mysite.sharepoint.com/subsite1/MyDocumentLibrary" }

2. példa (a böngészőből másolt URI):

"container" : { "name" : "useQuery", "query" : "includeLibrariesInSite=https://mycompany.sharepoint.com/teams/mysite; excludeLibrary=https://mycompany.sharepoint.com/teams/mysite/MyDocumentLibrary/Forms/AllItems.aspx" }
továbbicolumnok A dokumentumtár oszlopainak indexelése. Az érték az indexelni kívánt oszlopnevek vesszővel tagolt listája. Dupla fordított perjel használatával elkerülhet pontosvesszőket és vesszőket az oszlopnevekben:

1. példa (additionalColumns=MyCustomColumn,MyCustomColumn2):

"container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/mysite/MyDocumentLibrary;additionalColumns=MyCustomColumn,MyCustomColumn2" }

2. példa (kettős fordított perjelet használó karakterek feloldása):

"container" : { "name" : "useQuery", "query" : "includeLibrary=https://mycompany.sharepoint.com/teams/mysite/MyDocumentLibrary/Forms/AllItems.aspx;additionalColumns=MyCustomColumnWith\\,,MyCustomColumnWith\\;" }

Hibák kezelése

Alapértelmezés szerint a SharePoint Online indexelője leáll, amint nem támogatott tartalomtípusú dokumentumba (például képbe) ütközik. A paraméter használatával excludedFileNameExtensions kihagyhat bizonyos tartalomtípusokat. Előfordulhat azonban, hogy az összes lehetséges tartalomtípus előzetes ismerete nélkül kell indexelnie a dokumentumokat. Ha nem támogatott tartalomtípus esetén szeretné folytatni az indexelést, állítsa a failOnUnsupportedContentType konfigurációs paramétert hamisra:

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2024-05-01-preview
Content-Type: application/json
api-key: [admin key]

{
    ... other parts of indexer definition
    "parameters" : { "configuration" : { "failOnUnsupportedContentType" : false } }
}

Egyes dokumentumok esetében az Azure AI Search nem tudja meghatározni a tartalomtípust, vagy nem tudja feldolgozni az egyébként támogatott tartalomtípusú dokumentumokat. Ha figyelmen kívül szeretné hagyni ezt a hibamódot, állítsa a failOnUnprocessableDocument konfigurációs paramétert hamisra:

"parameters" : { "configuration" : { "failOnUnprocessableDocument" : false } }

Az Azure AI Search korlátozza az indexelt dokumentumok méretét. Ezeket a korlátokat az Azure AI Search szolgáltatáskorlátjai dokumentálják. A túlméretezett dokumentumok alapértelmezés szerint hibákként lesznek kezelve. A túlméretezett dokumentumok tárolási metaadatait azonban továbbra is indexelheti, ha igazra állítja a indexStorageMetadataOnlyForOversizedDocuments konfigurációs paramétert:

"parameters" : { "configuration" : { "indexStorageMetadataOnlyForOversizedDocuments" : true } }

Akkor is folytathatja az indexelést, ha hibák történnek a feldolgozás bármely pontján, akár a dokumentumok elemzésekor, akár az indexhez való hozzáadáskor. Adott számú hiba figyelmen kívül hagyásához állítsa be a maxFailedItems konfigurációs paramétereket maxFailedItemsPerBatch a kívánt értékekre. Példa:

{
    ... other parts of indexer definition
    "parameters" : { "maxFailedItems" : 10, "maxFailedItemsPerBatch" : 10 }
}

Ha a SharePoint-webhelyen egy fájl titkosítása engedélyezve van, a következőhöz hasonló hibaüzenet jelenhet meg:

Code: resourceModified Message: The resource has changed since the caller last read it; usually an eTag mismatch Inner error: Code: irmEncryptFailedToFindProtector

A hibaüzenet a SharePoint-webhelyazonosítót, a meghajtóazonosítót és a meghajtóelem-azonosítót is tartalmazza a következő mintában: <sharepoint site id> :: <drive id> :: <drive item id>. Ez az információ felhasználható annak azonosítására, hogy melyik elem hibás a SharePoint-végponton. A felhasználó ezután eltávolíthatja a titkosítást az elemről a probléma megoldásához.

Lásd még