Megosztás a következőn keresztül:


Az Azure AI Foundry egyedi fordítási mondatpárosítása és igazítása

A dokumentumok feltöltése után a párhuzamos dokumentumokban található mondatok párosítva vagy igazítva lesznek. Az egyéni fordítás azt jelenti, hogy hány mondatot tudott párosítani igazított mondatként az egyes adathalmazokban.

Párosítási és igazítási folyamat

Az egyéni fordítás egyszerre egy mondatból tanulja meg a mondatok fordítását. Felolvas egy mondatot a forrásszövegből, majd a mondat fordítását a célszövegből. Ezután a két mondatban lévő szavakat és kifejezéseket egymáshoz igazítja. Ez a folyamat lehetővé teszi, hogy egy mondatban a szavak és kifejezések térképét hozza létre a mondat fordításában lévő egyenértékű szavakkal és kifejezésekkel. Az igazítás megpróbálja biztosítani, hogy a rendszer egymás fordítását tartalmazó mondatokra edzhessen.

Előre elaltatott dokumentumok

Ha tudja, hogy párhuzamos dokumentumokkal rendelkezik, felülbírálhatja a mondatigazítást előre meghatározott szövegfájlok megadásával. Mindkét dokumentumból kinyerheti az összes mondatot szövegfájlba, soronként egy mondatot rendszerezhet, és bővítményekkel .align feltöltheti őket. A .align bővítmény jelzi az Egyéni Fordítónak, hogy ki kell hagynia a mondatok igazításának folyamatát.

A legjobb eredmény érdekében győződjön meg arról, hogy soronként egy mondat szerepel a fájlokban. Nincs új vonal karaktere egy mondaton belül – ez rossz igazítást okoz.

Mondatok javasolt minimális száma

A sikeres betanításhoz az alábbi táblázat az egyes dokumentumtípusokhoz szükséges mondatok minimális számát mutatja. Ez a korlátozás egy biztonsági háló, amely biztosítja, hogy a párhuzamos mondatok elegendő egyedi szókészletet tartalmazzanak a fordítási modell sikeres betanításához. Az általános útmutató több, az emberi fordítás minőségére vonatkozó párhuzamos mondatokkal rendelkezik, amelyek jobb minőségű modelleket eredményeznek.

Dokumentum típusa Javasolt minimális mondatszám Mondatok maximális száma
Képzés 10 000 Nincs felső korlát
Hangolás ötszáz 2,500
Tesztelés ötszáz 2,500
Szótár 0 250 000

Megjegyzés:

  • A betanítás nem indul el és sikertelen, ha a betanítás 10 000 minimális mondatszáma nem teljesül.
  • A hangolás és a tesztelés nem kötelező. Ha nem adja meg őket, a rendszer eltávolítja a megfelelő százalékot a betanításból az ellenőrzéshez és teszteléshez.
  • A modelleket csak szótáradatokkal taníthatja be. További információ: Mi az a szótár?
  • A Dokumentumfordítás funkció több mint 250 000 mondatot tartalmazó szótárak betanításához ajánlott. További információ: Dokumentumfordítás.
  • Az ingyenes (F0) előfizetések betanítása legfeljebb 2 000 000 karakter hosszúságú lehet.

Következő lépések