Aracılığıyla paylaş


Konuşma dili anlama tarafından kabul edilen veri biçimleri

Verilerinizi konuşma dili anlama alanına yüklüyorsanız, belirli bir biçimi izlemesi gerekir. Kabul edilen veri biçimleri hakkında daha fazla bilgi edinmek için bu makaleyi kullanın.

Proje dosya biçimini içeri aktarma

Bir projeyi konuşma dili anlama alanına aktarıyorsanız, karşıya yüklenen dosyanın şu biçimde olması gerekir:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Anahtar Yer tutucu Değer Örnek
{API-VERSION} Çağırdığınız API'nin sürümü. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Bu, amacın Hiçbiri amacı olarak tahmin edilen eşik puanıdır. Değerler ' den 0 'e 1kadardır. 0.7
projectName {PROJECT-NAME} Projenizin adı. Bu değer büyük/küçük harfe duyarlıdır. EmailApp
multilingual true Veri kümenizde birden çok dilde konuşmalara sahip olmanıza olanak tanıyan Boole değeri. Modeliniz dağıtıldığında, modeli desteklenen herhangi bir dilde sorgulayabilirsiniz (eğitim belgelerinize dahil olması gerekmez. Desteklenen dil kodları hakkında daha fazla bilgi için bkz . Dil desteği. true
sublists [] Alt listeleri içeren dizi. Her alt liste bir anahtar ve ilişkili değerleridir. []
compositionSetting {COMPOSITION-SETTING} Varlığınızdaki birden çok bileşenin nasıl yönetileceğini tanımlayan kural. Seçenekler veya separateComponentsşeklindedircombineComponents. combineComponents
synonyms [] Tüm eş anlamlıları içeren dizi. Eşanlamlı
language {LANGUAGE-CODE} Projenizde kullanılan konuşmalar, eş anlamlılar ve normal ifadeler için dil kodunu belirten bir dize. Projeniz çok dilli bir projeyse, konuşmaların çoğunun dil kodunu seçin. en-us
intents [] Projede sahip olduğunuz tüm amaçları içeren dizi. Bu amaçlar, konuşmalarınızdan sınıflandırılır. []
entities [] Projenizdeki tüm varlıkları içeren dizi. Bu varlıklar konuşmalarınızdan ayıklanır. Her varlığın kendileriyle tanımlanmış başka isteğe bağlı bileşenleri olabilir: liste, önceden oluşturulmuş veya regex. []
dataset {DATASET} Eğitimden önce bölündüğünde bu konuşmanın gittiği test kümesi. Veri bölme hakkında daha fazla bilgi edinmek için bkz . Konuşma dilini anlama modelinizi eğitme. Bu alanın olası değerleri ve TestşeklindedirTrain. Train
category Belirtilen metnin yayılma alanıyla ilişkilendirilmiş varlık türü. Entity1
offset Varlığın başlangıcının kapsayıcı karakter konumu. 5
length Varlığın karakter uzunluğu. 5
listKey Tahminde eşlenmiş eş anlamlılar listesi için normalleştirilmiş bir değer. Microsoft
values {VALUES-FOR-LIST} Ayıklama için tam olarak eşleşen ve liste anahtarıyla eşlenen virgülle ayrılmış dizelerin listesi. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Normal ifadenin tahminde geri eşleştirilmesi için normalleştirilmiş bir değer. ProductPattern1
regexPattern {REGEX-PATTERN} Normal ifade. ^pre
prebuilts {PREBUILT-COMPONENTS} Ortak türleri ayıklayan önceden oluşturulmuş bileşenler. Ekleyebileceğiniz önceden oluşturulmuş bileşenlerin listesi için bkz . Desteklenen önceden oluşturulmuş varlık bileşenleri. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Varlığı döndürmek için belirli bir bileşenin mevcut olması gerektiğini belirten ayar. Daha fazla bilgi edinmek için bkz . Varlık bileşenleri. Olası değerler , , regexlistveya prebuiltsşeklindedirlearned. "learned", "prebuilt"

Konuşma dosyası biçimi

Konuşma dili anlama, konuşmalarınızı tek tek yazmak yerine doğrudan projeye yükleme seçeneği sunar. Bu seçeneği projenizin veri etiketleme sayfasında bulabilirsiniz.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Anahtar Yer tutucu Değer Örnek
text {Utterance-Text} Konuşma metniniz. Test Etme
language {LANGUAGE-CODE} Projenizde kullanılan konuşmaların dil kodunu belirten bir dize. Projeniz çok dilli bir projeyse konuşmaların çoğunun dil kodunu seçin. Desteklenen dil kodları hakkında daha fazla bilgi için bkz . Dil desteği. en-us
dataset {DATASET} Eğitimden önce bölündüğünde bu konuşmanın gittiği test kümesi. Veri bölme hakkında daha fazla bilgi edinmek için bkz . Konuşma dilini anlama modelinizi eğitme. Bu alanın olası değerleri ve TestşeklindedirTrain. Train
intent {intent} Atanan amaç. amaç1
entity {entity} Ayıklanacak varlık. entity1
category Belirtilen metnin yayılma alanıyla ilişkilendirilmiş varlık türü. Entity1
offset Metnin başlangıcının kapsayıcı karakter konumu. 0
length SıNıRlayıcı kutunun UTF16 karakterleri cinsinden uzunluğu. Eğitim yalnızca bu bölgedeki verileri dikkate alır. 500
  • Etiketlenmiş verilerinizi doğrudan projenize aktarma hakkında daha fazla bilgi için bkz . Projeyi içeri aktarma.
  • Verilerinizi etiketleme hakkında daha fazla bilgi için bkz . Language Studio'da konuşmalarınızı etiketleme. Verilerinizi etiketledikten sonra modelinizi eğitebilirsiniz.