تنسيقات البيانات المقبولة من خلال فهم لغة المحادثة

إذا كنت تقوم بتحميل بياناتك إلى CLU، يجب أن تتبع تنسيقاً محدداً، فاستخدم هذه المقالة لمعرفة المزيد بشأن تنسيقات البيانات المقبولة.

استيراد تنسيق ملف المشروع

إذا كنت تقوم باستيراد مشروع إلى CLU، يجب أن يكون الملف الذي تم تحميله بالتنسيق التالي.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

المفتاح العنصر النائب القيمة مثال
{API-VERSION} إصدار واجهة برمجة التطبيقات التي تتصل بها. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} هذه هي درجة الحد التي سيتم التنبؤ بالهدف أدناه على أنه لا يوجد هدف. القيم من 0 إلى 1 0.7
projectName {PROJECT-NAME} اسم مشروعك. هذه القيمة حساسة لحالة الأحرف. EmailApp
multilingual true قيمة منطقية تمكنك من الحصول على تعبيرات بلغات متعددة في مجموعة البيانات الخاصة بك وعند نشر النموذج الخاص بك، يمكنك الاستعلام عن النموذج بأي لغة مدعومة (لا يتم تضمينها بالضرورة في مستندات التدريب الخاصة بك. راجع دعم اللغة للحصول على مزيدٍ من المعلومات حول رموز اللغات المدعومة. true
sublists [] صفيف يحتوي على قوائم فرعية. كل قائمة فرعية هي مفتاح وقيمها المرتبطة بها. []
compositionSetting {COMPOSITION-SETTING} القاعدة التي تحدد كيفية إدارة مكونات متعددة في الكيان الخاص بك. الخيارات هي combineComponents أو separateComponents. combineComponents
synonyms [] صفيف تحتوي على جميع المرادفات مرادف
language {LANGUAGE-CODE} سلسلة تحدد التعليمات البرمجية للغة للألفاظ والمرادفات والتعبيرات العادية المستخدمة في مشروعك. إذا كان مشروعك عبارة عن مشروع متعدد اللغات، فاختر رمز اللغة لمعظم الكلمات المنطوقة. en-us
intents [] صفيف تحتوي على جميع الهدف التي لديك في المشروع. هذه هي الأهداف التي سيتم تصنيفها من أقوالك. []
entities [] صفيف تحتوي على جميع الكيانات في مشروعك. هذه هي الكيانات التي سيتم استخلاصها من أقوالك. يمكن أن يكون لكل كيان مكونات اختيارية إضافية معرفة بها: قائمة أو تم إنشاؤها مسبقا أو regex. []
dataset {DATASET} مجموعة الاختبار التي سينتقل إليها هذا الكلام عند الانقسام قبل التدريب. تعرَّف على المزيد حول تقسيم البيانات هنا. القيم المحتملة لهذا الحقل هي Train وTest. Train
category نوع الكيان المرتبط بنطاق النص المحدد. Entity1
offset موقف الطابع الشامل لبداية الكيان. 5
length طول حرف الكيان. 5
listKey قيمة تمت تسويتها لقائمة المرادفات المراد تعيينها مرة أخرى إلى في التنبؤ. Microsoft
values {VALUES-FOR-LIST} قائمة بالسلاسل المفصولة بفواصل التي ستتم مطابقتها تماما للاستخراج والتعين إلى مفتاح القائمة. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} قيمة تمت تسويتها للتعبير العادي لتعيينه مرة أخرى إلى في التنبؤ. ProductPattern1
regexPattern {REGEX-PATTERN} تعبير عادي. ^pre
prebuilts {PREBUILT-COMPONENTS} المكونات التي تم إنشاؤها مسبقا والتي يمكنها استخراج الأنواع الشائعة. يمكنك العثور على قائمة المكونات التي تم إنشاؤها مسبقا التي يمكنك إضافتها هنا. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} إعداد يحدد شرطا بأن يكون مكون معين موجودا لإرجاع الكيان. يمكنك معرفة المزيد هنا. القيم المحتملة هي learnedأو regexlistأو أوprebuilts "learned", "prebuilt"

تنسيق ملف الكلام

يوفر CLU خيار تحميل كلامك مباشرة إلى المشروع بدلاً من كتابته واحداً تلو الآخر. يمكنك العثور على هذا الخيار في صفحة data labeling لمشروعك.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

المفتاح العنصر النائب القيمة مثال
text {Utterance-Text} نص الكلام الخاص بك الاختبار
language {LANGUAGE-CODE} سلسلة تحدد رمز اللغة للألفاظ المستخدمة في مشروعك. إذا كان مشروعك عبارة عن مشروع متعدد اللغات، فاختر رمز اللغة لمعظم الكلمات المنطوقة. راجع دعم اللغة للحصول على مزيدٍ من المعلومات حول رموز اللغات المدعومة. en-us
dataset {DATASET} مجموعة الاختبار التي سينتقل إليها هذا الكلام عند الانقسام قبل التدريب. تعرَّف على المزيد حول تقسيم البيانات هنا. القيم المحتملة لهذا الحقل هي Train وTest. Train
intent {intent} الهدف المحدد intent1
entity {entity} الكيان المراد استخراجه entity1
category نوع الكيان المرتبط بنطاق النص المحدد. Entity1
offset موضع الحرف الشامل لبدء النص. 0
length طول المربع المحيط من حيث أحرف UTF16. لا يأخذ التدريب في الاعتبار سوى البيانات الموجودة في هذه المنطقة. 500

الخطوات التالية