تنسيقات البيانات المقبولة من خلال فهم لغة المحادثة
إذا كنت تقوم بتحميل بياناتك إلى CLU، يجب أن تتبع تنسيقاً محدداً، فاستخدم هذه المقالة لمعرفة المزيد بشأن تنسيقات البيانات المقبولة.
استيراد تنسيق ملف المشروع
إذا كنت تقوم باستيراد مشروع إلى CLU، يجب أن يكون الملف الذي تم تحميله بالتنسيق التالي.
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
المفتاح | العنصر النائب | القيمة | مثال |
---|---|---|---|
{API-VERSION} |
إصدار واجهة برمجة التطبيقات التي تتصل بها. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
هذه هي درجة الحد التي سيتم التنبؤ بالهدف أدناه على أنه لا يوجد هدف. القيم من 0 إلى 1 |
0.7 |
projectName |
{PROJECT-NAME} |
اسم مشروعك. هذه القيمة حساسة لحالة الأحرف. | EmailApp |
multilingual |
true |
قيمة منطقية تمكنك من الحصول على تعبيرات بلغات متعددة في مجموعة البيانات الخاصة بك وعند نشر النموذج الخاص بك، يمكنك الاستعلام عن النموذج بأي لغة مدعومة (لا يتم تضمينها بالضرورة في مستندات التدريب الخاصة بك. راجع دعم اللغة للحصول على مزيدٍ من المعلومات حول رموز اللغات المدعومة. | true |
sublists |
[] |
صفيف يحتوي على قوائم فرعية. كل قائمة فرعية هي مفتاح وقيمها المرتبطة بها. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
القاعدة التي تحدد كيفية إدارة مكونات متعددة في الكيان الخاص بك. الخيارات هي combineComponents أو separateComponents . |
combineComponents |
synonyms |
[] |
صفيف تحتوي على جميع المرادفات | مرادف |
language |
{LANGUAGE-CODE} |
سلسلة تحدد التعليمات البرمجية للغة للألفاظ والمرادفات والتعبيرات العادية المستخدمة في مشروعك. إذا كان مشروعك عبارة عن مشروع متعدد اللغات، فاختر رمز اللغة لمعظم الكلمات المنطوقة. | en-us |
intents |
[] |
صفيف تحتوي على جميع الهدف التي لديك في المشروع. هذه هي الأهداف التي سيتم تصنيفها من أقوالك. | [] |
entities |
[] |
صفيف تحتوي على جميع الكيانات في مشروعك. هذه هي الكيانات التي سيتم استخلاصها من أقوالك. يمكن أن يكون لكل كيان مكونات اختيارية إضافية معرفة بها: قائمة أو تم إنشاؤها مسبقا أو regex. | [] |
dataset |
{DATASET} |
مجموعة الاختبار التي سينتقل إليها هذا الكلام عند الانقسام قبل التدريب. تعرَّف على المزيد حول تقسيم البيانات هنا. القيم المحتملة لهذا الحقل هي Train وTest . |
Train |
category |
|
نوع الكيان المرتبط بنطاق النص المحدد. | Entity1 |
offset |
|
موقف الطابع الشامل لبداية الكيان. | 5 |
length |
|
طول حرف الكيان. | 5 |
listKey |
|
قيمة تمت تسويتها لقائمة المرادفات المراد تعيينها مرة أخرى إلى في التنبؤ. | Microsoft |
values |
{VALUES-FOR-LIST} |
قائمة بالسلاسل المفصولة بفواصل التي ستتم مطابقتها تماما للاستخراج والتعين إلى مفتاح القائمة. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
قيمة تمت تسويتها للتعبير العادي لتعيينه مرة أخرى إلى في التنبؤ. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
تعبير عادي. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
المكونات التي تم إنشاؤها مسبقا والتي يمكنها استخراج الأنواع الشائعة. يمكنك العثور على قائمة المكونات التي تم إنشاؤها مسبقا التي يمكنك إضافتها هنا. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
إعداد يحدد شرطا بأن يكون مكون معين موجودا لإرجاع الكيان. يمكنك معرفة المزيد هنا. القيم المحتملة هي learned أو regex list أو أوprebuilts |
"learned", "prebuilt" |
تنسيق ملف الكلام
يوفر CLU خيار تحميل كلامك مباشرة إلى المشروع بدلاً من كتابته واحداً تلو الآخر. يمكنك العثور على هذا الخيار في صفحة data labeling لمشروعك.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
المفتاح | العنصر النائب | القيمة | مثال |
---|---|---|---|
text |
{Utterance-Text} |
نص الكلام الخاص بك | الاختبار |
language |
{LANGUAGE-CODE} |
سلسلة تحدد رمز اللغة للألفاظ المستخدمة في مشروعك. إذا كان مشروعك عبارة عن مشروع متعدد اللغات، فاختر رمز اللغة لمعظم الكلمات المنطوقة. راجع دعم اللغة للحصول على مزيدٍ من المعلومات حول رموز اللغات المدعومة. | en-us |
dataset |
{DATASET} |
مجموعة الاختبار التي سينتقل إليها هذا الكلام عند الانقسام قبل التدريب. تعرَّف على المزيد حول تقسيم البيانات هنا. القيم المحتملة لهذا الحقل هي Train وTest . |
Train |
intent |
{intent} |
الهدف المحدد | intent1 |
entity |
{entity} |
الكيان المراد استخراجه | entity1 |
category |
|
نوع الكيان المرتبط بنطاق النص المحدد. | Entity1 |
offset |
|
موضع الحرف الشامل لبدء النص. | 0 |
length |
|
طول المربع المحيط من حيث أحرف UTF16. لا يأخذ التدريب في الاعتبار سوى البيانات الموجودة في هذه المنطقة. | 500 |
الخطوات التالية
- يمكنك استيراد البيانات المسماة إلى مشروعك مباشرةً. راجع استيراد المشروع لمزيد من المعلومات.
- راجع مقالة المساعدة للحصول على المزيد من المعلومات حول تسمية بياناتك. عند الانتهاء من تسمية بياناتك، يمكنك تدريب النموذج الخاص بك.
الملاحظات
https://aka.ms/ContentUserFeedback.
قريبًا: خلال عام 2024، سنتخلص تدريجيًا من GitHub Issues بوصفها آلية إرسال ملاحظات للمحتوى ونستبدلها بنظام ملاحظات جديد. لمزيد من المعلومات، راجعإرسال الملاحظات وعرضها المتعلقة بـ