احصل على نتائج التعرُّف على الكلام
وثائق مرجعية | الحزمة (NuGet) | نماذج إضافية على GitHub
في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.
تزامن الكلام
قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.
تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.
-
Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من
0
علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية. - Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.
يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.
التعرُّف على الإزاحة والمدة
باستخدام حدث Recognizing
، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing
مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.
توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing
.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
الإزاحة والمدة المعترف بها
بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized
، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig
المقابلة كما هو موضح هنا:
speechConfig.RequestWordLevelTimestamps();
توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognized
.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
مثال الإزاحة والمدة
يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing
وRecognized
. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing
وRecognized
، حيث قد تكون النتيجة النهائية مختلفة.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | welcome | 17000000 | 5000000 |
RECOGNIZING | مرحبا بك في | 17000000 | 6400000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 13600000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 17200000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية | 17000000 | 23700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 2 | 17000000 | 26700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 201 | 17000000 | 33400000 |
RECOGNIZED | مرحباً بكم في دورة الرياضيات التطبيقية 201. | 17000000 | 34500000 |
كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).
إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | موافق | 71500000 | 3100000 |
RECOGNIZING | حسنا الآن | 71500000 | 10300000 |
RECOGNIZING | موافق الآن دعونا | 71500000 | 14700000 |
RECOGNIZING | موافق الآن دعونا نبدأ | 71500000 | 18500000 |
RECOGNIZED | حسناً، لنبدأ الآن. | 71500000 | 20600000 |
المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).
وثائق مرجعية | Package (NuGet) | Additional نماذج إضافية على GitHub
في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.
تزامن الكلام
قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.
تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.
-
Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من
0
علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية. - Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.
يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.
التعرُّف على الإزاحة والمدة
باستخدام حدث Recognizing
، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing
مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.
توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing
.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
الإزاحة والمدة المعترف بها
بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized
، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig
المقابلة كما هو موضح هنا:
speechConfig->RequestWordLevelTimestamps();
مثال الإزاحة والمدة
يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing
وRecognized
. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing
وRecognized
، حيث قد تكون النتيجة النهائية مختلفة.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | welcome | 17000000 | 5000000 |
RECOGNIZING | مرحبا بك في | 17000000 | 6400000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 13600000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 17200000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية | 17000000 | 23700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 2 | 17000000 | 26700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 201 | 17000000 | 33400000 |
RECOGNIZED | مرحباً بكم في دورة الرياضيات التطبيقية 201. | 17000000 | 34500000 |
كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).
إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | موافق | 71500000 | 3100000 |
RECOGNIZING | حسنا الآن | 71500000 | 10300000 |
RECOGNIZING | حسنا الآن دعونا | 71500000 | 14700000 |
RECOGNIZING | حسنا الآن لنبدأ | 71500000 | 18500000 |
RECOGNIZED | حسناً، لنبدأ الآن. | 71500000 | 20600000 |
المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).
وثائق مرجعية | Package (Go) | عينات إضافية على GitHub
في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.
تزامن الكلام
قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.
تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.
-
Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من
0
علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية. - Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.
يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.
التعرُّف على الإزاحة والمدة
باستخدام حدث Recognizing
، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing
مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.
توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing
.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
الإزاحة والمدة المعترف بها
بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized
، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig
المقابلة كما هو موضح هنا:
speechConfig.RequestWordLevelTimestamps();
مثال الإزاحة والمدة
يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing
وRecognized
. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing
وRecognized
، حيث قد تكون النتيجة النهائية مختلفة.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | welcome | 17000000 | 5000000 |
RECOGNIZING | مرحبا بك في | 17000000 | 6400000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 13600000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 17200000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية | 17000000 | 23700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 2 | 17000000 | 26700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 201 | 17000000 | 33400000 |
RECOGNIZED | مرحباً بكم في دورة الرياضيات التطبيقية 201. | 17000000 | 34500000 |
كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).
إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | موافق | 71500000 | 3100000 |
RECOGNIZING | حسنا الآن | 71500000 | 10300000 |
RECOGNIZING | موافق الآن دعونا | 71500000 | 14700000 |
RECOGNIZING | موافق الآن دعونا نبدأ | 71500000 | 18500000 |
RECOGNIZED | حسناً، لنبدأ الآن. | 71500000 | 20600000 |
المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).
وثائق مرجعية | نماذج إضافية على GitHub
في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.
تزامن الكلام
قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.
تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.
-
Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من
0
علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية. - Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.
يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.
التعرُّف على الإزاحة والمدة
باستخدام حدث Recognizing
، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing
مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.
توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing
.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
الإزاحة والمدة المعترف بها
بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized
، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig
المقابلة كما هو موضح هنا:
speechConfig.requestWordLevelTimestamps();
مثال الإزاحة والمدة
يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing
وRecognized
. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing
وRecognized
، حيث قد تكون النتيجة النهائية مختلفة.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | welcome | 17000000 | 5000000 |
RECOGNIZING | مرحبا بك في | 17000000 | 6400000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 13600000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 17200000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية | 17000000 | 23700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 2 | 17000000 | 26700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 201 | 17000000 | 33400000 |
RECOGNIZED | مرحباً بكم في دورة الرياضيات التطبيقية 201. | 17000000 | 34500000 |
كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).
إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | موافق | 71500000 | 3100000 |
RECOGNIZING | حسنا الآن | 71500000 | 10300000 |
RECOGNIZING | موافق الآن دعونا | 71500000 | 14700000 |
RECOGNIZING | موافق الآن دعونا نبدأ | 71500000 | 18500000 |
RECOGNIZED | حسناً، لنبدأ الآن. | 71500000 | 20600000 |
المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).
وثائق مرجعية | Package (npm) | نماذج إضافية على GitHub | شفرة مصدر المكتبة
في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.
تزامن الكلام
قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.
تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.
-
Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من
0
علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية. - Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.
يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.
التعرُّف على الإزاحة والمدة
باستخدام حدث Recognizing
، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing
مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.
توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing
.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
الإزاحة والمدة المعترف بها
بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized
، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig
المقابلة كما هو موضح هنا:
speechConfig.requestWordLevelTimestamps();
مثال الإزاحة والمدة
يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing
وRecognized
. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing
وRecognized
، حيث قد تكون النتيجة النهائية مختلفة.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | welcome | 17000000 | 5000000 |
RECOGNIZING | مرحبا بك في | 17000000 | 6400000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 13600000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 17200000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية | 17000000 | 23700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 2 | 17000000 | 26700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 201 | 17000000 | 33400000 |
RECOGNIZED | مرحباً بكم في دورة الرياضيات التطبيقية 201. | 17000000 | 34500000 |
كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).
إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | موافق | 71500000 | 3100000 |
RECOGNIZING | حسنا الآن | 71500000 | 10300000 |
RECOGNIZING | موافق الآن دعونا | 71500000 | 14700000 |
RECOGNIZING | موافق الآن دعونا نبدأ | 71500000 | 18500000 |
RECOGNIZED | حسناً، لنبدأ الآن. | 71500000 | 20600000 |
المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).
وثائق مرجعية | الحزمة (تنزيل) | نماذج إضافية على GitHub
في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.
تزامن الكلام
قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.
تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.
-
Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من
0
علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية. - Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.
يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.
التعرُّف على الإزاحة والمدة
باستخدام حدث Recognizing
، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing
مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.
الإزاحة والمدة المعترف بها
بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized
، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig
المقابلة كما هو موضح هنا:
[speechConfig requestWordLevelTimestamps];
مثال الإزاحة والمدة
يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing
وRecognized
. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing
وRecognized
، حيث قد تكون النتيجة النهائية مختلفة.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | welcome | 17000000 | 5000000 |
RECOGNIZING | مرحبا بك في | 17000000 | 6400000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 13600000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 17200000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية | 17000000 | 23700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 2 | 17000000 | 26700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 201 | 17000000 | 33400000 |
RECOGNIZED | مرحباً بكم في دورة الرياضيات التطبيقية 201. | 17000000 | 34500000 |
كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).
إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | موافق | 71500000 | 3100000 |
RECOGNIZING | حسنا الآن | 71500000 | 10300000 |
RECOGNIZING | موافق الآن دعونا | 71500000 | 14700000 |
RECOGNIZING | موافق الآن دعونا نبدأ | 71500000 | 18500000 |
RECOGNIZED | حسناً، لنبدأ الآن. | 71500000 | 20600000 |
المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).
وثائق مرجعية | الحزمة (تنزيل) | نماذج إضافية على GitHub
في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.
تزامن الكلام
قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.
تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.
-
Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من
0
علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية. - Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.
يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.
التعرُّف على الإزاحة والمدة
باستخدام حدث Recognizing
، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing
مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.
الإزاحة والمدة المعترف بها
بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized
، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig
المقابلة كما هو موضح هنا:
[speechConfig requestWordLevelTimestamps];
مثال الإزاحة والمدة
يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing
وRecognized
. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing
وRecognized
، حيث قد تكون النتيجة النهائية مختلفة.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | welcome | 17000000 | 5000000 |
RECOGNIZING | مرحبا بك في | 17000000 | 6400000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 13600000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 17200000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية | 17000000 | 23700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 2 | 17000000 | 26700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 201 | 17000000 | 33400000 |
RECOGNIZED | مرحباً بكم في دورة الرياضيات التطبيقية 201. | 17000000 | 34500000 |
كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).
إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | موافق | 71500000 | 3100000 |
RECOGNIZING | حسنا الآن | 71500000 | 10300000 |
RECOGNIZING | موافق الآن دعونا | 71500000 | 14700000 |
RECOGNIZING | موافق الآن دعونا نبدأ | 71500000 | 18500000 |
RECOGNIZED | حسناً، لنبدأ الآن. | 71500000 | 20600000 |
المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).
وثائق مرجعية | Package (PyPi) | عينات إضافية على GitHub
في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.
تزامن الكلام
قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.
تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.
-
Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من
0
علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية. - Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.
يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.
التعرُّف على الإزاحة والمدة
باستخدام حدث Recognizing
، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing
مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.
توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing
.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
الإزاحة والمدة المعترف بها
بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized
، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig
المقابلة كما هو موضح هنا:
speech_config.request_word_level_timestamps()
مثال الإزاحة والمدة
يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing
وRecognized
. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing
وRecognized
، حيث قد تكون النتيجة النهائية مختلفة.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | welcome | 17000000 | 5000000 |
RECOGNIZING | مرحبا بك في | 17000000 | 6400000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 13600000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 17200000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية | 17000000 | 23700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 2 | 17000000 | 26700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 201 | 17000000 | 33400000 |
RECOGNIZED | مرحباً بكم في دورة الرياضيات التطبيقية 201. | 17000000 | 34500000 |
كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).
إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | موافق | 71500000 | 3100000 |
RECOGNIZING | حسنا الآن | 71500000 | 10300000 |
RECOGNIZING | حسنا الآن دعونا | 71500000 | 14700000 |
RECOGNIZING | حسنا الآن لنبدأ | 71500000 | 18500000 |
RECOGNIZED | حسناً، لنبدأ الآن. | 71500000 | 20600000 |
المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).
في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.
تزامن الكلام
قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.
تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.
-
Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من
0
علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية. - Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.
يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.
التعرُّف على الإزاحة والمدة
ستحتاج إلى مزامنة التسميات التوضيحية مع المسار الصوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق. باستخدام حدث Recognizing
، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing
مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.
على سبيل المثال، قم بتشغيل الأمر التالي للحصول على إزاحة ومدة الكلام الذي تم التعرُّف عليه:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
منذ أن تم تعيين الوسيطة @output.each.detailed
، يتضمن الإخراج رؤوس الأعمدة التالية:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
في العمود result.json
، يمكنك العثور على التفاصيل التي تتضمن الإزاحة والمدة لحدثي Recognizing
وRecognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
لمزيد من المعلومات، راجع Speech CLI تكوين مخزن البيانات وخيارات الإخراج.
مثال الإزاحة والمدة
يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing
وRecognized
. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing
وRecognized
، حيث قد تكون النتيجة النهائية مختلفة.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | welcome | 17000000 | 5000000 |
RECOGNIZING | مرحبا بك في | 17000000 | 6400000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 13600000 |
RECOGNIZING | مرحبا بكم في الرياضيات التطبيقية | 17000000 | 17200000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية | 17000000 | 23700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 2 | 17000000 | 26700000 |
RECOGNIZING | مرحبا بكم في دورة الرياضيات التطبيقية 201 | 17000000 | 33400000 |
RECOGNIZED | مرحباً بكم في دورة الرياضيات التطبيقية 201. | 17000000 | 34500000 |
كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).
إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.
الحدث | النص | إزاحة (بالعلامات) | المدة (بالعلامات) |
---|---|---|---|
RECOGNIZING | موافق | 71500000 | 3100000 |
RECOGNIZING | حسنا الآن | 71500000 | 10300000 |
RECOGNIZING | حسنا الآن دعونا | 71500000 | 14700000 |
RECOGNIZING | حسنا الآن لنبدأ | 71500000 | 18500000 |
RECOGNIZED | حسناً، لنبدأ الآن. | 71500000 | 20600000 |
المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).
الخطوات التالية
الملاحظات
https://aka.ms/ContentUserFeedback.
قريبًا: خلال عام 2024، سنتخلص تدريجيًا من GitHub Issues بوصفها آلية إرسال ملاحظات للمحتوى ونستبدلها بنظام ملاحظات جديد. لمزيد من المعلومات، راجعإرسال الملاحظات وعرضها المتعلقة بـ