احصل على نتائج التعرُّف على الكلام

وثائق مرجعية | الحزمة (NuGet) | نماذج إضافية على GitHub

في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.

تزامن الكلام

قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.

تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.

  • Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من 0 علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية.
  • Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.

يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.

التعرُّف على الإزاحة والمدة

باستخدام حدث Recognizing، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.

توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

الإزاحة والمدة المعترف بها

بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig المقابلة كما هو موضح هنا:

speechConfig.RequestWordLevelTimestamps();

توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognized.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

مثال الإزاحة والمدة

يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing وRecognized. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing وRecognized، حيث قد تكون النتيجة النهائية مختلفة.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING welcome 17000000 5000000
RECOGNIZING مرحبا بك في 17000000 6400000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 13600000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 17200000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 17000000 23700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 2 17000000 26700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 201 17000000 33400000
RECOGNIZED مرحباً بكم في دورة الرياضيات التطبيقية 201. 17000000 34500000

كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).

إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING موافق 71500000 3100000
RECOGNIZING حسنا الآن 71500000 10300000
RECOGNIZING موافق الآن دعونا 71500000 14700000
RECOGNIZING موافق الآن دعونا نبدأ 71500000 18500000
RECOGNIZED حسناً، لنبدأ الآن. 71500000 20600000

المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).

وثائق مرجعية | Package (NuGet) | Additional نماذج إضافية على GitHub

في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.

تزامن الكلام

قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.

تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.

  • Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من 0 علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية.
  • Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.

يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.

التعرُّف على الإزاحة والمدة

باستخدام حدث Recognizing، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.

توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

الإزاحة والمدة المعترف بها

بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig المقابلة كما هو موضح هنا:

speechConfig->RequestWordLevelTimestamps();

مثال الإزاحة والمدة

يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing وRecognized. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing وRecognized، حيث قد تكون النتيجة النهائية مختلفة.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING welcome 17000000 5000000
RECOGNIZING مرحبا بك في 17000000 6400000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 13600000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 17200000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 17000000 23700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 2 17000000 26700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 201 17000000 33400000
RECOGNIZED مرحباً بكم في دورة الرياضيات التطبيقية 201. 17000000 34500000

كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).

إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING موافق 71500000 3100000
RECOGNIZING حسنا الآن 71500000 10300000
RECOGNIZING حسنا الآن دعونا 71500000 14700000
RECOGNIZING حسنا الآن لنبدأ 71500000 18500000
RECOGNIZED حسناً، لنبدأ الآن. 71500000 20600000

المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).

وثائق مرجعية | Package (Go) | عينات إضافية على GitHub

في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.

تزامن الكلام

قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.

تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.

  • Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من 0 علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية.
  • Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.

يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.

التعرُّف على الإزاحة والمدة

باستخدام حدث Recognizing، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.

توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

الإزاحة والمدة المعترف بها

بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig المقابلة كما هو موضح هنا:

speechConfig.RequestWordLevelTimestamps();

مثال الإزاحة والمدة

يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing وRecognized. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing وRecognized، حيث قد تكون النتيجة النهائية مختلفة.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING welcome 17000000 5000000
RECOGNIZING مرحبا بك في 17000000 6400000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 13600000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 17200000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 17000000 23700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 2 17000000 26700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 201 17000000 33400000
RECOGNIZED مرحباً بكم في دورة الرياضيات التطبيقية 201. 17000000 34500000

كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).

إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING موافق 71500000 3100000
RECOGNIZING حسنا الآن 71500000 10300000
RECOGNIZING موافق الآن دعونا 71500000 14700000
RECOGNIZING موافق الآن دعونا نبدأ 71500000 18500000
RECOGNIZED حسناً، لنبدأ الآن. 71500000 20600000

المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).

وثائق مرجعية | نماذج إضافية على GitHub

في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.

تزامن الكلام

قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.

تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.

  • Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من 0 علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية.
  • Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.

يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.

التعرُّف على الإزاحة والمدة

باستخدام حدث Recognizing، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.

توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

الإزاحة والمدة المعترف بها

بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig المقابلة كما هو موضح هنا:

speechConfig.requestWordLevelTimestamps();

مثال الإزاحة والمدة

يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing وRecognized. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing وRecognized، حيث قد تكون النتيجة النهائية مختلفة.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING welcome 17000000 5000000
RECOGNIZING مرحبا بك في 17000000 6400000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 13600000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 17200000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 17000000 23700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 2 17000000 26700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 201 17000000 33400000
RECOGNIZED مرحباً بكم في دورة الرياضيات التطبيقية 201. 17000000 34500000

كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).

إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING موافق 71500000 3100000
RECOGNIZING حسنا الآن 71500000 10300000
RECOGNIZING موافق الآن دعونا 71500000 14700000
RECOGNIZING موافق الآن دعونا نبدأ 71500000 18500000
RECOGNIZED حسناً، لنبدأ الآن. 71500000 20600000

المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).

وثائق مرجعية | Package (npm) | نماذج إضافية على GitHub | شفرة مصدر المكتبة

في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.

تزامن الكلام

قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.

تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.

  • Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من 0 علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية.
  • Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.

يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.

التعرُّف على الإزاحة والمدة

باستخدام حدث Recognizing، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.

توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

الإزاحة والمدة المعترف بها

بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig المقابلة كما هو موضح هنا:

speechConfig.requestWordLevelTimestamps();

مثال الإزاحة والمدة

يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing وRecognized. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing وRecognized، حيث قد تكون النتيجة النهائية مختلفة.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING welcome 17000000 5000000
RECOGNIZING مرحبا بك في 17000000 6400000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 13600000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 17200000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 17000000 23700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 2 17000000 26700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 201 17000000 33400000
RECOGNIZED مرحباً بكم في دورة الرياضيات التطبيقية 201. 17000000 34500000

كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).

إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING موافق 71500000 3100000
RECOGNIZING حسنا الآن 71500000 10300000
RECOGNIZING موافق الآن دعونا 71500000 14700000
RECOGNIZING موافق الآن دعونا نبدأ 71500000 18500000
RECOGNIZED حسناً، لنبدأ الآن. 71500000 20600000

المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).

وثائق مرجعية | الحزمة (تنزيل) | نماذج إضافية على GitHub

في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.

تزامن الكلام

قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.

تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.

  • Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من 0 علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية.
  • Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.

يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.

التعرُّف على الإزاحة والمدة

باستخدام حدث Recognizing، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.

الإزاحة والمدة المعترف بها

بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig المقابلة كما هو موضح هنا:

[speechConfig requestWordLevelTimestamps];

مثال الإزاحة والمدة

يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing وRecognized. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing وRecognized، حيث قد تكون النتيجة النهائية مختلفة.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING welcome 17000000 5000000
RECOGNIZING مرحبا بك في 17000000 6400000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 13600000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 17200000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 17000000 23700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 2 17000000 26700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 201 17000000 33400000
RECOGNIZED مرحباً بكم في دورة الرياضيات التطبيقية 201. 17000000 34500000

كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).

إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING موافق 71500000 3100000
RECOGNIZING حسنا الآن 71500000 10300000
RECOGNIZING موافق الآن دعونا 71500000 14700000
RECOGNIZING موافق الآن دعونا نبدأ 71500000 18500000
RECOGNIZED حسناً، لنبدأ الآن. 71500000 20600000

المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).

وثائق مرجعية | الحزمة (تنزيل) | نماذج إضافية على GitHub

في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.

تزامن الكلام

قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.

تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.

  • Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من 0 علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية.
  • Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.

يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.

التعرُّف على الإزاحة والمدة

باستخدام حدث Recognizing، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.

الإزاحة والمدة المعترف بها

بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig المقابلة كما هو موضح هنا:

[speechConfig requestWordLevelTimestamps];

مثال الإزاحة والمدة

يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing وRecognized. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing وRecognized، حيث قد تكون النتيجة النهائية مختلفة.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING welcome 17000000 5000000
RECOGNIZING مرحبا بك في 17000000 6400000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 13600000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 17200000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 17000000 23700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 2 17000000 26700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 201 17000000 33400000
RECOGNIZED مرحباً بكم في دورة الرياضيات التطبيقية 201. 17000000 34500000

كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).

إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING موافق 71500000 3100000
RECOGNIZING حسنا الآن 71500000 10300000
RECOGNIZING موافق الآن دعونا 71500000 14700000
RECOGNIZING موافق الآن دعونا نبدأ 71500000 18500000
RECOGNIZED حسناً، لنبدأ الآن. 71500000 20600000

المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).

وثائق مرجعية | Package (PyPi) | عينات إضافية على GitHub

في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.

تزامن الكلام

قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.

تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.

  • Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من 0 علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية.
  • Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.

يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.

التعرُّف على الإزاحة والمدة

باستخدام حدث Recognizing، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.

توضح القصاصة البرمجية من التعليمة البرمجية هذه كيفية الحصول على الإزاحة والمدة من حدث Recognizing.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

الإزاحة والمدة المعترف بها

بمجرد التعرُّف على الكلام، يمكنك الحصول على إزاحة ومدة الخطاب الذي تم التعرُّف عليه. باستخدام حدث Recognized، يمكنك أيضاً الحصول على الإزاحة والمدة لكل كلمة. لطلب الإزاحة والمدة لكل كلمة، يجب أولاً تعيين خاصية SpeechConfig المقابلة كما هو موضح هنا:

speech_config.request_word_level_timestamps()

مثال الإزاحة والمدة

يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing وRecognized. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing وRecognized، حيث قد تكون النتيجة النهائية مختلفة.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING welcome 17000000 5000000
RECOGNIZING مرحبا بك في 17000000 6400000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 13600000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 17200000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 17000000 23700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 2 17000000 26700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 201 17000000 33400000
RECOGNIZED مرحباً بكم في دورة الرياضيات التطبيقية 201. 17000000 34500000

كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).

إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING موافق 71500000 3100000
RECOGNIZING حسنا الآن 71500000 10300000
RECOGNIZING حسنا الآن دعونا 71500000 14700000
RECOGNIZING حسنا الآن لنبدأ 71500000 18500000
RECOGNIZED حسناً، لنبدأ الآن. 71500000 20600000

المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).

في دليل الكيفية هذا، ستتعرَّف على كيفية استخدام نتائج التعرُّف على الكلام.

تزامن الكلام

قد ترغب في مزامنة النسخ مع مسار صوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق.

تقوم خدمة الكلام بإرجاع الإزاحة ومدة الكلام الذي تم التعرُّف عليه.

  • Offset: الإزاحة في دفق الصوت الذي يتم التعرُّف عليه، ويتم التعبير عنها كمدة. يتم قياس الإزاحة بعلامات التجزئة، بدءاً من 0 علامة (صفر)، المرتبطة بأول بايت صوت تمت معالجته بواسطة SDK. على سبيل المثال، يبدأ الإزاحة عند بدء التعرُّف، حيث يبدأ SDK في معالجة دفق الصوت. علامة واحدة تمثل مائة نانوثانية أو واحداً من عشرة ملايين من الثانية.
  • Duration: مدة الكلام الذي يتم التعرُّف عليه. لا تشمل المدة في العلامات الصمت المتأخر أو البادئ.

يتم تحديد نهاية الكلام المنفرد من خلال الاستماع للصمت في النهاية. لن تحصل على نتيجة التعرُّف النهائية حتى يكتمل الكلام. سيوفر التعرُّف على الأحداث نتائج وسيطة قابلة للتغيير أثناء معالجة دفق صوتي. ستوفر الأحداث المعترف بها النص المكتوب النهائي بمجرد اكتمال معالجة الكلام المنطوق.

التعرُّف على الإزاحة والمدة

ستحتاج إلى مزامنة التسميات التوضيحية مع المسار الصوتي، سواء تم ذلك في الوقت الحقيقي أو مع تسجيل مسبق. باستخدام حدث Recognizing، يمكنك الحصول على إزاحة ومدة الكلام التي يتم التعرُّف عليها. لا تتوفر الإزاحة والمدة لكل كلمة أثناء إجراء التعرُّف. يأتي كل حدث Recognizing مع تقدير نصي للكلام الذي تم التعرُّف عليه حتى الآن.

على سبيل المثال، قم بتشغيل الأمر التالي للحصول على إزاحة ومدة الكلام الذي تم التعرُّف عليه:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

منذ أن تم تعيين الوسيطة @output.each.detailed، يتضمن الإخراج رؤوس الأعمدة التالية:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

في العمود result.json، يمكنك العثور على التفاصيل التي تتضمن الإزاحة والمدة لحدثي Recognizing وRecognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

لمزيد من المعلومات، راجع Speech CLI تكوين مخزن البيانات وخيارات الإخراج.

مثال الإزاحة والمدة

يوضح الجدول التالي مقدار الإزاحة والمدة المحتملة في العلامات عندما يقول المتحدث "مرحباً بك في دورة الرياضيات التطبيقية 201". في هذا المثال، لا تتغير الإزاحة خلال أحداث Recognizing وRecognized. ومع ذلك، لا تعتمد على الإزاحة لتظل كما هي بين الحدثين Recognizing وRecognized، حيث قد تكون النتيجة النهائية مختلفة.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING welcome 17000000 5000000
RECOGNIZING مرحبا بك في 17000000 6400000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 13600000
RECOGNIZING مرحبا بكم في الرياضيات التطبيقية 17000000 17200000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 17000000 23700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 2 17000000 26700000
RECOGNIZING مرحبا بكم في دورة الرياضيات التطبيقية 201 17000000 33400000
RECOGNIZED مرحباً بكم في دورة الرياضيات التطبيقية 201. 17000000 34500000

كانت المدة الإجمالية للنطق الأول 3.45 ثانية. تم التعرُّف عليه عند 1.7 إلى 5.15 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00: 00: 01.700 -> 00: 00: 05.150).

إذا استمر المتحدث في قول "لنبدأ"، يتم حساب إزاحة جديدة من بداية الدفق الصوتي الذي يتم التعرُّف عليه، إلى بداية الكلام الجديد. يوضح الجدول التالي إمكانية الإزاحة والمدة المحتملة لخطاب بدأ بعد ثانيتين من انتهاء الكلام السابق.

الحدث النص إزاحة (بالعلامات) المدة (بالعلامات)
RECOGNIZING موافق 71500000 3100000
RECOGNIZING حسنا الآن 71500000 10300000
RECOGNIZING حسنا الآن دعونا 71500000 14700000
RECOGNIZING حسنا الآن لنبدأ 71500000 18500000
RECOGNIZED حسناً، لنبدأ الآن. 71500000 20600000

المدة الإجمالية للكلام الثاني 2.06 ثانية. تم التعرُّف عليه عند 7.15 إلى 9.21 ثانية من الإزاحة من بداية دفق الصوت الذي يتم التعرُّف عليه (00:00:07.150 --> 00:00:09.210).

الخطوات التالية