הערת שקיפות: זיהוי דיבור מוגבל

מהי הערת שקיפות?

מערכת בינה מלאכותית כוללת לא רק את הטכנולוגיה, אלא גם את האנשים שישתמשו בה, האנשים שישפיעו על הבינה המלאכותית והסביבה שבה היא נפרסת. יצירת מערכת שמתאימה למטרה המיועדת שלה דורשת הבנה של אופן הפעולה של הטכנולוגיה, מה היכולות והמגבלות שלה וכיצד להשיג את הביצועים הטובים ביותר. הערות השקיפות של Microsoft נועדו לעזור לך להבין כיצד פועלת טכנולוגיית הבינה המלאכותית שלנו, את האפשרויות שהבעלים של המערכת יכולים להפוך את ההשפעה על הביצועים וההתנהגות של המערכת ואת החשיבות של חשיבה על כל המערכת, כולל הטכנולוגיה, האנשים והסביבה. באפשרותך להשתמש בהערות שקיפות בעת פיתוח או פריסה של המערכת שלך, או לשתף אותן עם האנשים שישתתפת בהן או יושפעו מהמערכת שלך.

הערות השקיפות של Microsoft הן חלק ממאמץ רחב יותר ב- Microsoft לתרגל את עקרונות הבינה המלאכותית שלנו. קבל מידע נוסף בעקרונות הבינה המלאכותית של Microsoft.

היסודות של זיהוי דיבור מוגבל

מבוא

זיהוי דיבור הוא פונקציה חיונית להפעלה עם מערכות בינה מלאכותית המותאמות לקול. מערכות אלה (שנקראות לעתים קרובות "מנועי דיבור לטקסט") ממירות מילים מדוברות של משתמש לטקסט, לרוב מייצרות ניקוד ביטחון המציין את ההסתברות לתיקון הפלט. זיהוי דיבור מוגבל הוא מודאליות ספציפית שמגבילה באופן ספציפי את ערכת המילים או צירופי המילים האפשריים כדי לזהות את המנוע עצמו. אילוץ זה מתבצע באמצעות בדיקת דקדוק. דקדוק הם, לפי ההגדרה, רשימת הכללים מבוססת המילים או צירופי המילים הצפויים כדי שהמנוע יזהה.

מנועי זיהוי דיבור מוגבלים שימושיים במיוחד עבור:

זיהוי קלט אלפאנומרי כגון מספרי חשבון ומספרי מעקב.
רשימות גדולות ספציפיות לתחום (מניות, כתובות, שמות).
יישומים עם טווח קטן המיועדים לאינטראקציות עם קבוצה קטנה של מילים וצירופי מילים כדי לזהות.
תיבת דו-שיח מופנה כדי לעזור לנווט בעץ תפריט של פריטים, המשמש לאינטראקציה הראשונה של מתקשר או כבסיס לעיצוב השיחה של המערכת.

מונחי מפתח

מונח	Definition
דקדוק	דקדוק הוא תיאור של המילים וצירופי המילים שמכיר הדיבור מבין ומפרש. המכיר טוען את הדקדוק בזמן ריצה כדי להמיר את התגובות המדוברות והפקודות של המשתמש למידע שבו האפליקציה הקולית יכולה להשתמש.
GrXML	התבנית שבה מורכבים דקדוק.
מפרט דקדוק של זיהוי דיבור (SRGS)	תקן W3C להגדרת דקדוק.
אטראטרנס (Utterance)	המילים המדוברות או צירופי המילים של משתמש למערכת בינה מלאכותית קולית שמערכת הזיהוי הקולי מפרשת.

יכולות

אופן פעולה של המערכת

בכל פעם שהוא מפרש עומס משתמש, הוא מבצע קומפילציה של רשימה של ההתאמות האפשריות הקרובות ביותר כדי לחזור ליישום הקולי. רשימה זו נקראת כרשימת ה- n-best l, מאחר שהיא מורכבה ממספר מוגדר מראש n של פרשנות המתאימה ביותר למה שנראה שהמשתמש אמר. כאשר המשתמש מדבר, המכיר מחפש את ההתאמות הטובות ביותר בין הפריטים המוגדרים בדקדוק. המכיר מוסיף כל פרשנות תואמת למועמדים שנחשבים לרשימה n-best. במהלך החיפוש, המכיר משתמש במודלים אקוסטיים כדי לנתח את קלט השמע, מודלים לקסיליים כדי לקבוע את המשפטים הרלוונטיים ביותר בדקדוק ובמודלים סמנטיים כדי לקבוע את המשמעויות ה סבירות ביותר של מה שהשיחה אמרה. מזהה החיפושים עד שהוא מוצא את הפירושים הגבוהים ביותר האפשריים, או עד שהפריטים הנותרים לא יכולים להתאים למה שנשמע.

המכיר מקצה ניקוד ביטחון לכל פריט ברשימת המועמדים ומדרג אותו מהביטחון הגבוה ביותר לנמוך ביותר. המזהה מוקם מחדש ומזין את הניקוד הזה כאשר פרשנות חדשה נמצאה. אם הדקדוק מאפשר הומונים (מילים נשמעות זהות אך בעלות משמעויות שונות), ומשמעות אחת מדוברת, המכיר מקצה את הומונים כדי להפריד בין פירושים עם ניקודי ביטחון זהים. המכיר ממקד את רשימת המועמדים על-ידי עיבוד רשימות אילוצים ו/או קבצי Script של פרשנות סמנטיים (ECMAScript) שצוינו בדקדוק. המכיר מסיר את כל הפענוחים שאינם עומדים ברמות הביטחון המוגדרות עבור היעד שהוגדרו עבור הזיהוי. המכירה מחזיר את n התוצאות הסופיות המובילות ליישום. רשימה זו מסוג n-best מכילה את הטקסט התואם (עבור ההערה כולה, עבור משבצת בודדת), ניקודי ביטחון ומפתחות וערכים כלשהם עבור ההטיה.

מקרי שימוש

שימושים ייעודיים

ניתן להשתמש בזיהוי דיבור מוגבל בתרחישים מרובים. השימושים המיועדים של המערכת כוללים:

זהה מילים מדוברות: כדי לתרגם דיבור לטקסט המאולץ על-ידי הרשימה המלאה שסופקה למערכת באמצעות "דקדוק". לדוגמה, לוחות רישוי אלפאנומריים ומספרי ביטוח חברתי קלטו או מדריך כתובות ארגוני מבוסס רשימה, נתוני מניות וכתובות.
אימות קלט: כדי לאמת שהמערכת נועדה לקבל את מה המדובר. לדוגמה, אימות כי מספר כרטיס אשראי נכון (מבחינה מתמטית).
הסר מועמדים לפלט: הסר מילים או צירופי מילים מזיהוי בניסיונות זיהוי חוזר.

שיקולים בעת בחירת מקרי שימוש אחרים

אנו ממליצים ללקוחות להשתמש בזיהוי קולי מוגבל בפתרונות או ביישומים החדשניים שלהם. עם זאת, להלן כמה שיקולים בעת בחירת מקרה שימוש:

חשיפה: העקביות עם כל יצירה של נציגי בינה מלאכותית, תמיד חושפת בפני מתקשר שהמערכת שבה הוא מקיים אינטראקציה מופעלת באמצעות בינה מלאכותית.
שימושים שאינם נתמכים:
- תעתיק אצווה: תעתיק מלא של מילים מדוברות של אדם בתעתיק טקסטואלי מלא.
- פירוש כוונה: מיפוי המילים המדוברות של האדם לכוונת מפורשת, בניגוד לתעתיק.
שיקולים משפטיים ורגולטוריים: ארגונים צריכים להעריך התחייבויות משפטיות ורגולטוריות פוטנציאליות בעת שימוש בשירותים ובפתרונות של בינה מלאכותית, שעשויים שלא להיות מתאימים לשימוש בכל תעשייה או תרחיש. ההגבלות עשויות להשתנות בהתאם לדרישות הרגולטוריות האזוריות או המקומיות. בנוסף, שירותי בינה מלאכותית או פתרונות אינם מיועדים ולא ניתן להשתמש בהם בדרכים אסורות בתנאי השירות החלים וב קודי ההתנהגות הרלוונטיים.

הגבלות

כפי שצוין קודם לכן, זיהוי קולי מוגבל מבצע בצורה יוצאת דופן מול מקרי שימוש ספציפיים, כגון משימות זיהוי אלפאנומריות ומבוססות רשימה שבהן המידע מפורש, מדויק ו מוגבל מהמשתמש. לעומת זאת, מערכות מסורתיות של דיבור לטקסט המשתמשות במודלים להבנת שפה סמנטית או טבעית מומלצות לזיהוי מגוון רחב של נושאים מדוברים, פרשנות במודל או סביבו. ציין באופן מפורש כל קלט דיבור מחוץ להגדרה של הדקדוק לא יכלול שום זיהוי. לכן מומלץ למפתחים לבנות אפליקציות מבוססות קול כדי לשקול היכן כדאי להשתמש בדיבור מוגבל לעומת בשיטות חלופיות.

מגבלות טכניות, גורמים תפעוליים וטווחים

כדי שזיהוי דיבור מוגבל באופן ספציפי יפעל באופן מדויק, דקדוק מעוצב היטב חייב להיות מסוגל לקבל תגובות רבות ושונות של משתמשים ולפרש אותן במהירות, במדויק וביעילות. משמעות הדבר היא שמפתח חייב להיות מסוגל לחזות את התגובות שכל בקשה של אפליקציה תפיק, ולקודש אותן באופן דקדוקי ככל האפשר. משמעות הדבר היא שיש להתאים את הדקדוק במקביל ליישום הקולי.

דקדוק טוב מאזן את המטרות הבאות:

כיסוי יסודי: הדקדוק מקבל ומפרש כל תגובה סבירה ממשתמשים לבקשת יישום קודמת.
דיוק: הדקדוק מזהה כראוי תגובות כך שהמשתמשים אינם מתבקשים לחזור עליהן, ודקדוקים אינם מעבירים ערכים שגויים ליישום הראשי.
מהירות: הדקדוק מזהה במהירות תגובות ללא עיכובים שמשתמשים מתוסכלים.
שימוש במשאבים: הדקדוק מעבד ביעילות.

כתיבה דקדוקית היא תהליך איטרטיבי. אתה יוצר דקדוק ראשוני בהתבסס על מה שאתה מצפה הממתקשרים אומרים, אוספים נתונים אמיתיים, ממקדים את הדקדוק, אוספים נתונים נוספים, ממקדים את הדקדוק שוב וכן הלאה. כאשר אתה ממקד את הדקדוק על-ידי הוספה והסרה של צירופי מילים, הוא קרוב יותר לאיך המתקשרים מדברים ליישום. בפועל, אף דקדוק לא יכול לכלול את כל התגובות שעשויות להתרחש ביישום שלך, מכיוון שאינך יכול לשלוט באופן שבו אנשים מדברים.

תהליך פיתוח ערכת דקדוק כולל בדרך כלל את השלבים הבאים:

לזהות את פריטי המידע ולהגדיר את החריצים: איזה מידע צריך המשתמש לספק ליישום, ואם יש סדר מסוים שבו יש לספק אותו?
עצב את תיבת הדו-שיח: קבע את זרימת הדו-שיח היעילה ביותר בין המשתמש לבין היישום.
עצב את ההנחיות: צור הנחיות שישליך את המידע הנדרש.
צפה את התגובות של המתקשר להנחיות: שקול את המילים המדוברות שהדקדוק יזהה.
זהה את חלקי הליבה והמילוי של הדקדוק שלך: זהה את מילות המפתח שיש לחפש בתגובות.
תכנן את אסטרטגיית הדקדוק שלך: קבע את הדרך הטובה ביותר לעמוד בדרישות עבור כל דקדוק, ובחר גישה מתאימה או שילוב של גישות כדי לטפל בהן.
כוונן ומקד את הדקדוק: פתור בעיות ומטב את ביצועי הדקדוק,

ביצועי מערכת

הביצועים של מנגנון הזיהוי הקולי המוגבל טובים יותר בהשוואה למודאליויות חלופיות של זיהוי דיבור, תוך שימוש בזיכרון מוגבל בעת עיבוד בקשות. לגורמים בפקד המפתחים יש השפעה רבה יותר על הביצועים מאשר על המערכת עצמה. המטרה העיקרית לפיתוח דקדוק היא תכנון עבור דיוק זיהוי מיטבי. המטרה הבאה היא לכתוב לבהירות, לשמירה ולהרחבה. המטרה השלישית היא ליצור הקשרי זיהוי יעילים.

שיטות עבודה מומלצות לשיפור ביצועי המערכת

להלן מאפייני דקדוק המשפיעים על השימוש במשאבים:

כיסוי: הדקדוק מכסה (כולל) את צירופי המילים שאתה מצפה שהשיחה תשתמש בהם. כיסוי תחתי מוביל לגדילה בעומסים מחוץ לאוצר המילים, לאישורים ולניסיונות חוזרים, אשר מגדילים את השימוש ב- CPU, את משך השיחה ואת שביעות הרצון הנמוכה יותר של מתקשרים.
דור-על: חשוב שהדקדוק לא יפיק יותר מדי על-ידי מתן ביטויים שטותיים, מכיוון שזה מקטין את הדיוק. לדוגמה, דקדוק המכיר עיר ומדינה צריך להגביל את העומס לשילובים חוקיים של ערים ומדינה.
ניתוחים מרובים: רצוי שכל משפט אפשרי בדקדוק י ניתוח מבנה טקסט ייחודי. מדי פעם, דקדוק עשוי לאפשר ניתוחים מרובים של משפט בודד. בדרך כלל, ניתוחים מרובים מציינים פיקוח בעיצוב הדקדוק הדרוש לתיקון.
מקשים שהועברו ליישום: עליך לוודא שזוגות מפתח/ערך מוגדרים כראוי.

כאשר מתקשר אומר מילה או צירוף מילים שהדקדוק אינו יכול לנתח, המילה או צירוף המילים נאמר שהם אינם דקדוקיים. ככלל אגודל, שיעור מחוץ לדקדוק של חמישה אחוזים נחשב קביל. לעתים, אפילו 10-20 אחוזים של תעריפי אי-דקדוק אינם נדירים עבור סוגים מסוימים של משימות זיהוי. שקול להשתמש באפשרויות חלופיות של זיהוי דיבור בקצב האחרון.

השהיה מוגדרת כשעה שחלף לאחר שהמתקשר מפסיק לדבר (כולל הזמן הקצוב המוגדר לסיום הדיבור) עד שתוצאת זיהוי מוחזרת ליישום. כאשר ההשהיה גבוהה מדי, חוויית המשתמש פוחתת; נראה שהמערכת איטית, מה שעלול להיות מתסכל למשתמש ומוביל לסיבוכים נוספים בממשק המשתמש.

בנסיבות קיצוניות, השהיה מופרזת גורמת לעסקאות יישום לא מוצלחות אם המשתמש מפסיק לדבר מבלי להשיג את מטרת השיחה שלו. זמני תגובה לקויים של זיהוי יכולים להיות גורמים תורם רבים:

שימוש בדקדוק גדול מאוד המכיל מאות אלפי פריטים.
אורכו הממוצע ארוך במיוחד.
כמויות גבוהות של עיבוד ECMAScript בתוך הדקדוק.
עיכובים ברשת בעת הבאת דקדוק.

הקפד לבדוק כראוי את הדקדוק לפני פריסתם בתוך מערכת פועלת חיה, כגון הפעלת תרחישי בדיקה עם צירופי מילים שונים.

הערכה של זיהוי דיבור מוגבל

שיטות הערכה

מדדים נפוצים מסוימים להערכה של זיהוי דיבור מוגבל כוללים:

קצב השגיאה של Word (WER): פעולה זו מודדת את אחוז המילים המזוהות באופן שגוי. הוא מחושב כסכום של החלפתים, מחיקות והוספות המחולקות במספר הכולל של מילים בהפניה.
דיוק הרשימה N-best: פעולה זו מעריכה את מידת הדיוק של השערות N המובילות שנוצרות על-ידי המכיר. הוא שימושי להבנת תדירות הפרשנות הנכונה בין ההצעות המובילות.
כיסוי: מדד זה מעריך אם הדקדוק כולל את כל צירופי המילים והריאציות הדרושים שמשתמשים עשויים לומר. דקדוק עם כיסוי טוב מבטיח שהמערכת תוכל לטפל במגוון רחב של יחידות קלט.
השהיה: פעולה זו מודדת את הזמן שנדרש למערכת לעבד את הקלט המדובר ולהפיק תוצאה של זיהוי. השהיה נמוכה יותר היא חיונית עבור יישומים בזמן אמת.
שיעור קבלה/דחייה של False: פעולה זו מודדת תוצאות חיוביות מוטעות ושלילית של חוויות המערכת. בעיה זו משפיעה ישירות על תעריפי ההצלחות של מתקשר והאפליקציות עבור תרחישים של מרכז אנשי קשר.

שיקולי הגינות

ב- Microsoft, אנו שואפים להעצים כל אדם בעולם לעשות יותר. חלק חיוני מיעד זה הוא עבודה ליצירת טכנולוגיות ומוצרים הוגנת וכוללת. הגינות היא נושא רב-ממדי, סוציו-טכני ומשפיע על היבטים רבים ושונים של פיתוח המוצר שלנו. תוכל לקבל מידע נוסף על הגישה של Microsoft להגינות.

ממד חשוב אחד שיש לשקול בעת שימוש במערכות בינה מלאכותית, כולל זיהוי דיבור מוגבל, הוא ביצועי המערכת עבור קבוצות שונות של אנשים. מחקר מציין כי ללא מאמץ מודע המתמקד בשיפור הביצועים עבור כל הקבוצות, מערכות בינה מלאכותית יכולות להציג רמות שונות של ביצועים בגורמים דמוגרפיים שונים, כגון גזע, אתניות, מגדר וגיל.

במקרים מסוימים, ייתכן שיהיו זלזלי ביצועים נותרים. חשוב לציין שפערי השוואה אלה עשויים לחרוג מהיעד, ואנחנו פועלים לטפל בכל הטיה או פערי ביצועים אפשריים ולמזער אותם, לשקול בקפידה את בחירת הקבוצה הדמוגרפית של השחקן ולחפש נקודות מבט מגוונות מתוך מגוון רקעים.

בנוגע לפגיעה ייצוגית, כגון סטריאוטיפ, השהיות או מחיקה של פלטים, אנו מכירים בסיכונים הקשורים לבעיות אלה. בעוד שתהליך ההערכה שלנו שואף לצמצם סיכונים כאלה, אנו ממליצים למשתמשים לשקול את מקרי השימוש הספציפיים שלהם בקפידה וליישם צמצום סיכונים נוסף לפי הצורך. אם בן אדם נמצא בלולאה, הוא יכול לספק שכבה נוספת של פיקוח כדי לטפל בהטיה פוטנציאלית או בתוצאות לא מכוונות.

אנו מחויבים לשפר ללא הרף את ההערכות ההוגן שלנו כדי לקבל הבנה מעמיקה יותר של ביצועי המערכת בקבוצות דמוגרפיות שונות ובחששות פוטנציאליים להגינות. תהליך ההערכה מתמשך, ואנחנו פועלים באופן פעיל כדי לשפר את ההגינות וההכללה, ולצמצם כל ניגודיות שזוהתה. אנו מבינים את החשיבות של טיפול בשיקולי ההגינות ושאפים להבטיח שזיהוי דיבור מאולץ מספק פלט זיהוי קולי מהימן והוגן.

הערה

מידע זה מייצג את מה שאנחנו יודעים עד כה לגבי הערכות ההגינות, ואנחנו עדיין מוקדשים למיקוד מתודולוגיות ההערכה שלנו ול לטפל בכל החששות ההוגן שעלולים להתעורר.

מידע נוסף על יישום אחראי של בינה מלאכותית

עקרונות הבינה המלאכותית של Microsoft
משאבי Microsoft ליישום אחראי של בינה מלאכותית
קורסי Microsoft Azure Learning בנושא יישום אחראי של בינה מלאכותית

קבל מידע נוסף על זיהוי קולי מוגבל

שימוש בדקדוק דיבור חיצוני

משוב

האם עמוד זה היה מועיל?

Last updated on 2026-01-13