בבלוג,זיינב ראסימפרט את עבודתו מה שיאפשר בקרוב לעוזרת הקולית להבין שהמשתמש רוצה תגובה דיסקרטית כשהוא לוחש את השאלה.
נרצה שאלקסה תגיב בצורה טבעית ואינטואיטיבית לרמזים שיחה
,כמו בן שיח אנושי המגיב באופן אינסטינקטיבי על ידי הורדת קולם לבקשה דיסקרטית. הקושי הטכני נובע מזיהוי לחישה מכיוון שהדיבור הלוחש הוא בעיקר לא קולי, כלומר אינו כרוך ברטט של קפלי הקול, ויש לו פחות אנרגיה בפסי התדר מאשר דיבור רגיל.
החוקרים ניסו מספר שיטות למידת מכונה (MLP ו-LSTM) על מנת להציע את הזיהוי היעיל ביותר האפשרי של לחישה.לפיכך, על ידי ניתוח רמות האנרגיה השונות של האותות בטווח הארוך, ה-LSTM יוכל להשיג תוצאות טובות, אשר ישתפרו עוד יותר אם סוף הבקשה לא ינותח(רק עבור שינויים בעוצמת האות), מכיוון שמדד בטחון הזיהוי יורד בחדות במהלך תקופה מדויקת זו.
