主旨:中文語音辨識系統應用於聽障者職業訓練支持措施的可能性(下) (111/04/01)
文/韓福榮 臺北市立大學師資培育中心兼任助理教授
江以文、林雨萱 中華民國聲暉聯合會
(接續上篇)
二、影響ASR應用於職訓課程效益之主客觀因素
辨識正確率的數值並非呈現一致性,而是有高低起伏。從研究過程各種環境與硬體設備測試發現,以實體教室播放影片的方式授課的測試現場為例,能達到最佳辨識率的應用環境為:
1. 不具回音的教室空間
2. 影片以擴音設備播出,指向性收音麥克風置於擴音設備前至少15公分內,距離越遠辨識效果越差。
除了將環境音的干擾降到最小,並讓收音效果達到最佳化能讓ASR辨識正確率提高之外,另外影響ASR應用效益的因素為「觀看者」本身的各項條件,因本次受測聽障者呈現多元樣貌,包含障礙程度、聽辨、讀話與聽理解能力與依賴程度、是否具備相關領域基礎知識、文字閱讀及理解能力等,均導致同一份課程影片與辨識結果,在不同輔助系統與支持措施下產生不同的結果。
因此,ASR輔助系統適合應用在安靜、無噪音干擾的教室環境,且音源越接近收音裝置辨識效果越好,直接的音源輸入辨識結果也會優於二次擴大的收音。對文字閱讀理解能力佳,且有相關領域基礎知識、訊息接收來源仰賴聽大於讀話(或其他視覺線索)的聽障者,ASR輔助系統的幫助會是在關鍵字、專有名詞或艱澀詞彙的判斷與理解;對於同樣文字閱讀理解能力佳、但不一定有相關領域基礎知識,且訊息接收以對讀話(或其他視覺線索)的仰賴大於聽的聽障者而言,ASR輔助系統的幫助會是在對整體課程的概括理解。
三、ASR輔助系統與同步聽打員的合作
透過AI人工智慧將語音辨識為文字輸出已經不是遙不可及的技術,但辨識結果影響觀看品質及資訊權益甚鉅,因此即使已有88%甚至92%的辨識正確率,但若如「我們有提供24小時服務」與「我沒有提供24小時服務」,一字之差便產生截然不同的語意。
因此透過同步聽打員在ASR輔助系統逐句辨識結果產生後,馬上以使用者介面進行修正,便能將語意錯誤的狀況即刻調整到最低,觀看者即使第一時間看到錯漏字,也可以運用使用者介面回看修正後的字幕。
綜上歸納,ASR輔助系統應用模式需建立在「經過訓練的專用ASR輔助系統」﹐並在「音源輸入清楚、最少環境音干擾的上課空間」裡,「聽障者使用者有一定程度的文字閱讀理解能力」,三個基礎條件下才有機會順利運作,而持續對ASR輔助系統進行語料勘誤與擴充的優化工作、讓聽打員搭配ASR辨識結果修正等配套措施,將會是讓這套ASR輔助系統的辨識率更接近100%,達到讓聽障者充分且完整接收訊息的目標。