主旨:中文語音辨識系統應用於聽障者職業訓練支持措施的可能性(上) (111/04/01)
文/韓福榮 臺北市立大學師資培育中心兼任助理教授
江以文、林雨萱 中華民國聲暉聯合會
聽障者受限聽力障礙,需要多元管道接收課程資訊,參加職業訓練課程往往需要手語翻譯員或是同步聽打服務協助/輔助,唯職訓動輒上百甚至到500小時的課程,若是全程使用服務,不論是在手語翻譯員或是同步聽打員的人力、經費上,都是相當大的負擔與金額。另外,每年聽障者參訓人數、職種不一,業務單位即是有心編列人力與預算,也會因為不確定性太高,導致無法掌握預算數,或是該年編了卻沒有申請,隔年要再編會有困難,導致聽障者確實有職訓參訓需求時,會因為經費或人力限制,沒有適合的轉譯服務可以申請與使用。
隨著科技進步與成熟,市面上出現不少中文語音辨識(以下簡稱ASR- Automatic Speech Recognition,又稱自動語音辨識技術)軟體,目標是以電腦自動將人類的語音內容轉換為相應的文字。聽障者開始將這些軟體運用在課堂聽講、會議上,但現行中文語音辨識技術的限制是辨識率與正確率,辨識率指的是辨識出對應文字數佔總語音長度的比例,正確率則是指這些辨識出來的文字與原語音所指的字形與字義相符的比例。
中華民國聲暉聯合會長年致力於聽障者資訊平權倡議工作,從早期手語翻譯制度推動,到同步聽打窗口與服務的設立,逐步完善聽障者在各領域參與皆能獲得完整資訊的權利。筆者與聲暉於110年進行「聽障者參與職業訓練之支持系統與措施研究」,以了解利用中文語音辨識技術與相關設備、人力,進行特定課程同步字幕訓練及應用工作,並將其導入職訓課程做為支持措施的可行性,從研究結果得出以下初步結論
一、ASR輔助系統訓練與優化的重要性
本研究第一階段針對特定學程建立專用語言模型開始前,在未經任何語料擴充語訓練的初始狀態下,ASR輔助系統辨識結果僅能達到6成的正確率,若受到音源輸入不穩定的干擾,辨識率及正確率會再下降。
專用語音模型在輸入一定時數長度的語料訓練後,由聽打員針對辨識結果修正與勘誤,。訓練後的語音模型平均辨識正確率為(正確字數/總字數)88%,最高為92.71%,最低為85.42%。
在針對特定課程或領域建立語音模型的前提下,至少需要40小時以上的語料擴充,並且搭配一次的人工勘誤修正,便能將正確率提高至平均值88%。換句話說沒有經過訓練語音模型所產出的辨識結果會因辨識率太低,反而對觀看者產生閱讀上的干擾或訊息理解的誤判。
因此ASR輔助系統必須針對其專用領域進行一定時數的語料擴充與訓練,並配合至少一次的人工校正與勘誤的優化過程,才能初步應用在實務場域,後續持續進行勘誤將更有效提升辨識正確率。
(未完,請接下篇)