發音變異的決策樹模型
使用概率來模擬發音變異可以增強手寫規則的效率。Riley(1991)和 Withgott and Chen(1993)提出了另一種手工書寫規則的方法,這種方法被證明是很有用的。這種方法使用決策樹(decision tree),特別是使用一種分類回歸樹(Classification and Regression Tree,簡稱CART),從標注語料庫中自動推導出詞匯到表層發音的映射關系(Breiman et al.,1984)。決策樹提取由特征集所描述的情況,并把這種情況分類為范疇和相關的概率。在發音問題研究中,可以訓練決策樹來提取一個詞匯音子和它的各種上下文特征(包圍的音子、重音、音節結構信息以及詞匯的等同性),并選擇一個適合的表層音子來實現它。我們可以把在前面的錯拼更正中使用的含混矩陣看成是一種蛻化的決策樹,因此替代矩陣取一個詞匯音子作為輸入,然后輸出在潛在的表層音子中的一個概率分布來替代這個詞匯音子。決策樹的優點是它可以從標注語料庫中自動推導出來,而且都很精確。決策樹只提取相關的特征,所以數據稀疏問題比含混矩陣少一些,因為含混矩陣要以每個相鄰的音子作為條件。
例如,圖1是根據Switchboard語料庫得出的關于音位/t/發音的一個決策樹。這個決策樹不包括閃音化(閃音化由另外的決策樹來描述),但是它模擬/t/在輔音前比在元音前更可能脫落的事實。注意,實際上這個決策樹自動推導出了元音類和輔音類。另外還要注意,如果/t/沒有在一個輔音前面脫落,它就很可能是沒有除阻的。最后還要注意,/t/很容易在音節頭的位置脫落。
對于發音的決策樹模型有興趣的讀者,可以參閱Riley(1991)和Withgott and Chen(1993),也可以參閱關于決策樹的導論性教材,如Russell and Norvig(1995)。
圖1
圖1 根據Switchboard語料庫得出的關于音位/t/發音的經過手工修剪的決策樹(由Eric Fosler-Lussier提供)。這個特殊的決策樹沒有模擬閃音化,因為閃音已經在詞典中列出了。這個決策樹能夠自動推導出元音和輔音范疇。我們在每個葉子結點上只列出了最可能的實現情況。
濟南翻譯公司