中文是象形文字,字數多,字形複雜。西文是拼音文字,英文只有 26 個字母,加上大寫小寫及數字元號,總數不超過 128 個,用七位二進位碼就可表達。而中文字成千上萬,要用十幾位二進位碼才能把它們區別開來, 這給存儲乃至輸入方式等都造成困難。

多音字判別方法中技術的關鍵是基於統計特徵, 特徵提取使多音字正確判音有效。特徵包含在特徵詞典中, 採用規則描述。共定義了以下特徵:

    詞內左右鄰接字

    通式為: Xi-1 Xi 和 Xi Xi+1。Xi 是當前要判斷讀音的多音字,這是處理多音字在不同的詞語中讀不同的音的情況 。例如 “人蔘” 與 “參加”、“銀行” 與 “行程”、“重量” 與 “重複” 等等 。

    左右鄰接詞

    通式為:Wi-1 Xi 和 XiWi+1 。X 是當前要判斷讀音的多音字,Wi-1 和 Wi+1 是多音字 的左右鄰接詞,這是處理多音字與不同的鄰接詞讀不同的音的情況 。例如“相當長”、“大隊長”、“長方形” 等等。

    當前詞的詞性

    例如 “數” 作名詞的讀法和作動詞的讀法,“更” 作名詞的讀法和作副詞的讀法等等。

    邊界條件

    該特徵是有的字在句首 、句末或不同位置讀音不同,更多地體現在一些語氣助詞上面 。例如 “了” 在句中和句末時讀音往往不會相同 。
 

为了让小朋友和大朋友把汉字玩得更爽,我们还精心做了“汉字猜猜”系列游戏和“就爱猜字”,它们在苹果和安卓上长这样——



欢迎关注"如果汉字"微信公众号     

如果智培微信公众号

MIP移动版     AMP移动版


    諮詢電話
    微信公众账号