各地方言分類目錄
關于分詞規范的探討
《語言文字應用》推出中文信息處理專欄,并在第一期發表關于自動分詞的文章,極有意義,對引起爭鳴、加深研究很有好處。下面提出本人的不成熟的看法,供進一步討論。一 現行分詞規范中的問題
現行分詞規范GB13715(下面簡稱“規范”)雖經過多次討論才定稿,但仍有一些問題。除了在該規范編制說明中解釋過的(有些解釋難以令人滿意)以外,再舉出一些:
(1)以詞類作為規范分詞單位的基礎。詞類系統本身尚無公認標準,如何將詞入類也尚無規范可循。如,許多人認為副詞是封閉的類,但有人指出某些詞如“全速”,“穩步”,“大力”等能用做狀語且只能用做狀語,應歸入副詞,這樣一來副詞就不封閉了。
(2)動詞的重疊形式。規范要求把AAB形式的動詞切成AA/B,有時并不合理。如“散散/步”,“開開/心”,切開后語義上無法解釋。
(3)語綴。職務名稱“教育局長”,語義上理解為“教育局之長”,但按照規范只能切成“教育/局長”,不但不合語義,且同動賓結構詞組相混。
(4)縮略詞語。縮略詞語如“中葡關系”,“巴以會談”,“穆克兩族”,“隴海線”,“京九鐵路”,“科工貿集團”、“老少邊窮地區”等切分原則不清楚。
(5)專名。國名不切分,一般機構名要切分,這有可能造成兩難困境,因為國家有合法性等問題。二 不同的應用系統對分詞單位有不同要求
分詞規范難以統一,重要原因之一是不同的應用系統對分詞單位有不同的要求。例如:
(1)以詞為單位的鍵盤輸入系統為了提高輸入速度,把一些高頻詞組(甚至只是頻繁接續的幾個字)作為輸入的詞單位。
(2)校對系統將含有易錯字的詞和詞組作為分詞單位。此外,校對系統要求分詞單位較大,以便檢查被校對文章內的詞間二元接續關系是否正確。
(3)簡繁轉換系統收集簡繁對應不唯一的字所組成的詞和詞組,以便在詞語層面上消除轉換的不確定性。
(4)語音合成系統收集多音字所組成的詞和詞組,以便在詞語層面上確定字的發音。
(5)檢索系統的詞庫注重術語和專名,且要求分詞單位較小,以便提高查全率。
(6)機器翻譯系統的漢語詞庫收詞要考慮同英文詞的對應。三 對分詞規范的設想
書面漢語是字的序列,詞沒有明確邊界。硬要把漢語的字序列切分成類似英語的詞的序列,即簡單地在字串內加一些分隔符,會遇到無窮無盡的兩難問題,對于實用系統的開發會起阻礙作用。與其削足適履,不如從漢語的實際出發,放棄詞的剛性概念,制定一個柔性的、帶詞內結構的規范。我們初步設想該規范包括如下四部分和一個附則:
(1)分詞單位下界,即哪些情況不能切開。分詞單位可大可小,我們把作為下界的分詞單位稱作基本詞。許多情況下,基本詞就是GB13715所規定的分詞單位,但對GB13715中難以操作的和不統一的規則進行修改,總的原則是能切開的盡量切開(這里談的是基本詞的切分原則,不是分詞單位的切分原則)。比如:動賓、動補、偏正結構中可擴展的一律切開,二字以上詞語的前加成分、后加成分同詞干一律切開,表示兒化音的“兒”同前面的詞一律切開,二字以上地名的通名與專名一律切開,國家名同一般機構名一樣切分,表示月份、星期、陰歷日期的“月”、“星期”、“禮拜”、“初”同數字切開,重疊的動詞一律切開,表示概數的并列數字要切開,不成詞的并列縮略成分要切開,等等。
(2)分詞單位上界,即哪些情況必須同其相鄰成分切開,如標點符號同其相鄰成分之間,句內主語謂語之間,結構助詞“的”、“地”與其后鄰成分之間,多數連接詞與其相鄰成分之間,等等。
分詞單位上界應允許下列結構成為一個分詞單位(但不是必須合起來):簡單動賓、動補、形賓、形補、偏正結構,動詞和形容詞的各種變形結構(AAB,A了一B,ABAB,AABB等),時間短語,處所短語,數量名短語,數量短語,數詞短語,縮略語(包括部分縮略),地名上下級全稱,人名全稱,機構名全稱,商品名全稱,術語全稱,詞綴所轄范圍,等等。
(3)上下界之間的分詞單位及其內部結構。在上下界之間,分詞單位的大小允許有較大的靈活性,只是要求組合型歧義字段和交集型歧義字段不能錯切,要求每個分詞單位都應是一個完整的語法成分,并給出內部結構。對分詞單位內的結構劃分方法,應分別不同情況給出若干規則。機構名、裝置名、產品名等應該在定名時由權威部門或權威人士給出名內結構,如國內機構名由該該機構或其上級管理部門給出名內結構,國外機構應由有關部門在定出其漢譯名的同時給出名內結構。
(4)基本詞表。配合下界,應有一個基本詞的表,收集內部不可切分之詞。非專名、非術語的基本詞應盡量收全,專名中可列舉的應專表列舉,常用基本術語應專表列出。
附則:對于支持上層應用系統的分詞系統,若上層應用系統沒有提出需要,可以不給出分詞單位的內部結構。
此外,考慮到語言學、信息處理方面的需要。可另有一個不屬于基本詞的常用詞語表,表內的詞語應給出內部結構,入表與否的基本依據應是頻率。各個面向應用的分詞系統可以有自己的詞庫。各種詞表、詞庫的格式設計問題屬于語言學研究和軟件接口方面的問題,無須在規范中論及。
下面給出若干分詞單位內部結構實例:
(全 速),(壓 倒),(性 教育),((不 能)不),(前 不久),(午 后),
((十 (七 八))歲),((中 小)學) ,((京 九)鐵路),((科 工 貿)集團),
(峨眉(大 酒樓)),((中華 人民 共和國)((地質 礦產)部)(地質 科學院)),
(香港 (特別 行政區)),(牡丹 江),(((古 生物)學)家),((教育 局)長),
((((世界 戰爭)((不 可)避免))論)者),(經常 性),((多 極) 化),
(計算 機),(中央 (處理 器)),((((正 負)電子)(對 撞)) 機),
(司馬 相如),(喬治 · 布什),((散 散)步),((散 了 散)步),
(五 分之 一),((一九九七 年)(二 月)((二 十 四) 日)),((第 一)名),
((哪 管)(三 七(二 十 一)))。(宋柔 北京工業大學計算機學院)
[i] 本文工作得到國家自然科學基金,國家863計劃,北京市自然科學基金,北京市教委研究發展基金的支持
猜你喜歡
網友關注
- 四川人來京的奇葩一天游
- 續集——容祖兒
- 纏綿游戲——梁漢文
- 冷雨夜——beyond
- 閩南語方言——關于介紹
- 各地方言版“我愛你”
- 四川話詞匯構成(一)
- 湖南方言土話大全
- 閩南語方言——關于年齡
- 幽默的四川方言
- 東北話速成寶典(上)
- 閩南語方言——敘述時間
- 山東海陽方言情書
- 四川話詞匯構成(六)
- 喬布斯情書大改寫,網友比拼方言版
- 閩南語方言——辨別身份
- 廣州為什么叫羊城呀
- 笑談廣東話粗口
- 閩南語方言——關于日期
- 朋友——譚詠麟
- 粵語歌曲學習--無賴(鄭中基)
- 爸爸去哪兒各地方言版大全
- 學生爆笑方言聽寫古詩
- 湖南方言鬧笑話
- 閩南語方言——關于所有物
- 內蒙方言詞典
- 閩南語方言——談論活動
- 東北話速成寶典(下)
- 閩南語方言——收音機和電視機
- ok啦——五月天
- 全日愛——黎明
- 常用閩南語方言
- 全國各地如何叫老婆
- 讓一切隨風——鐘鎮濤
- 重慶方言
- 上海話怎么稱呼人
- 卡啦永遠ok——譚詠麟
- 湖南方言的笑話大全
- 閩南語罵人大全
- 岷縣方言版情書
- 歲月無聲——beyond
- 四川話詞匯構成(四)
- 閩南語方言——問候語
- 閩南語方言——談論事物
- 啾啾啾——五月天
- 上海話問候打招呼怎么說?
- 水中花——譚詠麟
- 廣東話撲街的意思
- 大家來學藏語
- 粵語歌曲--all about you(鄧紫棋)
- 西安碎碗的笑話
- 官家山版方言情書
- 閩南語簡介
- 閩南語方言——談論日常生活
- 閩南語方言——關于拜訪
- 四川話詞匯構成(三)
- 高邑方言版情書
- 閩南語方言——課堂用語
- 四川經典段子
- 東北話中的“磨嘰”
- 四川話詞匯構成(二)
- 風流——陳小春
- 東北方言小幽默笑話之坐出租
- 杭州話同普通話詞匯對照
- 閩南語方言——辨別物品
- 東北話中的“整”
- 閩南語方言——關于語言
- 臺灣土話—臺灣諺語之美生命禮俗篇
- 閩南語方言——關于購物
- 河南方言十則
- 傻女——陳慧嫻
- 粵語歌曲學習--where did you go(鄧紫棋)
- 閩南語方言——提問題
- 錘子
- 四川話詞匯構成(五)
- 臨夏方言版情書
- 閩南語方言——詢問地址
- 茂名方言笑話
- 閩南語方言——年、月、日
- 一生中最愛——譚詠麟
- 閩南語方言——形容物品、度量、比較
精品推薦
- 哈密地區05月30日天氣:晴,風向:無持續風向,風力:<3級,氣溫:23/10℃
- 瓊海市05月30日天氣:多云,風向:無持續風向,風力:<3級,氣溫:35/26℃
- 米泉市05月30日天氣:陰,風向:無持續風向,風力:<3級,氣溫:25/14℃
- 輪臺縣05月30日天氣:晴,風向:無持續風向,風力:<3級,氣溫:24/11℃
- 烏蘇市05月30日天氣:陰轉晴,風向:無持續風向,風力:<3級,氣溫:26/12℃
- 天門市05月30日天氣:多云,風向:無持續風向,風力:<3級,氣溫:27/21℃
- 臺中市05月30日天氣:多云轉陰,風向:北風,風力:3-4級轉<3級,氣溫:33/24℃
- 黃南州05月30日天氣:小雨轉中雨,風向:東北風,風力:<3級,氣溫:23/8℃
- 白城市05月30日天氣:多云,風向:東北風,風力:<3級,氣溫:25/14℃
- 久治縣05月30日天氣:小雨,風向:東南風,風力:<3級,氣溫:18/5℃