文件分類 Data Set
2005 年 五月 25 日 (星期三) 11:56 am分類:電腦
標籤:自然語言處理
在 machine learning、AI、data mining 等領域,data set 的質與量,相當程度主宰了研究的品質(少了大樣本,等於對某些演算法宣判死刑),乃至後續的評估。
然而,並非所有研究議題都很幸運,擁有質量俱佳的 data set。分類 (classification) 問題有個老字號的 UCI Machine Learning Repository 可用,但自然語言處理 (NLP) 的研究者,尤其是走 statistical NLP 方向的人,就常為語料庫 (corpus) 傷透腦筋。
五年前在研究文件分類 (text categorization) 問題時,曾寫了一些 robot 去蒐羅新聞網頁,也曾私底下給幾位朋友做碩士論文的 data set;然而,土法煉鋼終究不是辦法,還是得找找看有沒有合用的中文 data set ── 尤其是過了這麼多年之後。
是呀,這麼多年都過去了,中文學界似乎尚無 benchmark 地位的文件分類對象;好吧,只能退而求其次,找找看有沒有 data set。
以下整理一些可用的文件分類 data set。為了對照起見,也把英文列進去。
- Reuters-21578 Text Categorization Test Collection
-
- 語文:英文
- 文章篇數:21,578
- 大類:5(分類架構)
- 次類:672(加總所有分類架構)
- 使用權:自由下載
這算是英文文件分類領域的標準 benchmark。尤其在 Yiming Yang 的兩篇論文:An Evaluation of Statistical Approaches to Text Categorization 和 A Re-Examination of Text Categorization Methods 出現之後,任何嚴謹的文件分類研究,都得通過這珠穆朗瑪峰的考驗。Reuters-21578 也有後續的新版 RCV1,但還太新了,以它為基礎的研究仍不多見。
- FJU Test Collection for Evaluation of Chinese Text Categorization
-
- 語文:繁體中文
- 文章篇數:28,011
大類:5次類:99- 小類:82
- 使用權:登記,自由下載
由輔大圖書資訊學系曾元顯教授所編纂,雖然語料內容有點兒……呃,敏感,對在台灣的研究者來說,也稍嫌隔閡。但若只是做為 blackbox 來用,也還好。
- TanCorpV1.0 中文文本分類語料庫
-
- 語文:簡體中文
- 文章篇數:14,150
- 大類:12
- 次類:60
- 使用權:自由下載
由中國科學院計算技術研究所的博士生譚松波編纂。比較特別的是,語料本身已先經過他們實驗室自家的 ICTCLAS 斷詞,用起來比較方便。
- 中研院現代漢語平衡語料庫 3.0 版
-
- 語文:繁體中文
- 文章篇數:9,197(去除不含 metadata 的
ywbird2檔案之後) - 大類:6(語料庫裡未標示;僅見於技術報告)
- 次類:76
- 使用權:購買(原始素材)
嚴格來說,這語料庫並非專為「文件分類」任務所設計,且規模較小;但優點是:已附完整的斷詞、詞類標記,可排除前置處理的問題,或可做為文件分類系統初期小規模 pilot study 之用。
雖然此語料庫有對外開放 Web 版 UI(4.0 版、3.0 版),但此管道限制重重,只能查詢,無法取得原始素材,尤其是 metadata ── 少了這個,怎麼知道文件是屬於哪一類呢?所以,如果想拿它研究文件分類,還是得回到原始素材。



追蹤留言回應:以
引用通告 (trackback):![[add to funP]](http://william.cswiz.org/blog/wp-content/themes/william/images/add-funp.png)
![[add to HEMiDEMi]](http://www.hemidemi.com/sticker/user/roxytom.bluecircus.net.gif)
![[add to udn bookmark]](http://bookmark.udn.com/html/help/80_20_02.gif)

2005 年 五月 26日 於 10:21 pm
類別數總共只有一百多類,根據文獻上習慣的認知,大類應該是 10 類,而最常被使用的類別總數則為 90 類。
這是指 Reuters-21578 裡的 TOPICS 分類架構而言。其他分類架構還有 EXCHANGES, ORGS, PEOPLE, PLACES 等,次類別總數才有可能為 672 個。
類別數總共只有 82 類,大類(訓練文件超過 200 篇)則約有 25 類。
2007 年 三月 23日 於 6:31 pm
您好:
我是華梵大學的研究生,論文方向是做中文文件分類,目前希望利用不同的關鍵詞擷取方法來做應用,因為對此方面的議題知道甚少,不知您能否提供相關文獻,讓我有資料可以參考,若用詞不當,敬請見諒,謝謝。
2007 年 三月 24日 於 10:28 am
您好:
如果這是你的碩士畢業論文,我想,你的指導老師應該有給你一些建議吧?
如果這是你自己的研究,不妨先從曾元顯老師的〈文件主題自動分類成效因素探討〉一文當成出發點:
2007 年 三月 25日 於 12:44 am
您好:
由於有私人的因素,希望能私底下由信件聯絡,不管如何,謝謝您。