參與 COSCup 2006 的背景思考

2006 年 十月 23 日 (星期一) 11:29 pm
分類:電腦
標籤:, ,

從 jserv 的網站看到了 COSCup 2006 這篇文章,才想起來似乎該為即將在本周末舉辦的這場大會寫點東西,尤其是我參與其中的緣由及背後思考。

COSCup 的全名是 “Conference for Open Source Coders, Users and Promoters”。從這活動的官方網站上,可看出主題多元而豐富:

如果你對程式開發有興趣,有三個 Coder session 可以讓你吃得夠夠(Web-Oriented Architecture、羽量級桌面環境、第三屆自由軟體中文輸入工作坊);如果你想多了解一些 open source 軟體的使用,可以參加「Open source 數位生活」和「Open source 最佳實踐」等 User session;而在 Promoter 部分,有三個 Linux distribution 將來現場展示並為你安裝。不論你是新手還是老手,相信都會滿載而歸!

連我都忍不住想鼓掌叫好:這真是國內 open source 相關研討會當中最讓我心動的一次啊!

忝為受邀在其中「中文輸入工作坊」分享心得的一員,其實有點惶恐。畢竟我雖受邀主講「中文未知詞偵測淺釋」,但嚴格來說,我並不是這技術的參與者,這只是我在從事其他應用主題時因為需要而稍微涉獵、思考的課題。

由於在可想見的半年內,自己已有兩三個研究題目要進行,所以對於「中文斷詞」的主題,雖然心中蘊釀了些想法已經有半年了,不過主要都是鎖定在應用層面,而不是核心的演算法;而且也都還停留在蘊釀期,暫時還沒時間付諸實行。

以應用的角度來說,我一直期待能有個斷詞模組,具有以下特性:

  1. 好用的 API,至少要像 hao 的 cscanner 一樣好用。
  2. 如果能再加上 tagging 的話,也希望能像大陸 ICTCLAS 那樣好用。
    (事實上,我私底下都是用以上這兩套來玩,再外掛個繁簡轉換模組。)
  3. 多方參考典型的應用需求,讓它容易 plugin 至典型的應用環境,像 Lucene 這套搜尋引擎核心。
  4. 最好是盡早從 interface definition language (IDL) 角度思考,以方便植入多種程式語言,或者便於產生 wrapper(我在意的是 C++, Java, C#, Perl, Python, Ruby)。
  5. 最後,當然是要 open source 的啦……我認為這種中文資訊處理的基礎建設應該是全民共享的,不應據為己有造成競爭力的門檻。

這就是我之所以會對斷詞相關計畫(libtabe、新酷音ELUTE 等)持續關注,甚至發言的原因。如果有更多同好對這方向感興趣,我就可以省下不少工夫了,可以花多點時間在更上層的應用。

在這次大會上,能與許多聞名已久的同好交流,相濡以沫,樂事也。只可惜當天傍晚我必須去勘察婚宴場地,不克在晚上的 “Birds of a Feather” 繼續和大夥兒腦力激盪。


◤建議您一併閱讀以下文章:


留言回應

[檢核碼]  


Allowed XHTML tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

本站已啟用 spam 防護機制。為避免系統誤判,請在按下按鈕之前,先備份您的留言,以防不測。如果您一直無法順利留言,請改用 email 方式。
此外,如果您想留的言與本篇文章及討論串無關,也請轉而點選這裡。謝謝您!