2008年十月的文章彙整

結合 cpdetector 及 jchardet 的中文編碼偵測

2008 年 十月 28 日 (星期二) 10:44 pm
分類:電腦
標籤:,

我曾在〈中文編碼偵測〉一文提過 jchardet 這個 Java 版的編碼偵測系統。這套由知名的 Mozilla Charset Detector 移植而來的版本,大體上都能正常運作,不過,面對比較糾纏古怪的中文碼,尤其是像 GB2312 簡體中文,常會誤認為 Big5,慘呀!

根據 “Character encoding detection″ 這篇文章的評比,cpdetector 似乎是不錯的替代方案。 ……深入閱讀全文 »

錯別字

2008 年 十月 3 日 (星期五) 12:16 pm
分類:一般, 語言學

最近常看到兩個與時事有關的錯別字:

拜託,不要再讓我看到這些錯別字了呀……