作者tonytonyjan (南洋大兜虫)
看板Ruby
标题[心得] NGram 中立断词法实做
时间Sat Jul 14 00:22:49 2012
http://tonytonyjan.github.com/blog/tjngram/
有想要写 IR System Library 的冲动,
心血来潮在 RubyGems 搜寻了一下看有没有可用的 N-Grams library,
确实也给我找到几个,但可惜的是他们只有针对英文做断词,没有针对中日韩。
可想像的到英文的断词和中文的断词是截然不同的,
但现在许多文章却又中英日混杂,面对这种文章,那些 library 起不了什麽作用,
所以只好自己写一个了。
虽然不知道有没有人用 Rails 写 IR System,但除此用途之外,
使用 NGram 来爬社群网站的词汇其实也很好玩XD
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.227.144.168
2F:→ tonytonyjan:感谢!改天来整合进 Ferret 07/14 21:08
3F:推 ggegge:其实那网页里面就有 Ferret 的使用范例 07/16 22:39
4F:→ tonytonyjan:我知道,但我有重造轮子的坏习惯 07/16 22:49
5F:推 markmcm:请问这有可能跟sunspot solr 搭配使用吗? 07/19 12:33
6F:→ tonytonyjan:没研究过 Sunspot,但我想也许有人写过了? 07/23 13:31