作者Baudelaire (遗憾太常。)
看板Google
标题Re: [问题] 请问 tag 和断字的问题?
时间Mon Aug 14 02:09:21 2006
2-gram的衍生当然就是n-gram,看用多少字做indexing,
这是业界比较常用的方法;
机率模型在NLP里最常用的大概还是HMM,
Hidden Markov Model,然後用大量的corpus去train你的model,
因为不同的文章,比如新闻报导或者blog,所使用的字词不同,
甚至不同人使用的字词也不同,这可以让你更接近「真实」的分析。
HMM使用的时机在英文的NLP里很多,
比如说 "a red brick wall",
要怎麽分析red/brick/wall的POS,就可以使用HMM来做training。
中文比较麻烦的是根本不知道字词是怎麽被「正确」的断字,
甚至会有之前那位版友所提供的例子里「正确」的「误读」状况产生,
所以要分析起来会更辛苦。
---
之前我记得UPenn有做一个类似的分析,
不过不是用HMM,
是真的找便宜耐操的研究生去分析一卡车corpus,
然後去得到这类的机率。
---
我觉得现在讲的东西已经太专业了,如果原po有兴趣,
最好还是想办法去学校修NLP的课,
另外补充,原po在tagging那边提出的search,
通常我们会以vertical search视之。
※ 编辑: Baudelaire 来自: 24.6.214.146 (08/14 02:10)
1F:推 chive:谢谢。NLP=自然语言处理?vertical search可以举例吗?谢谢。 08/15 03:46
2F:→ Baudelaire:NLP=Natural Language Processing 08/15 13:10
3F:→ Baudelaire:vertical search是相较於单纯文本的search来说的 08/15 13:12
4F:→ Baudelaire:详细状况我不能讲太多,因为我在Yahoo!就是做这个 08/15 13:12
6F:推 chive:总之非常的谢谢你。我会继续努力的自我摸索。 08/16 23:12
7F:推 Baudelaire:不会,加油 :) 08/17 04:14
8F:推 chris:推! 08/17 23:48