作者Darlsa (WSP)
看板R_Language
标题Re: [问题] NLP英文文章处理
时间Wed Mar 14 21:25:50 2018
嗨,我之前处理tm的时候,也有遇到同样的问题,
我要抓双字词的出现频率,但tm包都会直接分成两个字,
例如「social design」会被分成「social」跟「design」,
我的做法是直接把两个字的空格去掉,黏在一起,然後用gsub()把原文替换成黏起来的,
这样tm包在处理的时候,就会认为是一个单字了。
希望能够解决你的问题。
※ 引述《piercelin (pierce)》之铭言:
: [问题叙述]:
: 大家好,最近在练习用R跑NLP,目前处理英文文章,在断词方面我想使用自己的
: 词库进行断词,例如文章中"My name is Pierce",正常断词会断在空格处变成"My" "name"
: "is" "Pierce",但我想使用自己的词库让断词变成:"My name" "is" "Pierce"。
: 目前Google关键字name entity recognition已经搜寻过,试过openNLP package,
: 但都没有办法达到我想要的效果(使用自己的词库进行断词),请问其他有经验的大大有
: 什麽解决的办法吗?
: [环境叙述]:
: R version 3.4.2 (2017-09-28)
: Platform: x86_64-w64-mingw32/x64 (64-bit)
: Running under: Windows >= 8 x64 (build 9200)
: [关键字]:
: NLP、断词、name entity recognition
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.161.230.25
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1521033954.A.E52.html
1F:推 newdawn1106: 谢谢你,你的方法我目前正在尝试,成功了再上来回覆 03/16 19:12
2F:→ newdawn1106: 给可能需要的人 03/16 19:12
3F:推 piercelin: 感谢D大的分法,英文断词确实比较难像中文依样给予自订 03/25 14:11
4F:→ piercelin: 词库(原谅小弟不才QQ),靠着大大的方法成功解决问题, 03/25 14:12
5F:→ piercelin: 谢谢! 03/25 14:12