[问题] 字串的关键字提取

时间Thu Mar 5 09:41:10 2020

嗨大家好，我有一个表格像是这样 http://i.imgur.com/ld7tHmC.jpg 最後一栏Note是这个球员的受伤资讯，可以看到有 right hamstring injury、concussion 而我现在只需要部位不需要其他描述，例如 sore lower back我只需要back，right knee injury只需要knee。我第一个想法是把所有部位集中成一个list，然後split字串做mapping，但这个做法有点费时。第二个想法是搜集形容词并抓形容词後的单字，但资料的字串顺序又不是那麽整齐。想问各位有什麽好的提取法吗？附上网址 https://reurl.cc/xZxR7E --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.137.30.149 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1583372474.A.EAB.html ※ 编辑: moodoa3583 (223.137.30.149 台湾), 03/05/2020 09:45:21 ※ 编辑: moodoa3583 (223.137.30.149 台湾), 03/05/2020 09:46:25

1^F：→ bjchiou: 抓right left後的第一个字，其他另外设计？ 03/05 09:49

这有点像我的想法2，但因为我有约莫2万笔资料，排序都不完全一样，而除了right,left之外也有很多不同的形容词，所以这个想法有点难度

2^F：→ ddavid: 我最近才解决一个很类似的问题（但复杂很多），我只能说以 03/05 09:56

3^F：→ ddavid: 你这个问题的规模，第一种想法有可能反而会是实作最快的。 03/05 09:57

※ 编辑: moodoa3583 (223.137.30.149 台湾), 03/05/2020 09:58:12

4^F：→ ddavid: 第二个想法只能做为万一出现不在列表中的部位时，尝试自动 03/05 09:59

5^F：→ ddavid: 抓取部位的候补想法 03/05 09:59

6^F：→ ddavid: 因为你的范围限定在球员，常见伤病种类会有一定的范围，第 03/05 10:00

7^F：→ ddavid: 一种想法未必如想像中耗时。而且可以在有列表未出现的案例 03/05 10:01

8^F：→ ddavid: 时再直接针对该案例补充关键字即可，不需要要求第一次建立 03/05 10:01

9^F：→ ddavid: List就是完整的 03/05 10:01

10^F：→ ddavid: 或者也可反过来，你先进行第二种想法做为人力添加关键字的 03/05 10:02

11^F：→ ddavid: 辅助，这样也可以节省一些时间 03/05 10:03

12^F：推 papple23g: 维持第一个想法+1 如果该栏有未包含部位就报错直到没 03/05 10:04

13^F：→ papple23g: 有报错为止 03/05 10:04

14^F：→ papple23g: assert all((body_part in note_text) for body_part i03/05 10:04

15^F：→ papple23g: n body_part_list),'需要更新身体部位的栏位:'+note_te03/05 10:04

16^F：→ papple23g: xt03/05 10:04

17^F：→ ddavid: 我自己解的问题是用多重机制共同验证来帮每个关键字算积分03/05 10:05

18^F：→ ddavid: 做排名然後优先从高分关键字选下来，但那是因为我的关键字03/05 10:06

19^F：→ ddavid: 种类甚至无法限定在名词，还可能是一个句子。你这work单纯03/05 10:07

20^F：→ ddavid: 许多，我想是不用这麽费工。03/05 10:07

了解，感谢以上大大，那我先以想法1来做，有什麽更好的解法再丢上来 ※ 编辑: moodoa3583 (223.137.30.149 台湾), 03/05/2020 12:31:57 ※ 编辑: moodoa3583 (223.137.30.149 台湾), 03/05/2020 12:32:16

21^F：→ alvinlin: 为什麽不用regex? 03/05 14:51

22^F：→ alvinlin: 把身体部位写成pattern比对即可 03/05 14:52

这也是接近想法1，但比较不好处理的是我不知道全部的身体部位，而且里面也有提到像是illness, concussion 等症状，这也是我想留下来的 ※ 编辑: moodoa3583 (223.137.30.149 台湾), 03/05/2020 15:31:13

23^F：→ alvinlin: 其实是不太一样。还有另一个选择PyParsing 03/05 17:14

24^F：→ alvinlin: http://www.ccp4.ac.uk/dist/checkout/pyparsing-2.0.1/ 03/05 17:39

25^F：→ alvinlin: docs/pycon06-IntroToPyparsing-notes.pdf 03/05 17:39

26^F：推 ddavid: 我是总觉得这个问题规模应该不至於要搞到分析语句词性XD 03/05 18:15

27^F：→ ddavid: NBA球员范围而已，光是总量可能都未必多到哪里去，部位名 03/05 18:16

28^F：→ ddavid: 称也应该重复使用的字词很多，这应该是人力可及的范围XD 03/05 18:16

29^F：→ ddavid: 而且先基本做看看，发现真的不行或将来要扩展到资料很多的 03/05 18:17

30^F：→ ddavid: 范围，再补上关键字自动萃取机能来辅助也还来得及 03/05 18:17

31^F：推 vi000246: 做词性分析，把名词提取出来 03/05 18:21

32^F：推 vi000246: 刚刚用这个试了一下成功率很高 03/05 18:25

33^F：→ vi000246: https://parts-of-speech.info/ 03/05 18:25

感谢各位的建议，後来是把notes里的字用split切开後丢进一个list，去掉长度为1的废字後做Counter，然後再把left，right等出现很多次的形容词去除，慢慢留下出想要的字 ※ 编辑: moodoa3583 (223.137.30.149 台湾), 03/05/2020 22:44:05

34^F：→ moodoa3583: 噢对，如果各位有兴趣知道的话，2000到2020年最多球员 03/05 22:49

35^F：→ moodoa3583: 受伤的部位是膝盖，然後依次是脚踝，背部，脚掌，腿後 03/05 22:49

36^F：→ moodoa3583: 肌(hamstring ) 03/05 22:49

37^F：推 shala: 只能用关键字抓吧 03/07 10:02

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

[问题] 字串的关键字提取

热门看板

赞助商连结