[问题］list中撷取特定文字

时间Fri Jan 4 08:47:40 2019

各位前辈好，小弟不才最近自学python一个多月了目前是玩爬虫居多因为最近爬到一个网域分页的格式都没有规律所以把文字汇入到list中然後在撷取关键字但因为index是必须完全符合才能抓到我的问题是比如我要抓 (费用)NT5,000 但我已经尽力筛选tag 清单输出会像是 [‘XXXX’, ‘这门课（费用）NT5,000 目前优惠’, ‘AAAA’, .......] 我应该如何撷取谢谢前辈学长姐指教 ———————我是补充—————— 本身非什麽资讯相关科系，所以也是第一次自学语言想说用爬虫来帮我找课程（也顺便练习python），说不定有机会可以去上上就刚好看的这个网站 http://ewda.tw/ 中华民国职工福利发展协会 http://ewda.tw/modules/ewda_action/action.php?asn=3978 http://ewda.tw/modules/ewda_action/action.php?asn=3999 像这类型的分页不同分页下抓费用没问题但是抓老师姓名就一直找不到共通解目前是使用papple大提示的join() 再用位移值来抓字暂时解决「能一次套用在不同分页」撷取老师姓名但假设老师姓名如果是两个字或四个字位移值就会失效这样是不是就只能使用re来判别呢注：目前只会使用BS来解析，没有要伸手要code，因为这样我也不会进步，所以算是请教一些提示，毕竟有时候google也不知道使用什麽关键字... 先谢谢各位热心的前辈 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.247.32.41 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1546562863.A.4E1.html

1^F：推 XperiaZ6C: 正规表示式01/04 09:02

2^F：→ XperiaZ6C: 还是你只是要包含NT5000的element都要抓出来01/04 09:03

3^F：推 germun: import re 用法上网查01/04 09:08

前辈们好，我忘记打清楚一点就是这些分页没规则性，但（费用）（资讯）这类的名称字串是都会出现的所以我希望能用一个方式来抓到所有分页的这类名称字串所以只能用正规表达式就是了？以上谢谢 ※ 编辑: Niseel (27.247.32.41), 01/04/2019 09:13:57

4^F：→ InfinityGate: re，不过这感觉用xpath筛text就好了吧01/04 10:29

了解我下班再研究一下XPATH的用法

5^F：推 papple23g: (假设你的清单叫tag_list)01/04 11:43

6^F：→ papple23g: new_tag_list=[tag for tag in tag_list if ("费用" in01/04 11:43

7^F：→ papple23g: tag) or ("资讯" in tag)]01/04 11:43

谢谢papple大我晚点试试请问这样印出结果会显示 “(费用) NT 5,000” 吗因为目前困扰的就是我要的名词，前後都有多余的string ※ 编辑: Niseel (27.247.32.41), 01/04/2019 12:40:32

8^F：推 jiyu520: 你试了就知道。01/04 15:19

9^F：推 jasonfghx: 有没有网页? 01/04 17:38

10^F：推 nini200: 直接给网址 01/05 04:34

已提供 ※ 编辑: Niseel (39.10.35.241), 01/05/2019 18:13:10 ※ 编辑: Niseel (39.10.35.241), 01/05/2019 18:13:58 ※ 编辑: Niseel (39.10.35.241), 01/05/2019 18:16:49 ※ 编辑: Niseel (39.10.35.241), 01/05/2019 18:21:32

11^F：推 hoho8: https://i.imgur.com/Xlotm1d.png 不知道怎麽贴文字，所以01/06 08:00

12^F：→ hoho8: 用图片的方式 (有单纯分享文字的网站吗)01/06 08:01

谢谢h大回覆我最後是用两种方法解析出来一种就是re 一种就是String join再抓出来，觉得做出来好像拯救世界一样爽XD ※ 编辑: Niseel (39.10.35.241), 01/07/2019 21:13:33 ※ 编辑: Niseel (39.10.35.241), 01/07/2019 21:14:01 ※ 编辑: Niseel (39.10.35.241), 01/07/2019 21:14:32

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

[问题］list中撷取特定文字

热门看板

赞助商连结