作者tacovirus (小璋丸)
看板Soft_Job
标题[心得] 新闻网站技术细节分析
时间Thu Nov 8 01:11:19 2018
最近尝试把新闻爬虫做得系统化,也发现各新闻网站的技术问题
大致上整理了两份表格,可以知道有哪些技术债还没还
如果想去这些新闻媒体 coding 可以推测要拆的雷
https://github.com/virus-warnning/twnews/blob/feature/search-news/docs/SOUP_NOTES.md
如果觉得这爬虫有用,也欢迎抓来玩玩
只要在 Python 3.5 以上这样装就可以了
pip3 install twnews
详细请见
https://pypi.org/project/twnews/
--
世界越快 心则慢
网路越慢 心则快
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.34.64.93
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1541610687.A.C12.html
※ 编辑: tacovirus (1.34.64.93), 11/08/2018 01:19:19
1F:推 neo5277: 推推推11/08 02:00
2F:推 skitty: 请问有效率是指什麽?11/08 09:42
有效内容率 = 新闻实质内容 / 网页位元组数
广告 Script,多余的 HTML 语法,是主要因素
3F:→ yyc1217: 应该大部分都有RSS可以订阅11/08 10:29
4F:推 jerry1144: 推! 新闻分解最完整的竟然是联合跟中时...惨 11/08 14:36
※ 编辑: tacovirus (1.34.64.93), 11/10/2018 01:42:10
5F:推 alvinlin: 不错呦。收了。多谢。 11/11 18:57