作者agomi (莱姆酒)
看板bioinfo_lab
标题[情报] 我现在在做的工作...
时间Sun Jan 22 16:54:26 2006
利用阿pu写出来的东西
我们已经可以抓到第一页的那十篇paper的"目录页"
所以我今天写了一段parser
把具有WOS那个紫色标签的paper的
***我目前是假设只有具有WOS标签的paper才有citation的资料 (有反例请提出Q_Q)***
1. paper title
2. WOS的link
抓出来
然後丢到另一个地方做处理
↓ "further work" ↓
(有了WOS的link 进去之後就是那个可以看到CitedReference= XX 的网页
这时候再去对这个页面parse出CitedReferece的超连结
然後再去抓这个超连结开出的页面的原始码)
这个动作做完之後 我们可以把
1. paper title
2. 原始码
转成一个file存起来
这样就算是完成一篇paper的citation
最後只要让sysc写的parser来吃这个档案就ok
↑ 我这两天想写的东西 ↑
如果查询nod2
会发现只有最後9 10这两篇paper有WOS标志
我目前想先针对这两篇paper作处理
如果可以顺利抓到上述的两样东西
↓ 最後的判断回圈 ↓
接下来就是要去写"换页"的判断
就是查询出来如果result有1000个 那就是100个页面
要做99次的换页判断
以上. 欢迎大家讨论
顺利的话看来我们的作业有希望在三个礼拜之内结束
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 218.170.19.136
※ 编辑: agomi 来自: 218.170.19.136 (01/22 17:01)
※ 编辑: agomi 来自: 218.170.19.136 (01/22 17:03)
1F:推 JosephX:well done! 请继续加油 :) 01/22 18:20
2F:推 agomi:^^" 01/22 21:08