作者b6s (b6s)
看板Wikipedia
标题Re: [情报] 维基百科全文搜索引擎 (日)
时间Tue Apr 4 00:38:19 2006
※ 引述《jnlyu (Alan)》之铭言:
: 关键字以"台湾"为例
: http://nutch.taipedia.info/
: 搜寻结果没有乱码,但右上角的三个选项(简介 常见问题...)再搜寻後会变乱码
那部分是... nutch 的 i18n 没做好,因为对功能影响比较小,所以会晚点再修。
: http://holo.nutch.taipedia.info/
: 已经没有乱码问题(之前有碰到),右上角的选项同上有乱码情况,且似乎比较不稳
: 某些图片读不出来(搜寻後)
: 资料库还没跑完吧? 搜寻结果还不多
图片读不出来是因为 holo 这个放在另一台机器上,那台机器前面有 firewall 挡着,
而我暂时用某种 reverse proxy 转出来,但有些地方会失败。
转不出 firewall 的部分就会那样永远读不出东西,
同样的情况也会发生在 "show all hits" 上。
holo 的资料库跑完了,结果不多是因为 nutch 预设一次只会显示最前面两笔,
要按 show all hits 才会全部展开。但因为那 firewall...
我还在想办法找别的比较没问题的机器放。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.105.131.104
1F:推 jnlyu:嗯,辛苦了 04/04 01:00
2F:推 b6s:还好 :) 对了,zhwiki 才抓了 28000 页,看来要想别的方法... 04/04 01:10
3F:推 b6s:因为今天跳电停机了一阵子,就乾脆把 40000 页 index 上线了 04/05 00:41
4F:推 b6s:现在大约有 69000 页上线,应该够了。接下去来试别家 engines 04/05 17:40