作者PsMonkey (痞子军团团长)
看板java
标题Re: [问题] GAE for JAVA parse HTML
时间Tue Oct 29 12:30:41 2013
原本在公司休息的时候简单回
结果原 po 说看不懂,只好重新回一次
我只是希望多一点人写 GAE,绝对不是因为看到关键字
(谜之声:欲盖弥彰阿你 [指])
※ 引述《hahaloveu (I'm girl.)》之铭言:
: 小妹是个刚毕业的社会新鲜人,
: 在课堂上学过JAVA、C等语言,不是非常精深。
这些废话就不用讲了,缺 P 币可以用其他方式 XD
: 因为工作的关系,使用了google app engine这个平台,
: 该project的功能是去解析XML及HTML,
: XML的部分经过千辛万苦查询相关资料後,有得到解答,
: 但是HTML的部分弄了很久都不知道如何下手。
GAE / GWT 都一样,有所谓的 JRE class 白名单
不在白名单上的 class 无法使用
GWT 是因为 JavaScript 本来能作的事情就跟(完整)的 Java 不一样
GAE 则是因为一些安全性、分散式(或着说云端三小的)
当然还有 $$ 的考量,所以不给你用完整的 JRE class
最主要的就是 File、socket
(还有不能用 Swing,所以要喷图... 我还不知道有啥方法 [死])
HTML parser 的核心应该还是一个高级的字串处理器
GAE 再怎麽无聊也不会去挡字串处理的东西
但是 HTML parser 的 library 为了作全套
通常会包含帮你连线 web server、处理 socket、IO stream 的鸟事
这个部份就很容易炸到 GAE 的限制
我当初的解法就是... 找一个 open source 的 html parser project
用它先写好一个 example code,只是单纯的喂字串给他
确认执行 OK 之後,再把这些 code 统统塞进 GAE 的 project 当中
GPE 就会喷一堆 error,告诉你哪些 class 他不收
慢慢砍掉那些 GAE 不收的 class,反覆确认你的 example code 还是能跑
(用标准 java application 的执行方式就不用理会那些 error)
当那些 error 都消失、你的 example code 还是能跑,基本上就大功告成了
我知道这个方法很 low 很蠢
但应该比自己去弄个 HTML parser 来的实在
当初有用古老的 HtmlParser 这个 project 弄成功过
不过後来觉得很无聊就不玩了,也没有留 code
要当我是单纯嘴炮也无访 [逃]
====
这样都还看不懂,不管你是正妹还是正太,我都无法了 Orz
--
钱锺书:
说出来的话
http://www.psmonkey.org
比不上不说出来的话
Java 版 cookcomic 版
只影射着说不出来的话
and more......
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.115.237.230
1F:→ swpoker:html要能跑javascript才有用阿~不然regex就够了 XD 10/29 13:19
2F:推 hahaloveu:我听得懂你说的方法,感谢你,我会再试试的。 10/29 14:50
3F:→ hahaloveu:另外谢谢你提醒我那样说会让人以为我别有用意QQ 10/29 14:54
4F:推 dream1124:推详细解释 我猜是卡在多执行绪的问题 10/31 21:38