[翻译] 「让 AJAX 网页可以被网路爬虫读取」建议书

时间Mon Oct 12 23:58:00 2009

中文翻译来源：http://pt2club.blogspot.com/2009/10/ajax.html ================ 原文网址： http://googlewebmastercentral.blogspot.com/ 2009/10/proposal-for-making-ajax-crawlable.html 今天，我们很兴奋地提出「让以 AJAX 为基础的网站可以被网路爬虫读取」的规格建议书。这将有益於网站管理者和使用者在制作丰富、互动的 AJAX 网站时，可以让所有的搜寻引擎读取到想要被搜寻到的部份。我们相信，这类的内容如果可以被网路爬虫读取以及被索引，将会让网路有长足的进步。当 AJAX 网站受到使用者欢迎的同时，搜寻引擎并无法读取这些网站的内容。我们的最新调查显示：有 70% 的网站在 form 或是其他地方使用了 JavaScript。当然，大部分的 JavaScript 并不是 AJAX，但是如果搜寻引擎可以处理、索引 AJAX 的内容，开发者就可以在他们的网站上做出更多丰富的内容，而搜寻引擎依然找得到。下面是这份建议书希望达到的目标： →当网站成长时，所需要的变动是最小的 →使用者跟搜寻引擎看到的是相同的内容（无须 cloaking） →搜寻引擎可以直接让使用者导向到 AJAX 的 URL （而不一个静态复制网页） →网站拥有者有方法可以验证他们的 AJAX 网站显示正常，也因此网路爬虫可以读取所有的内容。下面是我们初步建议书当中，搜寻引擎处理、索引 AJAX 内容的方式： →把 stateful 的 AJAX 页面的 URL fragment 稍作修改：无论何时，直接读取 stateful 的 AJAX 页面都会显示一样内容。这些页面可以变成搜寻结果。我们想把像这样的 URL 「http://example.com/page?query#state」加上一个 token 成这样「http://example.com/page?query#[FRAGMENTTOKEN]state」以作识别。在检视网路上的 URL 之後，我们建议使用惊叹号「!」。在搜寻结果当中显示的 URL 会像这样「http://example.com/page?query#!state」。 →使用 headless 浏览器，让你的 web server 有一个 HTML 的 snapshot。 headless 浏览器用来读取 AJAX 页面，然後最终浏览器的结果产生 HTML。只有特别标记的 URL 才传给 headless 浏览器处理。在 server 端作这件事情时，网站拥有者可以控制 HTML 的产生，也就可以轻松地验证所有的 JavaScript 是否正常执行。 HtmlUnit —open source、没有 GUI 的 Java 程式— 就是一个 headless 浏览器的例子。 →允许搜寻引擎的爬虫去读取有对 state 作 escape 的 URL URL fragment 并不会随着 request 送到 server 去，所以需要稍微变更 URL 以读取该页面。同时，这也会让 server 启用 headless 浏览器去产生 HTML 而不是传回有 JavaScript 的页面。此外，既有的 URL—使用者看到的那些—则会用平常的方式处理，不会启用 headless 浏览器。我们建议 escape state 资讯，然後把它加到 query parameter 当中，变成一个 token。用上头的例子，URL 可能会长这样：「http://example.com/page?query&[QUERYTOKEN]=state」。依照我们对现在网路上 URL 的分析结果，我们建议用「_escaped_fragment_」来作为 token。建议的 URL 会变成：「http://example.com/page?query&_escaped_fragment_=state」 →在搜寻结果当中，显示原来的 URL 为了改善使用者经验，这会让使用者直接连回 AJAX 页面。搜寻结果当中显示原始的 URL （如前面的例子：http://example.com/page?query#!state）就可以做到。搜寻引擎可以检查被 Googlebot 索引的文字，是否跟使用者看到的一样（或是子集）。总结来说，如果一个 stateful 的 URL，例如：「http://example.com/dictionary.html#AJAX」，同时给使用者或网路爬虫使用的 URL 会变成「http://example.com/dictionary.html#!AJAX」，而可以被爬虫爬的 URL 会变成「http://example.com/dictionary.html?_escaped_fragment_=AJAX」，但使用者存取还是用「http://example.com/dictionary.html#!AJAX」 -- 侃侃长论鲜窒碍首页：http://www.psmonkey.idv.tw 众目睽睽无心颤 Blog：http://ps-think.blogspot.com 茕居少聊常人事杀头容易告白难欢迎参观 Java 版（@ptt.cc） \囧/ --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 61.20.165.96

1^F：推 SMUGEN:糟糕需要这个东西但这篇却看不太懂只好先给推~~~ 10/13 00:18

2^F：推 tomin:看不懂　是同一页要能处理三类URLs 且输出都要相同? 10/13 00:29

3^F：→ TonyQ:简单来说 , 原本的ajax 操作时要加锚点标示目前状态. 10/13 07:58

4^F：→ TonyQ:这是identify , 用来识别当前页面的究竟是哪一页 , 10/13 07:58

5^F：→ TonyQ:其次是要有可以只用这个锚点资讯 , 就产出完整html的page 10/13 07:59

6^F：→ TonyQ:简单来讲只是变成两道工 , 跟之前摆a / 里面放可连至完整页 10/13 07:59

7^F：→ TonyQ:但是onclick return false 做 ajax处理的方案有异曲同工之妙 10/13 08:00

8^F：推 tomin:唔　就是要做成picasa web那样? #xxxx可以连到某照片? 10/13 08:02

9^F：→ adxis:会让人觉得controller又得做在server端了? 10/13 16:47

10^F：推 Peruheru:example.com的网站，用火狐连都会显示很好笑的结果XDD 10/20 19:33

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Ajax 板

[翻译] 「让 AJAX 网页可以被网路爬虫读取」建议书

热门看板

赞助商连结