作者moodyblue ()
看板Web_Design
标题[心得] Search Console设定SEO robots.txt文件
时间Sun May 31 22:08:02 2020
【Google Search Console】设定SEO robots.txt文件,告诉搜索引擎哪些网页不适合关
键字搜寻
网志图文版:
https://www.b88104069.com/archives/4510
robots.txt是网站SEO重点文件,本文以赞赞小屋网站的Google Search Console涵盖范围
报告为实际范例,介绍robots.txt文件的作用以及如何编写,可以提高网页收录和关键字
搜寻的效率。
一、Google Search Console涵盖范围
登入Google Search Console之後,左边栏位选择「涵盖范围」 ,这里共有四个类别,将
游标移到每个类别右下角的问号会有相关说明,其中「有效」指的是Google已经建立索引
的网页,意思是网站有948个网页文件被收录在Google图书馆,当有人搜寻和网页有关的
关键字,Google会考虑呈现该网页,网站SEO便是致力於提高被Google选中的机率。
二、详细资料
同一页面下方的详细资料中,有效状态的网页又分成两个类型:「已提交并建立索引」和
「已建立索引,但未提交至Sitemap」。已提交Sitemap意思是自己有写好一份网页目录提
交给Google参考。此时我的Wordpress总共有891篇文章,也提交了Sitemap,Google只收
录869,没有照单全收这倒是可以理解,但是有79篇不在我目录里面,Google却帮我建立
索引了,这比较奇怪,为了网站SEO有必要进一步了解,点击进入明细清单。
三、已建立索引,但未提交至Sitemap
看了明细比较清楚。「
https://www.b88104069.com/profile」是赞赞小屋网站的介绍页
面,「
https://www.b88104069.com/」是网站首面,因为我是利用PHP程式让Wordpress自
动产生Sitemap,只会有文章页面,这两个页面确实会漏掉,Goggle帮忙收录最好。
其余网页以「
https://www.b88104069.com/archives/date/2015/03/page/6」和「
https://www.b88104069.com/archives/author/b88104069/page/60」为典型,从网址结
构大略可知是依照日期和作者的分页目录,日期还有些久远,这应该我以前有设定过相关
网站机制,现在已经不用了,没想到Google还留着。
四、网站分页目录
实际浏览网页,果然和我猜想的一样,像这样的网页目录页面其实并没有全部文章内容,
如果真的出现在搜索结果,读者点进来发现不如预期的话,马上离开,这个讯息会反馈到
Google那里,Google因此会降低网站分数,对於SEO不是件好事。
五、robots.txt文件
这种事读者不高兴、Google不想要、我当然也不喜欢。为了有效避免,SEO技术中有一种
robots.txt文件,可以很清楚告诉各家搜索引擎,网站中有哪些网页并不是要给读者的,
如此一来,提高了网路读者的使用者体验,同时也增加搜索引擎收录效率。以Goggle为例
,www全球资讯网这麽多网站网页,如果能预先知道哪些没有必要收到图书馆中,大大减
轻馆员工作负担,利己利人。
robots.txt文件必须放在网站入口、亦即网站根目录,没有架过网站的读者,把网站想成
电脑资料夹、网页是资料夹里的文件,应该会比较容易理解。截图是赞赞小屋网站范例,
第一次看可能难以理解,同样以电脑文件,Windows里面有很多系统文件和使用者操作无
关,网站也是如此,可想见会有很多网站运作有关的程式文件,这里很多的「Disallow:
」就是要避免这些技术被Google收录为www网页,类似於Windows系统隐藏文件的效果。
六、Search Console说明
由於对双方有利,Google在Search Console说明中心提供很多robots.txt的说明文件,具
体到完整语法和示例语句,有兴趣读者可以参考。
七、遭到robots.txt封锁
到这里已经基本了解robots.txt文件,回到第一步骤涵盖范围中有个「排除」,有2976个
之多,其中237个是被robots.txt文件挡掉的网站文件,可想见如果没有robots.txt的话
会很麻烦。
以第一个被排除的网页为例:「
https://www.b88104069.com/archives/category/journey」,这是分类页面的网页,参
照第五步骤的「Disallow: /archives/category/」,robots.txt的实际作用和如何设定
应该很清楚了。
八、robots.txt的Disallow设定
终於到达本文最後步骤,依照Google Search Console的索引报告相对应修改robots.txt
文件:「Disallow: /archives/date/」、「Disallow: /archives/author/」。
这篇文章出现了几次Sitemap,从Google Search Console网站工具上便可知道SEO少不了
Sitemap,以後在系列文章会再作介绍。另外在涵盖范围的报告中有很多类别,这篇文章
是集中在robots.txt排除的部份,其他部份同样留後往後的系列文章。
延伸阅读:
Google Search Console除了网站搜寻量,可查询网页关键字排名报告,转Google文件或
Excel
https://www.b88104069.com/archives/4484
Google Analytics网站分析与Google Search Console网站排名,两大工具资料共用容易
卡死的盲点
https://www.b88104069.com/archives/4430
Google Adsense广告拖慢网站速度不利SEO?删掉重覆的网页Async Script非同步程式码
https://www.b88104069.com/archives/4420
--
周末,我们继续Excel:=>21.心得=>5.其他=>3.office
会计人的Excel小教室:
https://www.facebook.com/acctexcel
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 183.209.227.137 (中国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Web_Design/M.1590934094.A.683.html