最近担任一个大中型英文网站的第三方SEO顾问,因为某些原因,网站某部分的URL需要更改,出现几十万页面级别的301和404。怎样才能统计到新页面被Google索引了没?其实可以利用Google管理员工具,就可以统计到这些新页面被Google索引了多少,并且还可以比较准确地获得网站整体在Google里的索引量。
以我的博客为例,直接site我的博客找到486条结果,而我的博客目前只有72篇文章,加上分类页面也相差好几百。原因是早段时间更换主机,自己 大头哈忘记上传robots.txt,导致一些重复内容页面也收录了,后来才上传了robots.txt。现在Google “site:yihuiblog.com”就会出现如下的收录,只有网址没有内容(过一段时间才会删除)。
网站会出现很多的问题,造成搜索引擎索引一些站长不想索引的页面,包括常见的重复内容页面、无限循环页面(平时我们还要尽量找出这些链接屏蔽掉和到Google管理员工具里删除),大中型网站就更加普遍。但这些索引数据对SEO分析作用大么?不大,甚至等于0。
其实可以在Google管理员工具Sitemap模块里得到“真实”的收录数据,这个“真实”取决于你想让哪些页面被Google索引。现在我想知 道我博客分别有多少文章和分类页面被索引,首先我制作两个网站地图文件,一个包含所有文章地址(URL),一个包含所有分类地址,然后在管理员工具提交 sitemap地址。
Google管理员工具后台直接提交比robots.txt写入地图地址要好,一方面更加灵活,一方面可以防止竞争对手获取站点数据进行研究。
因为演示,追求简单,这里我只制作了文本地图文件,主流搜索引擎支持RSS、Atom、XML和文本等多种格式的地图文件,Google支持一个站点地图文件最多包含 5 万个网址,压缩前体积不得超过 50MB。
上图显示Google索引了一灰博客的72个文章页面和22个分类页面。按照需求拆分网站地图文件,可以方便得到你想要的索引数据,而且可以提交重叠的网址,例如同时提交网站最新更新产品的网页地址和某分类下产品的网页地址(存在重叠网址)。得到收录数据,就可以有针对性地进行优化。例如优化长期不索引的页面,等Google蜘蛛下次爬行后进行索引,也可以与同期其他SEO数据进行融合,得到更多对SEO有帮助的数据。其实Google在site的时候已经明确Google管理员工具这一功能,只是很多人没有进一步利用。
利用好Google管理员工具,可以抽离出更多对SEO有用的数据,以后再慢慢探讨。Bing管理员工具也有很多实用的数据,同样不要错过哦。
原文地址:http://yihuiblog.com/a/299.html |