由于大多数web2.0建站系统存在漏洞,攻克技术成本较低,且群发软件价格低廉,容易被作弊者利用,近期我们发现大量web2.0站点被群发的垃圾信息困扰。这些垃圾群发内容无孔不入,除论坛、博客等传统的web2.0站点受到困扰外,现已蔓延到微博、SNS、B2B商情页、公司黄页、分类信息、视频站、网盘等更多领域内,甚至连新兴的分享社区也受到了影响。从以前的论坛帖子、博客日志,扩展到供求信息页、视频页、用户资料页,这些任何由用户填写和生成内容的地方,都会被作弊者发掘利用,形成大量的web2.0性质的垃圾页面。
搜索引擎在发现web2.0性质的垃圾页面后必将做出相应应对,但对真正操作群发的作弊者很难有效的打击,所以作弊者容易利用web2.0站点极低成本且自身安全这些特点,做出更多危害网站、危害用户、危害搜索引擎的行为。若网站自身管理不严控制不力,很容易成为垃圾内容的温床;有些网站为了短期流量而对垃圾内容置之不理,这无异于饮鸩止渴。网站不应仅仅是平台的提供者,更应该是内容的管理者,积极维护网站自身质量非常重要。若网站任由垃圾内容滋长,不仅会影响网站的用户体验,同时也会破坏网站口碑和自身品牌建设,造成正常用户流失,严重时,还会使搜索引擎降低对网站的评价。
对于作弊者来说,在web2.0站点上发布垃圾内容的目的就是被搜索引擎收录,如果不能让垃圾页面在网站和搜索引擎上消失,他们依然会持续不断地产生更多垃圾内容。百度站长平台希望和站长一起打击垃圾页面,帮助网站良性发展,共同维护互联网生态环境。
二、哪些内容会被百度判别为垃圾内容
一切对用户无意义,且会伤害用户的内容,就是垃圾内容。我们总结了以下几种比较典型的案例,以示说明:
1、与网站或论坛版块主题不符的内容
群发者通常都是大面积群发内容,多数情况下不会注意站点及版块主题,有时我们会在视频网站中见到“XXX医院治疗白癫风效果好”的内容,会在化妆品论坛发现航空公司的虚假电话,会在音乐网站中找到商品推销信息(当然不是卖CD的)等等。对于这些主题明确的站点或论坛,清理垃圾内容的意义不仅在于保证网站体验,也是从自身发展考虑维护用户忠诚度,提高核心竞争力的事情。举例:
http://cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html 网站主题为化妆品,出现“找小姐”等不良内容广告
http://cang.baidu.com/cases99/snap/f84bec4e99508525a9e67fce.html网站主题为视频,出现明显商业广告性质的医疗信息
2、欺骗搜索引擎用户的内容
1)垃圾信息为了在众多搜索结果中脱颖而出、吸引用户注意,通常会使用诱人的标题,或在内容中添加大量关键词,有别于真实用户发帖时使用自然语言表达的情况。举例:
http://cang.baidu.com/cases99/snap/c2c0b07346650b4d292e0368.html“优酷土豆%守望的天空29集”--有悖于普通用户发布信息的习惯。
2)有些帖子内容是一段没有任何意义的文字,或者随意采集来一篇文章,而中间穿插了一些热门关键词。举例:
http://cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html
http://cang.baidu.com/cases99/snap/1baad31c3d640eeceb11823d.html
3)有些文章看标题以为在说A事,而主要内容却在讲B,且与A毫无关系。举例:
http://cang.baidu.com/cases99/snap/ce87d21d625937ebd9eee4c2.html
http://cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html
4)对于视频音频网站来说,无论内容上传者是否为恶意,只要视频或音频文件不能满足用户需求或者与标题所述不符都应该清除掉。举例:
http://cang.baidu.com/cases99/snap/c8ea73b9a98c51205104b3c1.html,实际视频平均不足1分钟
http://cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html 视频内嵌入了联系方式,名为介绍武艺,实际是在推广另一艺人,视频站点成为其免费的推广平台。
3、欺骗网站诈取分帐式广告收益的内容
部分web2.0站点为了鼓励用户上传内容,会设计一套现金鼓励机制,比如视频网站,根据视频前面的广告展现量来计算用户收益,少数分成用户会采取一些不正当的手段从搜索引擎骗取流量,从站方诈取分成收益。如大量上传短小视频,并在视频网页上堆积诱人的关键词。
4、恶意利用web2.0网站为自己做推广、谋福利的内容。举例:
http://cang.baidu.com/cases99/snap/16107c3e4e885c024d29ed38.html
http://cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html
视频内嵌入了联系方式,名为介绍武艺,实际是在推广另一艺人,视频站点成为其免费的推广平台。
5、有违法律法规的不良信息,如诈骗中奖联系方式、虚假联系电话、不良信息。举例:
http://cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html
http://cang.baidu.com/cases99/snap/30c36a2b013ae249aacfbc3e.html
http://cang.baidu.com/cases99/snap/af71c5ec8b83e2eed1cb783d.html
http://cang.baidu.com/cases99/snap/f4633d781c76393f9b11343d.html
三、网站管理员面对垃圾内容,如何应对
出于对网站自身发展的考虑,为了使搜索引擎能够提供更加公平的结果,为了维护互联网生态环境,以及给网民提供更好的上网体验,我们认为web2.0站点或论坛版块里存在上述内容是非常不合适的,网站管理员应对垃圾内容进行重点清理,可以采取以下措施:
1、删除垃圾内容,并将这些页面设置为404页面后,及时通过百度站长平台的死链工具提交死链列表。不仅令百度对站点的自我清理行为及时响应,更方便站点主动控制网站内容在搜索引擎的呈现情况。
2、提高注册用户门槛,限制机器注册
1)群发软件通常使用自动的程序探测论坛默认的注册文件名、发帖文件名。管理员可以不定期的修改注册用户文件名、发帖文件名;注册、发帖按钮使用图片;与程序默认的不同,可以防止被自动程序搜索到。
2)发帖机通常是机器注册,行为模式单一。管理员可添加一些需要人工操作的步骤,有助于限制机器注册。 如:使用验证码;限制同一邮箱注册ID的数量,同时启用邮箱验证;使用更为复杂的验证机制;经常更换注册问答。
3)除了在注册处设置门槛外,还可以控制新用户权限。如要求完成上传头像、完善用户信息等人工操作步骤后才开放发帖功能;在一定时间内限制新用户发帖;限制新用户发布带链接的帖子,待达到一定级别后再放开。
3、严控机器发帖行为,如使用验证码、限制短时间内连续发帖等。
4、建立黑名单机制,将群发常用词、广告电话和网址等加入黑名单,对含有黑名单内容的帖子进行限制或清除。黑名单应该不断维护,以堵截原有垃圾词汇发生变形和新生垃圾词汇。
5、对站内的异常进行监控。发现注册量、帖子数,甚至站点流量爆增后,及时发现和查找原因。
6、对站点内用户的行为进行监控
1)部分异常用户的ID结构有别于普通用户,如使用无意义的字母数字、或几个单个汉字的无序组合,如:gtu4gn6dy1、蝶淑琴;使用商业词作为ID,如:轴承天地7、hangkongfuwu123。
2)发布内容间隔过短
3)发布的内容绝大部分非常类似
4)发布的大部分内容里含有类似的特征,如某个网址、电话、QQ号码等联系方式
7、不允许发布带有可执行代码的内容,避免弹窗、跳转等严重影响用户体验的情况发生。
8、对部分web2.0位置提及的链接,使用“nofollow”进行标记,如:bbs签名内的链接、BLOG回复ID自置的链接
http://cang.baidu.com/spamcase/snap/a3103920926c494f0e3030ad.html
9、论坛中的广告、灌水版块,建议加上权限限制,或者禁止搜索引擎收录。
10、关注建站程序的安全更新,及时安装补丁程序。保障用户账号安全,避免发生盗用正常用户账号或历史沉寂用户账号发布垃圾内容的情况发生。 |