网易标签页链接探秘:呈现刘涛等关键词对应链接及特征
网易的一个404页面,竟然暗藏着黑帽SEO能让人年入百万的技术秘密,在普通人眼中属于错误代码的东西,于他们手里却是可用来批量制造外链的财富密码。
揭开404页面的秘密
网易娱乐频道每日生成数量庞大的关键词标签页,像刘涛、鬓边不是海棠红这类热门词条。在正常进行访问之际,它们呈现相关新闻列表,然而认真去观察链接便会发觉规律:ent.163.com/keywords/之后跟随着一串奇特的字符。
当把鼠标移动到关键词之上的时候,浏览器左下角就会呈现出真实链接。比如说,刘涛所对应的是http://ent.163.com/keywords/5/1/52186d9b/1.html ,而鬓边不是海棠红对应的却是一长串9b138fb94e0d662f6d7768e07ea2。这些链接所具有的共同特点是一起看博客,keywords之后存在两个数字目录,并且最后是以1.html作为结尾的。
16进制加密的真相
通过对比发觉,加密之后的字符仅含有0至9以及a到f这些字母,这恰恰是16进制的特性。并且字符长度跟关键词字数成正比例关系,每一个汉字刚好对应4个字符。这使人联想到Unicode编码的16进制呈现形式。
将刘涛这两个字,以其为例,在Unicode编码里,其中一个对应5218 ,另一个则是对应6d9b吧 ,把这两个编码拼接起来 ,之后套入链接结构 ,如此便得到了5/1/52186d9b这个路径。对于鬓边不是海棠红这六个字 ,它们对应的编码连起来就是那串长字符。
代码实现批量生成
用Python能够轻易验证这个猜想,首先获取关键词的Unicode码点,将其转换成16位进制字符串,因英文字母转换成16位进制后仅有两位,故而需要用0补齐至四位,以此保持格式一致,待代码运行通畅后,把它封装成函数便能够批量处理任意关键词。
于实际操作之时,输入清平乐此三字,那程序便会自动输出6/0/6e055e734e50。塞上风云记输出的则是5/5/585e4e0a98ce4e918bb0。整个过程所涉及的代码数量不足100行,然而却开启了批量制造网易高权重外链的那扇大门。
黑帽SEO的玩法逻辑
虽这些被构造出的链接返回的是404状态码,然而网易服务器并未对它们进行屏蔽,在搜索引擎爬虫前来访问之际,会将那个URL记录下来且尝试去收录,因为网易域名的权重是极其高的,所以这些呈现404状态的页面常常能够迅速获取排名。
有着黑帽SEO资质的专业人员借助此漏洞,将客户网站的关键词成批生成数量达到几千甚至几万个的网易链接,而后协同自动化运作的站群系统去开展做交叉链接的行为。搜索引擎一旦察觉到如此众多源于网易的入口,便会促使目标网站的权重评分得以提升。
技术背后的灰色产业链
一间已然熟透的,关于黑色SEO的工作室,每日能够产出数十万个这般构造的链接。他们可不单单盯着网易;新浪、腾讯、搜狐等诸多门户,均存在类似的漏洞。按照每条链接外包为零点一元来计算,单一日的产值便能够达到几万元。
有着更高级玩法呈现的是将泛域名解析予以结合,致使这些404页面能够自动跳转至客户网站。在搜索引擎进行抓取期间所看到的是网易的相关内容一起看,然而使用者点击之后前往的却是博彩或者私服网站。这种技术给予不少人在短时间之内实现暴富的可能,不过却随时会面临法律风险。
搜索引擎的攻防博弈
为什么会有这些被收录的404页面呢?是由于网易这类大型网站有着很高的抓取配额,所以搜索引擎会默认信任它们的全部链接。并且加上标签页本身属于动态生成,只有服务器返回200状态码才是正常的,而404反倒是少数的异常情形了。
百度以及谷歌的那些算法工程师们,实际上早就知晓了这个漏洞,然而要修复它,就得改变整个URL分发系统,成本实在是太高了。他们更愿意在排序阶段进行降权处理,借助对点击数据的分析来识别这些垃圾页面。这也就解释了为何黑帽SEO需要持续不停地更换域名以及IP。
你可曾于搜索得出的结果里见到过这般奇特的网易链接,下次碰到这种情况能够点进去瞧一瞧,说不定会察觉出更多饶有兴致的技术方面的细节。欢迎你在评论的区域分享你所发现的情况,点个赞再把它转发出去,从而让更多的人知晓搜索引擎背后所展开的像攻击与防御这样犹如战斗般的情况。
本文转载自互联网,如有侵权,联系删除

