五月初接了个网站的活儿,忙活了1个月左右,先看烂大街的登高效果图,终于有所欣慰。
老板20几万买了个老,而且是卖相一看就很牛的域名,发了海量的内容就是不见排名。码迷发现该域名底子尚可,通过site发现,52万的收录量,绝大一部分是历史收录。询问那边技术是否批量提交链接,技术说因为没有旧数据就没有提交。我去,如果不通过站长后台提交404链接,百度就会不断尝试访问旧页面,就会导致海量的404错误返回给爬虫,肯定会导致认为网站不稳定导致降权状态。经过码迷半个月的推鸭子上架的折腾以及苦口婆心的劝导,技术那边终于用Wayback Mache Downloader以及其他手段找回了20来万的404链接地址,并且用的死链提交工具提交。提交404链接后,码迷原本以为等着生效,基本就有好转,码迷发现,百度爬虫根本就不鸟站长后台提交的404链接,一个旧网址还破天荒爬20遍。码迷终于明白大爷永远是大爷,说某爬虫部本来就烂的一比,看来不能指望百度死链提交工具了。因为爬虫对于一个网址是宝贵的资源,是有限的资源。在固定数量的爬虫下,一定要引导爬虫尽大限度去访问质量高的页面。现在的问题是,因为摊派到旧链接的爬虫太多了,访问新内容的爬虫反而没有多少名额。想起了之前拜读过的国外大光头的Broken Lk Buildg Guide(死链404建设指南),里面有一段重建无效内容的章节。大光头一比一替换死链内容显然成本太大,我有个大胆的想法,我能不能把旧的内容随机301到新内容上?会不会有效果。那就小规模试验呗。拿了一个小站做了下目录整体301试验,可以发现百度爬虫对301的处理方法爬虫遇到301后,后交给一个IP的爬虫爬取那么百度后续处理效果如何,我用question/51k109页面做了简单的追踪看到了没有,百度对301处理后会有两个快照,新页面反而出图了,说明301后的权重成功转移了。如果访问旧的页面(旧页面的扩展名是xhtml或者asp,具体问题具体分析),就随机跳转到文章页或者学校页(文章页学校页转化搞内容质量好,具体问题具体分析)301的见效是很快的一般顶多两个周,可以看到六月二十来号曲线网上翘了。做就是要见针插眼才能药到病除,不了解搜擎的原理是万万不行的。