搜索引擎是怎么删除重复网页的
百度曾在站长贴吧里做过这样一个回复从用户体验角度,“有些转载未必比原创差”。比方一篇科技原创博文,被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比较受伤。
据资料表明近似重复网页的数量占网页总数的的比较高达全部页面的29%,而完全相同的页面大约占全部页面的22%。很多站长都会抱怨,自己写的文章被转载后要么排名消失、要么转载站排在前面,比如下图
搜索引擎是怎么删除重复网页的 SEO优化 搜索引擎 SEO推广 第1张
在解决这个问题之前,我认为有必要了解下搜索引擎的“去重算法框架”,换个角度看看搜索引擎是怎么给网页去重的。
你的网页什么时候会被删除?
因为互联网上有大约22%的内容是相同的,一旦你的文章发表在网上,就有可能会被转载,而一般判断帮你的网页为转载,那么搜索引擎一般会从三个时间段来删除你的网页
(1)抓取页面的时候删除,这样可以减少搜索引擎带宽以及减少存储数量;
(2)收录之后删除重复网页;
(3)用户检索时候进行删除;增加准确性,耗费时间;
内容重复的4种类型
1.如果2篇文章内容和格式上毫无差别,则这种重复叫做“完全重复页面”
2.如果2篇文章内容相同,格式不同,则叫做“内容重复页面”
3.如果2篇文章有部分重要的内容相同,并且格式相同,则称为“布局重复页面”
4.如果2篇文章有部分重要的内容相同,格式不同,则称为“部分重复页面”
删除重复网页对于搜索引擎有很多好处:
1.如果这些重复网页并从搜索引擎数据库中去掉,就能节省一部分存储空间,提高检索的质量。
2.为了提高网页的搜集速度,搜索引擎会对以往搜集信息的分析,预先发现重复网页,在今后的网页搜集过程中就可以避开这些网页,这就是为什么总转载的网站排名不高的原因了。
3.对某个镜像度较高的网页,搜索引擎会赋予它较高的优先级,当用户搜索时就会赋予它较高的权重。
4. 近似镜像网页的及时发现有利于改善搜索引擎系统的服务质量,也就是说如果用户点击了一个死链接,那么可以将用户引导到一个相同页面,这样可以有效的增加用户的检索体验。
通用去重算法框架
对于网页去重任务,具体可以采取的技术手段五花八门,各有创新和特色,如果仔细研究,其实大致都差不多。
搜索引擎是怎么删除重复网页的 SEO优化 搜索引擎 SEO推广 第2张
上图给出了通用算法框架的流程图,对于给定的文档,要通过一定特抽取手段,从文档中抽取出一系列能够表征文档主题内容的特征集合。这一步骤往往有其内在要求,即尽可能保留文档重要信息,删除无关信息。之所以要删除部分信息,主要是从计算速度的角度考虑,,删除的信息越多,计算速度会越快。
这就是为什么你想做的关键字总没有排名,反而不想做的关键词却能排名靠前的原因之一,搜索引擎把它认为不重要的词语删除了。
推火专家卢松松博客
网站seo
- 洛扎企业官网搭建公司:提升品牌形象与网络实
- 北京百度快照排名怎么把网站排名在百度首页
- 湖南seo网站排名关键词优化如何提升销售额和销
- 打造企业形象的利器:金塔企业官网搭建公司
- 提升平舆百度快照排名的全面指南
- 浙江企业网站优化怎样做网站排名
- 云南整站优化:提升网站价值的关键
- 西藏新手做seo怎么做发展潜力如何
- 提升扬州网站排名优化的有效策略
- 中山建站公司有哪些:全面解析与推荐
- 长寿百度关键词SEO:提升你的网站排名技巧
- 寻找优质服务的秘诀:库车会SEO的网站建设公司
- 兴义企业网站优化:提升网站可见性的策略与方
- 威海优化关键词排名推广:提升您网站流量的有
- 松原建站公司:助力企业数字化转型的最佳选择
- 罗甸企业官网搭建公司:助力企业数字化转型