全国免费咨询热线:152-2424-2520

SEO常见问题

使用百度蜘蛛引荐来源网址查找错误页面条目

每个人都应该知道,百度拥有所有站点https,并且取消了referer关键字显示,那么百度蜘蛛的referer是什么? 

有神奇的用途吗? 

艺龙搜索引擎优化负责人刘明发现,百度蜘蛛引荐来源网址可以在某些站点中快速定位网址的错误4xx或5xx。 

此后,社区主持人Feiying Justice也对该文章进行了补充修订,现在建议所有学生使用。  

百度蜘蛛的引荐来源是什么

百度蜘蛛的引荐来源网址是指当百度蜘蛛抓取网址时HTTP头中的引荐来源网址字段。 

请注意,此定义与百度最近从“引荐来源网址”中删除关键字数据的语句无关。 

这是蜘蛛发起的HTTP请求。百度删除用户启动的内容。 

如果百度蜘蛛抓取百度首页徽标,则会发起这样的请求:

1-191105194G9A1.jpg


上方的“引荐来源”字段清楚地表明他是从www.baidu.com找到并爬网的www.baidu.com/img/bd_logo1.png。 

每个人都应该能够在服务器访问日志中看到相应的记录。 

目前发现,只有当百度抓取网页时,它也会抓取页面中的引荐来源字段:img,js和css。 

这部分额外的捕获量,不应占用百度分配的抓取配额,该配额属于买一送一。    

含义对于网站管理员   

如果您发现一批网址仅限于img,js,css错误4xx或5xx,但您可以查找条目的位置,这意味着您不了解百度蜘蛛在哪里找到了这些错误的网址。 

此字段可以帮助您快速找到它

例如,   

例如,在我们的SEO日志分析系统中,我们可以看到下面的URL模式的路径每天有60,000到100,000个爬网,并且所有404。 

1-19110519513K24.png

我发现问题已经过去了一个月,但我还没有找到整个网站的入口。 

我今天不小心检查了日志,想起了百度蜘蛛的推荐人,因此能够立即找到问题所在。 

这些404 URL来自一组未经维护和无人看管的页面。 

交通很好。 

由于最近公司的图片系统更新,图片的URL都已更改,但是这组页面尚未更新。    

如果该站点未记录引荐来源网址怎么办? 

是,请在此处检查csReferer:

1-191105195309624.png

1-191105195404146.png

Apache请参阅:  

 Apache日志配置组合日志格式章节  

到apache日志配置的官方链接

1-191105195515147.png

Nginx请参考:  

 Nginx日志配置  

到nginx日志配置的官方链接

1-191105195529639.png

TAG标签:聊城网站建设,聊城SEO优化,聊城钢管现货网,聊城钢管推广

Copyright © 2012-2019 清风网络科技有限公司 版权所有

网站地图
认证站长认证 可信网站认证