百度移动搜索建站优化白皮书
为了让百度搜索的重要合作伙伴——广大站长充分了解百度搜索引擎规则,并根据规则合理安全建设网站、优化网站,更好的获取搜索流量;百度搜索资源平台历时3个月,探访搜索内部各个技术部门,将百度搜索内部技术原理抽丝剥茧,化零为整,整理出《百度移动搜索建站优化白皮书》,希望与各位站长携手,为用户提供一个健康安全高效的搜索环境。1前言
手机百度是一款有6亿用户在使用的手机搜索客户端,在中文用户信息获取上发挥了不可替代的作用;移动搜索引擎每日分发上亿流量给到优质安全网站,来满足用户的搜索需求;而对于广大的站长来说,优质安全的网站有助于在搜索引擎中获得良好的排序和展现,从而吸引更多用户,获得更多流量。 移动搜索引擎优化,指从建站开始到吸引用户,贯穿所有流程,为了让百度搜索的重要合作伙伴——广大站长充分了解百度搜索引擎规则,并根据规则合理安全建设网站、优化网站,更好的获取搜索流量;百度搜索资源平台历时3个月,探访搜索内部各个技术部门,将百度搜索内部技术原理抽丝剥茧,化零为整,整理出《百度移动搜索建站优化白皮书》,希望与各位站长携手,为用户提供一个健康安全高效的搜索环境。
http://zhanzhang.bj.bcebos.com/files/020601511336845.png
2网站建设2.1域名选择网站域名选择,不仅能快速直观让用户了解网站定位,域名设置,更会影响搜索对网站的抓取情况。因此,选择简单好记且安全的域名,是网站搭建前期最重要的一步。
2.1.1域名选择的注意事项网站搭建之初,对网站域名选择,建议域名独立,简单好记;独立移动站域名选择也遵循此规则。移动站的域名需与PC站域名分开,移动站不建议与PC站公用一个域名;比如PC网站域名建议是www.test.com,对应移动站的域名是m.test.com,而不是www.test.com/m/的形式;如果是自适应网站可不考虑此情况。网站域名选择中,主要有以下两点建议:√ 建议使用比较常见的域名后缀,如.com\.cn\.net等;√ 如果网站追求个性化使用罕见域名后缀,为了保证搜索效果,请来百度搜索资源平台(原百度站长平台)进行站点验证。
2.1.2使用子域名或目录网站是否需要建立子域名,或是划分多级目录,可根据网站自身定位及网站内容量级决定。通常来说,综合类或内容量较多的网站,可将内容按照不同二级域明确划分;而如果网站内容较少,不建议网站开设过多的子域名。举例来说,blog形式站点,有的网站给到每个blog作者单独的三级域,但如果作者发布频率较低,整个三级域都是更新频率很低的状态,过低的发布频率对搜索引擎来说是不友好的。
2.2内容发布系统
内容发布系统,无论是网站自建还是使用第三方建站系统,百度都是支持的;所有发布系统,除遵循有条理、逻辑清晰建站,还要注意网站搭建的安全问题,避免网站安全隐患,才能更好的提升网站价值。
2.2.1自建内容发布系统网站自建内容发布系统,注意事项包括:√ 主体内容清晰且能够很好的识别与分辨;√ 后台发布时间切勿自行设置,遵循发布时间与展示时间一致;√ 内容发布系统中各表单设置合理,如对tag标签的设置不宜过多、不宜罗列关键词;√ 分类划分明确,分类主题的文章对应发布到相应分类下;√ 题文相符,切勿挂羊头卖狗肉,欺骗搜索引擎流量,损伤用户体验;√ 段落清晰合理、字体大小适中、字体颜色切勿使用与背景色相近的颜色;√ 发布内容目录划分清晰,具体参考2.3章节中网站结构设置。
2.2.2第三方发布系统使用第三方发布系统建站,需要站长关注以下注意事项:√ 模板主题不建议频繁更换;√ 类似wordpress等系统,不建议使用过多插件,会影响网页打开速度;√ URL伪静态的处理,命名规范、层级清晰;√ 开源建站系统存在较多安全隐患,使用过程中务必做一些安全上的设置和优化。
2.2.3页面生成规范无论网站自建发布系统,还是网站使用第三方建站系统,网站页面的生成,都应注意以下几点: √网页结构清晰、各分类名称设置醒目;√ 导航、面包屑导航设置合理,机器可读、位置突出,用户能很好得知所访问页面在网站中的位置;√ 不存在遮挡主体内容的广告元素;√ 无三俗图文、音频元素;注意网站搭建系统安全问题,杜绝网站安全隐患。访问请求中的content-type需要根据对应的类型进行正确设置,图示如下:http://zhanzhang.bj.bcebos.com/files/007551511337594.png
除此之外,关于页面规范标准,建议参考搜索学院发布的《百度搜索Mobile Friendly(移动友好度)标准V1.0》 2.3网站结构合理设置网站结构,是网站被快速抓取、获得搜索流量的基础;因网站结构设置不合理,导致网站无法被快速识别抓取的事例在百度日常反馈中经常见到,且网站换域名也会对网站造成一定损失,故希望各位站长从建站之初重视网站结构设置,避免不必要的损失。
2.3.1URL结构设置URL搭建是否有严格要求,请看以下几点注意事项:√ 在搭建网站结构、制作URL时,尽量避开非主流设计,追求简单美即可,越简单越平常,越好,例如URL中出现生僻字符,如不常见的“II”,会引起搜索引擎识别错误;√ URL长度要求去掉协议头http(s)://之后的URL长度不要超过256个字节; √ 谨慎使用#参数,有效的参数不能放在#后面;可能被截断导致网页抓取异常。
2.3.2目录结构设置网站目录结构搭建是否合理,影响搜索引擎对网站的抓取情况,这里需要提到的是,网站目录结构无论是扁平化还是树形结构,一般都可以被搜索引擎发现,但有以下几点注意事项:√ 建议不同内容放在不同目录或子域下,域名划分在2.1.2网站域名划分章节中有详细提到;√ 不要使用孤岛链接,孤岛链接很难被搜索引擎快速发现;若网站已存在大量孤岛链接,建议使用搜索资源平台的链接提交工具向百度提交数据;√ 重要内容不建议放在深层目录,若该内容没有大量内链指向,搜索引擎很难判断该页面的重要程度。以下是图片示例:http://zhanzhang.bj.bcebos.com/files/099241511337894.png
2.4服务商/自建服务器选择服务商或者自建服务器,对网站搭建都是十分重要基础的一环;服务器安全和稳定将直接影响百度搜索引擎对网站的整体判断。
2.4.1域名服务
2.4.1.1域名服务&域名部署关于域名服务和域名部署,有以下注意事项:√ 站长在域名部署中请仔细各环节问题,不要出现域名部署错误情况;√ 不建议网站进行泛解析,若网站爆发大规模泛解析,且影响恶劣,则会受到搜索策略打压;√ 尽量选择优质域名服务商。
2.4.2服务器做网站还有非常重要的一环,就是服务器的选择,那服务器选择中,无论是虚拟主机、云主机还是独立的服务器,都应该注意以下四点:√ 中文网站不建议选择国外服务器;√ 服务器的稳定性非常重要,需要保持访问流畅,服务器是否稳定,可以使用百度搜索资源平台(原百度站长平台)抓取异常、抓取诊断工具进行检测维护。(服务器经常无法访问或者死机,对爬虫来讲都是致命伤害);√ 服务器选择除了自身的稳定性外,实际上还要考虑网站的业务量,例如带宽、内存、CPU是否能够承受访问量,突发大流量情况下是否可以正常访问;√ 服务器主机设置,需要注意是否有禁止爬虫抓取的设置、或存在404错误信息设置,这些情况都会引起不必要的搜索引擎抓取判断异常,为网站带来不必要的损失。
2.4.2.1虚拟主机总的来说,建议虚拟主机选购时候需要特别注意:√ 主机商是否存在限制搜索引擎访问的情况;√ 主机商的资质是否符合要求;√ 主机商的技术沉淀是否足够,建议选择品牌较大的主机商;√ 主机商托管的机房的物理条件和网络条件是否足够优秀;√ 主机商的技术和客服支持情况是否够好;√ 主机商是否会存在超容量的情况;√ 主机商是否存在违规接入高风险站点的问题或同一IP下是否会存在高风险站点的情况;√ 国内站点建议选购国内云主机建站。
2.4.2.2独立主机独立主机为站点带来更加宽松的使用环境和个性软件的安装,因此独立主机需要站长拥有一定的技术力量来保证网站的正常运行和安全。我们对于站长选购和托管独立主机的建议是:√ 注意虚拟主机是否有将爬虫IP拉入黑名单,关于百度UA,可以参考3.1.2.1百度蜘蛛章节;√ 建议使用独立IP地址的主机;√ 建议使用规模较大机构的主机,在安全配置、稳定性上相对更好;√ 对IDC服务商的建设标准需要一定的考虑,例如防火、防盗、是否有UPS保证、室内温控、消防等;√ IDC服务商的服务质量和技术是否达标,是否24h值班,是否能够协助排查一些故障、免费重启重装系统等;√ IDC机房的资质是否齐全,存放站点是否有高风险站点或服务器存在。
2.4.3安全服务
2.4.3.1HTTPS当前百度已实行全站化HTTPS安全加密服务,百度HTTPS安全加密已覆盖主流浏览器,旨在用户打造了一个更隐私化的互联网空间、加速了国内互联网的HTTPS化。同时也希望更多网站加入到HTTPS的队伍中来,为网络安全贡献一份力量。HTTPS安全原理解析HTTPS主要由有两部分组成:HTTP + SSL / TLS,也就是在HTTP上又加了一层处理加密信息的模块。服务端和客户端的信息传输都会通过TLS进行加密,所以传输的数据都是加密后的数据。HTTS复杂的加密机制有效的加大了网站的安全性,加密机制与认证机制可以减少网站被劫持和假冒的风险,建议站长们可以通过做HTTPS改造来强化网站安全。百度搜索资源平台为了更好的抓取识别HTTPS网站,2017年还推出了HTTPS认证工具,已经完成HTTPS改造的网站,可以在搜索资源平台-网站支持-HTTPS认证工具中提交网站的HTTPS数据,便于百度更好抓取识别网站。关于HTTPS认证工具详解,可以参考5.3.2HTTPS认证工具章节。 2.4.3.2网站防止被黑对策网站被黑,通常表现为网站中出现大量非本网站发布的类似博彩内容,或网站页面直接跳转到博彩页面;以下是网站被黑后发布的内容:内容非网站发布,内容中含大量博彩网站指向:
http://zhanzhang.bj.bcebos.com/files/066651511338074.png
网站页面直接跳转到博彩网站:http://zhanzhang.bj.bcebos.com/files/011201511343290.png
网站被黑代表网站安全存在严重问题或漏洞,如何防范网站被黑,请参考以下:首先,自查是否被黑√ 被黑网站在数据上有一个特点,即索引量和从搜索引擎带来的流量在短时间内异常数据异常。所以,站长可以利用百度搜索资源平台(原百度站长平台)的索引量工具,观察站点索引量是否有异常;如果发现数据异常,再通过流量与关键词工具查看获得流量的关键词是否与网站有关、是否涉及博彩和色情;√ 通过Site语法查询站点,结合一些常见的色情、博彩类关键词效果更佳,有可能发现不属于站点的非法页面;√ 由于百度流量巨大,有些被黑行为仅针对百度带来的流量予以跳转,站长很难发现,所以在查看自己站点是否被黑时,一定要从百度搜索结果中点击站点页面,查看是否跳转到了其他站点;√ 站点内容在百度搜索结果中被提示存在风险;√ 后续可以请网站技术人员通过后台数据和程序进一步确认网站是否被黑。其次,被黑之后如何处理√ 确认网站被黑后,SEO人员除了要推动技术人员快速修正外,还需要做一些善后和预防的工作;√ 网站如有变更页面,变更页面建议使用链接提交工具向百度提交数据;√ 立即停止网站服务,避免用户继续受影响,防止继续影响其他站点;√ 如果同一主机提供商同期内有多个站点被黑,可以联系主机提供商,敦促对方做出应对;√ 清理已发现的被黑内容,将被黑页面设置为404死链,并通过百度搜索资源平台(原百度站长平台)死链提交工具进行提交。(我们发现有些站点采用了将被黑页面跳转至首页的做法,非常不可取。);√ 排查出可能的被黑时间,和服务器上的文件修改时间相比对,处理掉黑客上传、修改过的文件;检查服务器中的用户管理设置,确认是否存在异常的变化;更改服务器的用户访问密码。注:可以从访问日志中,确定可能的被黑时间。不过黑客可能也修改服务器的访问日志;√ 做好安全工作,排查网站存在的漏洞,防止再次被黑。网站自我防护的注意事项:√ 多种安全防护同步进行:适合中小型资讯网站;● 网站程序勤打补丁:现在很多资讯类网站用的系统使用了内容管理系统(CMS),作为新闻发布系统,功能还算可以了,但是作为比较常见的内容管理系统(CMS),也有另一个问题,那就是漏洞比较大众化,因为源码是公开的,所以很容易被研究出漏洞,需要对网站程序及时进行漏洞修复。√ 对服务器进行常规的安全防护;● 在上班时间之外,对服务器上的网站权限做设置,禁止文件修改,后台文件隐藏或迁移到根目录之外。● 参考一些网站的安全设置,非限定的IP不能写入到数据库。√ 不使用开源程序默认的robots文件;● 下图是一个地级市的资讯类站点的robots文件,从robots文件中可以看出,该网站用的是织梦后台,那黑客就可以通过各种针对织梦攻击的软件进行操作了,也可以针对织梦网站的常见漏洞进行扫描和针对性攻击了。http://zhanzhang.bj.bcebos.com/files/018371511338675.png
2.4.4网络服务
2.4.4.1CDN从搜索抓取机制上讲:百度蜘蛛对站点的抓取方式和普通用户访问一样,只要普通用户能访问到的内容,百度蜘蛛就能抓取到。不管是用什么技术,只要能保证用户能流畅的访问网站,对搜索引擎就没有影响。但有站长反馈使用CDN后出现网站抓取异常、甚至流量异常等问题,主要是两方面的因素:一是部分CDN服务商硬件投入不够,经常出现不稳定情况,会导致大量的蜘蛛抓取失败,从而影响网站抓取效果,有的甚至影响了索引量数据;所以选择有实力的CDN服务商很重要;二是缓存机制在网站出现死链、无法打开、被黑等情况的时候起到了推波助澜的作用。短时间内产生了一些不利快照,影响了排名。这种情况不用担心,及时清理源文件和CDN缓存,并在百度搜索资源平台(原百度站长平台)提交相关死链数据等方法进行挽回,是可以恢复的。 3网站优化3.1抓取友好性关于抓取的优先级,在此重点强调:√ 网站更新频率:经常更新高价值的站点,优先抓取;√ 受欢迎程度:用户体验好的站点,优先抓取;√ 优质入口:优质站点内链接,优先抓取;√ 历史的抓取效果越好,越优先抓取;√ 服务器稳定,优先抓取;√ 安全记录优质的网站,优先抓取;顺畅稳定的抓取是网站获得搜索用户、搜索流量的重要前提,影响抓取的关键因素,站长可以通过本章节了解。
3.1.1URL规范网站的URL如何设置,可参考2.3.1中的URL设置规范
3.1.1.1参数URL中的参数放置,需遵循两个要点:√ 参数不能太复杂;√ 不要用无效参数,无效参数会导致页面识别问题,页面内容最终无法在搜索展示另外,很多站长利用参数(对搜索引擎和页面内容而言参数无效)统计站点访问行为,这里强调下,尽量不要出现这种形式资源,例如:https://www.test.com/deal/w00tb7cyv.html?s=a67b0e875ae58a14e3fcc460422032d3或者:http://nmtp.test.com/;NTESnmtpSI=029FF574C4739E1D0A45C9C90D656226.hzayq-nmt07.server.163.org-8010#/app/others/details?editId=&articleId=578543&articleType=0&from=sight 3.1.2链接发现
3.1.2.1百度蜘蛛很多站长会咨询如何判断百度移动蜘蛛,这里推荐一种方法,只需两步,正确识别百度蜘蛛:查看UA如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:移动UA 1:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/ search/ spider.html)移动UA 2:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)PC UA 1:Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)PC UA 2:Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/ spider.html)反查IP站长可以通过DNS反查IP的方式判断某只蜘蛛是否来自百度搜索引擎。根据平台不同验证方法不同,如Linux/Windows/OS三种平台下的验证方法分别如下:在Linux平台下,可以使用hostip命令反解IP来判断是否来自百度蜘蛛的抓取。百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即为冒充。http://zhanzhang.bj.bcebos.com/files/076291511338959.png
这里需要再提出一点,建议使用DNS更换为8.8.8.8后进行nslookup反向解析,否则很容易出现无返回或返回错误的问题。在Windows平台下,可以使用nslookup ip命令反解IP来判断是否来自百度蜘蛛的抓取。打开命令处理器输入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析IP,来判断是否来自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即为冒充。在Mac OS平台下,网站可以使用dig命令反解IP来判断是否来自百度蜘蛛的抓取。打开命令处理器输入dig xxx.xxx.xxx.xxx(IP地址)就能解析IP,来判断是否来自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。
3.1.2.2链接提交链接提交工具是网站主动向百度搜索推送数据的工具,网站使用链接提交可缩短爬虫发现网站链接时间,目前链接提交工具支持四种方式提交:√ 主动推送:是最为快速的提交方式,建议将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度抓取;√ Sitemap:网站可定期将网站链接放到Sitemap中,然后将Sitemap提交给百度。百度会周期性的抓取检查提交的Sitemap,对其中的链接进行处理,但抓取速度慢于主动推送;√ 手工提交:如果不想通过程序提交,那么可以采用此种方式,手动将链接提交给百度;√ 自动推送:是轻量级链接提交组件,将自动推送的JS代码放置在站点每一个页面源代码中,当页面被访问时,页面链接会自动推送给百度,有利于新页面更快被百度发现。简单来说:建议有新闻属性站点,使用主动推送进行数据提交;新验证平台站点,或内容无时效性要求站点,可以使用Sitemap将网站全部内容使用Sitemap提交;技术能力弱,或网站内容较少的站点,可使用手工提交方式进行数据提交;最后,还可以使用插件方式,自动推送方式给百度提交数据。 3.1.3网页抓取
3.1.3.1访问速度关于移动页面的访问速度,百度搜索资源平台(原百度站长平台)已于2017年10月推出过闪电算法,针对页面首页的打开速度给予策略支持。闪电算法中指出,移动搜索页面首屏加载时间将影响搜索排名。移动网页首屏加载时间在2秒之内的,在移动搜索下将获得提升页面评价优待,获得流量倾斜;同时,在移动搜索页面首屏加载非常慢(3秒及以上)的网页将会被打压。对于页面访问速度的提速,这里也给到几点建议:资源加载:√ 将同类型资源在服务器端压缩合并,减少网络请求次数和资源体积; √ 引用通用资源,充分利用浏览器缓存; √ 使用CDN加速,将用户的请求定向到最合适的缓存服务器上; √ 非首屏图片类加载,将网络带宽留给首屏请求。页面渲染:√ 将CSS样式写在头部样式表中,减少由CSS文件网络请求造成的渲染阻塞;√ 将JavaScript放到文档末尾,或使用异步方式加载,避免JS执行阻塞渲染; √ 对非文字元素(如图片,视频)指定宽高,避免浏览器重排重绘;希望广大站长持续关注页面加载速度体验,视网站自身情况,参照建议自行优化页面,或使用通用的加速解决方案(如MIP),不断优化页面首屏加载时间。了解MIP-移动网页加速器可参考:https://www.mipengine.org/ 3.1.3.2返回码HTTP状态码是用以表示网页服务器HTTP响应状态的3位数字代码。各位站长在平时维护网站过程中,可能会在站长工具后台抓取异常里面或者服务器日志里看到各种各样的响应状态码,有些甚至会影响网站的SEO效果,例如重点强调网页404设置,百度搜索资源平台(原百度站长平台)中部分工具如死链提交,需要网站把内容死链后进行提交,这里要求设置必须是404。下面为大家整理了一些常见的HTTP状态码:301:(永久移动)请求的网页已被永久移动到新位置。服务器返回此响应(作为对GET或HEAD请求的响应)时,会自动将请求者转到新位置。302:(临时移动)服务器目前正从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。此代码与响应GET和HEAD请求的301代码类似,会自动将请求者转到不同的位置。这里强调301与302的区别:301/302的关键区别在于:这个资源是否存在/有效;301指资源还在,只是换了一个位置,返回的是新位置的内容;302指资源暂时失效,返回的是一个临时的代替页(例如镜像资源、首页、404页面)上。注意如果永久失效应当使用404。有时站长认为百度对302不友好,可能是误用了302处理仍然有效的资源; 400:(错误请求)服务器不理解请求的语法;403:(已禁止)服务器已经理解请求,但是拒绝执行它;404:(未找到)服务器找不到请求的网页;这里不得不提的一点,很多站长想自定义404页面,需要做到确保蜘蛛访问时返回状态码为404,若因为404页面跳转时设置不当,返回了200状态码,则容易被搜索引擎认为网站上出现了大量重复页面,从而对网站评价造成影响;500:(服务器内部错误)服务器遇到错误,无法完成请求;502:(错误网关)服务器作为网关或代理,从上游服务器收到了无效的响应;503:(服务不可用)目前无法使用服务器(由于超载或进行停机维护)。通常,这只是一种暂时的状态;504:(网关超时)服务器作为网关或代理,未及时从上游服务器接收请求。 3.1.3.3robotsrobots工具的详细工具使用说明,细节参考4.3.4robots工具章节,关于robots的使用,仅强调以下两点:√ 百度蜘蛛目前在robots里是不支持中文的,故网站robots文件编写不建议使用中文字符;√ robots文件支持UrlEncode编码这种写法,如:http://www.test.cn/%E7%89%B9%E6%AE%8A:%E6%B5%8F%E8%A7%88/%E7%94%9F%E6%AD%BB%E7%8B%99%E5%87%BB:%E7%99%BD%E9%93%B6%E5%8A%A0%E7%89%B9%E6%9E%97
3.1.3.4死链当网站死链数据累积过多,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。百度搜索资源平台(原百度站长平台)推出死链提交工具,帮助网站提交死链数据,死链提交工具使用参考4.3.2死链提交工具。什么是死链及死链的标准页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,比较常见死链形式共有3种,协议死链和内容死链是比较常见两种形式,除此之外还有跳转死链。√ 协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等;√ 内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面;√ 跳转死链:指页面内容已经失效,跳转到报错页,首页等行为。 3.1.4访问稳定性访问稳定性主要有以下几个注意点:DNS解析DNS是域名解析服务器,关于DNS,这里建议中文网站尽可能使用国内大型服务商提供的DNS服务,以保证站点的稳定解析。分享一个DNS稳定性的示例:搜索资源平台(原站长平台)曾收到多个站长反馈,称网站从百度网页搜索消失,site发现网站数据为0。经追查发现这些网站都使用国外某品牌的DNS服务器 *.DOMAINCONTROL.COM,此系列DNS服务器存在稳定性问题,百度蜘蛛经常解析不到IP,在百度蜘蛛看来,网站是死站点。此前也发现过多起小DNS服务商屏蔽百度蜘蛛解析请求或者国外DNS服务器不稳定的案例。因此这里建议网站,谨慎选择DNS服务。蜘蛛封禁针对爬虫的封禁会导致爬虫认为网站不可正常访问,进而采取对应的措施。爬虫封禁其实分两种,一种就是传统的robots封禁,另一种是需要技术人员配合的IP封禁和UA封禁;而绝大多数情况下的封禁都是一些操作不当导致的误封禁,然后在搜索引擎上的反应就是爬虫不能正常访问。所以针对爬虫封禁的操作一定要慎重,即使因为访问压力问题要临时封禁,也要尽快做恢复处理。服务器负载抛开服务器硬件问题(不可避免),绝大多数引起服务器负载过高的情况是软件程序引起的,如程序有内存泄露,程序出core,不合理混布服务(其中一个服务消耗服务器资源过大引起服务器负载增大,影响了服务器对爬虫访问请求的响应。)对于提供服务的机器一定要注意服务器的负载,留足够的buffer保证服务器具有一定的抗压能力。其他人为因素人为操作不当引起访问异常的情况是经常见到的,针对这种情况需要严格的制度约束,不同站点情况不一样。需要保证每一次的升级或者操作要准确无误。 3.1.5可访问链接总量
3.1.5.1资源可穷尽一般来说网站的内容页面是可穷尽的,万级别,百万级别甚至亿级别,但一定是可穷尽的。而现实中确实存在这样一些网站,爬虫针对这些网站进行抓取提链时会陷入"链接黑洞";通俗的讲就是网站给爬虫呈现的链接不可穷尽;典型的是部分网站的搜索结果页,不同的query在不同anchor下的a标签链接不一样就导致了"链接黑洞"的产生,所以严禁URL的生成跟用户的访问行为或者搜索词等因素绑定。 3.2页面解析页面解析,主要指网站页面被蜘蛛抓取,会对页面进行分析识别,称之为页面解析。页面解析对网站至关重要,网站内容被抓取是网站被发现的第一步,而页面解析,则是网站内容被识别出来的重要一环,页面解析效果直接影响搜索引擎对网站的评价。
3.2.1页面元素
3.2.1.1页面标题关于网页标题,百度搜索于2017年9月推出清风算法,重点打击网站标题作弊,引导用户点击,损害用户体验的行为;清风算法重点打击的标题作弊情况有以下两种:√ 文不对题,网站标题与正文有明显不符合,误导搜索用户点击,对搜索用户造成伤害;√ 大量堆砌,网站标题中出现大量堆砌关键词的情况也十分不提倡,关于网站标题作弊的详细解读,参考搜索学院发布官方文档《百度搜索内容质量白皮书——网页标题作弊详解》。关于网站TDK,有以下几种情况需要注意:("T"代表页头中的title元素,"D"代表页头中的description元素,"K"代表页头中的keywords元素,简单指网站的标题、描述和摘要);
√ 百度未承诺严格按照title和description的内容展示标题和摘要,尤其是摘要,会根据用户检索的关键词,自动匹配展示合适的摘要内容,让用户了解网页的主要内容,影响用户的行为决策;√ 站长会发现同一条链接的摘要在不同关键词下是变化的,可能不会完全符合站长预期,尤其是站长在检索框进行site语法操作时,可能会感觉摘要都比较差。但请不要担心,毕竟绝大多数普通网民不会这样操作。在此情况下出现不符合预期的摘要并不代表站点被惩罚;√ 还有一种情况,是网页中的HTML代码有误,导致百度无法解析出摘要,所以有时大家会看到某些结果的摘要是乱码(当然这种情况很少见),所以也请站长注意代码规范。
3.2.1.2主体内容主体内容注意两个点,一个主体内容过长(通常网页源码长度不能超过128k),文章过长可能会引起抓取截断;另外一个是注意内容不能空短,空短内容也会被判断为无价值内容。以下分析两个示例:关于主体内容过长的示例分析:某网站主体内容都是JS生成,针对用户访问,没有做优化;但是网站特针对爬虫抓取做了优化,直接将图片进行base64编码推送给百度,然而优化后发现内容没有被百度展示出来;页面质量很好,还特意针对爬虫做了优化,为什么内容反而无法出现在百度搜索中;分析主要有以下原因:√ 网站针对爬虫爬取做的优化,是直接将图片base64编码后放到HTML中,导致页面长度过长,网站页面长度达164k;√ 站点优化后将主体内容放于最后,图片却放于前面;√ 爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不建索引。这样的情况给到以下建议:√ 如站点针对爬虫爬取做优化,建议网站源码长度在128k之内,不要过长;√ 针对爬虫爬取做优化,请将主体内容放于前方,避免抓取截断造成的内容抓取不全。关于内容空短的示例分析:某网站反馈网站内容未被建索引,分析发现,网站抓取没有问题,但被抓取到的页面,都提示需要输入验证码才能查看全部页面,这类页面被判断为空短页面,这类页面在抓取后,会被判定为垃圾内容。而且当蜘蛛对一个网站抓取后发现大面积都是低值的空短页面时,爬虫会认为这个站点的整体价值比较低,那么在后面的抓取流量分布上会降低,导致针对该站点的页面更新会比较慢,进而抓取甚至建索引库也会比较慢。http://zhanzhang.bj.bcebos.com/files/033511511339350.png
为什么会出现网站内容空短这种情况,其中一个原因是网站内容未全部搭建完成,未对外开放,但已被蜘蛛爬取发现。针对这种情况,建议网站在邀请测试阶段使用robots封禁。另外还会有些网站,设置用户查看权限,如需用户登陆才能查看全部内容,这样的行为对搜索引擎也极不友好,蜘蛛无法模拟用户登陆,仅能抓取网站已展示页面,可能会导致抓取页面为空短的现象。这里再次强调,不要让爬虫给站点画上不优质的标签,对网站将产生很不好的影响。另外,移动端的H5页面,很多都是采用JS方式加载,其实是更容易产生空短,请各位站长注意。
3.2.1.3网页发布时间关于网页发布时间,有以下几点建议:√ 网页内容尽可能加上产出时间,严格说是内容发布时间;且时间尽量全,时间格式为年-月-日 时:分:秒;例:2017-08-12 10:23:06√ 网页上切忌乱加时间,这样容易造成页面时间提取问题,或搜索引擎判断提取时间不可信,从而降低对网页的展现。 3.2.1.4canonical标签canonical标签的目的在PC互联网时代,canonical标签的作用主要是用来解决由于网址形式不同内容相同而造成的内容重复问题。而在移动时代,canonical标签被百度搜索赋予了更多的意义,在原来的作用基础上,又起到了相同内容的移动页和PC页之间的关联作用;让移动资源更容易继承PC资源的各种特征,从而快速生效移动网页数据。canonical标签如何设置在HTML代码的head里添加rel="canonical",不能添加多个,否则搜索引擎会认为是无效的canonical标签。另外需要注意href里的地址不能是死链,错误页或者被robots封禁的页面。具体示例如下:<link rel="canonical" href="http://example.test.com/recipe41644.html">
3.2.2落地页体验为提升移动搜索整体用户体验,提升搜索满意度,百度搜索在2017年推出《百度移动搜索落地页体验白皮书——广告篇2.0》(以下简称广告白皮书)。广告白皮书对网站移动落地页页面广告内容、广告位置、大小等做了明确要求,从而充分保证搜索用户的浏览体验。白皮书详情,请参考搜索学院官方文档《百度移动搜索落地页体验白皮书——广告篇2.0》
3.3页面价值
3.3.1内容价值原创文章,要求是独立完成的创作,且没有歪曲、篡改他人创作或者抄袭、剽窃他人创作而产生的作品,对于改编、注释、整理他人已有创作而产生的作品要求有充分的点评、补充等增益信息。建议原创文章在标题下方明确注明“来源:xxxx(本站站点名)”或“本站原创”之类字样,转载文章明确注明“来源:xxxx(转载来源站点名)”之类字样,不建议使用“admin”、“webmaster”、“佚名”等模糊的说法。
3.3.2外链建设通常认为,外链是本站点对第三方站点页面的链接指向,是本站点对第三方站点页面内容的一种认可和推荐。站点进行外链建设时,建议是有真实推荐意图,并且指向那些熟悉的、被认可的、内容相关的外部页面;不建议推荐与本站点页面内容无关的外链内容。也不建议乱推荐外链、交换外链互联、指向作弊站的行为(这些很可能被超链策略反向识别成垃圾作弊站点进行打压)。最后,站长要及时发现和处理站点被黑的页面。页面被黑掉后,一般会被人为放入大量无关的,甚至作弊的外链在该页面上,其目的是要瓜分站点自身权重,并以此来提高外链目标站点影响力。建议站长发现后,及时向搜索资源平台(原站长平台)提交死链进行删除和屏蔽,不及时处理一定程度上会影响站点本身的权重。最好从技术上优化,提高站点安全壁垒,防范于未然。
3.3.3内链建设内链,描述了站点的结构,一般起到页面内容组织和站内引导的作用;内链的重要意思是通过链接指向,告诉搜索引擎哪个页面最为重要。内链组织的时候,建议结构清晰,不要过于冗杂,另外内链组织的版式建议保持一致,这样对搜索引擎超链分析比较友好。与外链类似,建议站长善于使用nofollow标签,既对搜索引擎友好,又可避免因垃圾link影响到站点本身的权重。
3.3.4anchoranchor描述:尽可能使用典型的,有真实意义的anchor。anchor描述要与超链接的页面内容大致相符,避免高频无意义anchor的使用,另外同一个URL的anchor描述种类不宜过多,anchor分布越稀疏会影响搜索排名。
4百度专属SEO工具4.1百度搜索资源平台(原百度站长平台)介绍百度搜索资源平台(原百度站长平台)是全球最大的面向中文互联网管理者、移动开发者、创业者的搜索流量管理的官方平台。提供有助于搜索引擎数据查询及优化的工具、SEO建议、多端适配服务的能力等。百度搜索资源平台域名地址:http://ziyuan.baidu.com/
4.2查询工具
4.2.1索引量工具网站的索引量指该网站在百度搜索上,可以被用户搜索到的链接总量。百度蜘蛛通过抓取发现网站内容,进行页面解析,对有价值内容建立索引库,最终使搜索用户可以搜索到网站内容。网站被百度蜘蛛抓取后,经过一系列计算才得以建入索引库,有了和搜索用户见面的机会。所以,索引量一直是站长们关注的焦点,但关于索引量工具有一些误读,这里给到正确解答:√ 索引量不等于网站流量:索引库分多个层级,进入上层索引库才有更多与搜索用户见面的机会;进入下层库机会渺茫。所以,索引量总体的增加减少并不能说明流量会有什么变化;√ 索引量变化不直接影响流量变化:当流量发生巨大变化时,索引量数据可以作为排查原因的渠道之一,但不是唯一排查渠道,索引量变化并不直接影响流量变化;√ 索引量浮动情况,索引量上下浮动10%(经验值),甚至更多,都可能属于正常。只要流量变化不大就不用紧张。
4.2.2流量与关键词工具流量与关键词工具提供站点的热门关键词在百度搜索结果中的展现及点击量数据,通过对关键词表现情况的监控,帮助网站更好进行优化,流量与关键词工具可全面帮助站长了解网站在百度搜索引擎中的表现,决定页面及网站的优化方向,为网站运营决策提供分析依据。关于流量与关键词工具,还有一点需要强调,如果站长需要在反馈中心中提交关于网站流量异常的情况,请使用此工具的数据、及数据截图作为证据,便于工作人员分析网站问题。 4.2.3抓取频次工具什么是抓取频次抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,百度蜘蛛会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。什么情况下可以进行抓取频次上限调整:首先,百度蜘蛛会根据网站服务器压力自动进行抓取频次调整;其次,如果百度蜘蛛的抓取影响了网站稳定性,站长可以通过此工具调节百度蜘蛛每天抓取网站的频次上限。强调1:调整抓取频次上限不等于调高抓取频次;强调2:建议站长慎重调节抓取频次上限值,如果抓取频次过小则会影响百度蜘蛛对网站的及时抓取,从而影响索引。
4.2.4抓取诊断工具什么是抓取诊断抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。每个站点每周可使用200次,抓取结果只展现百度蜘蛛可见的前200KB内容。抓取诊断工具能做什么目前抓取诊断工具有如下作用:√ 诊断抓取内容是否符合预期,譬如很多商品详情页面,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验;http://zhanzhang.bj.bcebos.com/files/052521511339719.png
√ 诊断网页是否被加了?础⒁?匚谋尽M?救绻?缓冢?赡鼙患由弦?氐牧唇樱?庑┝纯赡苤辉诎俣茸ト∈辈懦鱿郑?枰?么俗ト」ぞ哒锒稀?/font] 4.2.5抓取异常工具什么是抓取异常百度蜘蛛无法正常抓取,就是抓取异常。通常网站出现抓取异常,都是网站自身原因造成,需要网站根据工具提示,尽快自查网站问题并解决。抓取异常对网站有哪些影响对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、搜索评价上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。抓取异常的原因有哪些● 网站异常√ DNS异常:当百度蜘蛛无法解析网站的IP时,会出现DNS异常。可能是网站IP地址错误,或者域名服务商把百度蜘蛛封禁。请使用whois或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新网站IP地址;√ 连接超时:抓取请求连接超时,可能原因服务器过载,网络不稳定;√ 抓取超时:抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足;√ 连接错误:无法连接或者连接建立后对方服务器拒绝。● 链接异常√ 访问被拒绝:爬虫发起抓取,httpcode返回码是403;√ 找不到页面:爬虫发起抓取,httpcode返回码是404;√ 服务器错误:爬虫发起抓取,httpcode返回码是5XX;√ 其他错误:爬虫发起抓取,httpcode返回码是4XX,不包括403和404。 4.3提交工具
4.3.1链接提交工具目前一共有4种提交方式,分别是主动推送、Sitemap、手工提交和自动推送,这四种推送方式的区别,请看下图:建议有新闻属性站点,使用主动推送进行数据提交;新验证平台站点,或内容无时效性要求站点,可以使用Sitemap将网站全部内容使用Sitemap提交;技术能力弱,或网站内容较少的站点,可使用手工提交方式进行数据提交;最后,还可以使用插件方式,自动推送方式给百度提交数据。http://zhanzhang.bj.bcebos.com/files/000521511339914.png
使用链接提交工具,还需要注意的是,部分网站会采用第三方插件推送数据,插件推送方式需要站长仔细检查推送逻辑,之前发生过站长使用第三方插件推送数据,而第三方插件采用域名+标题进行推送,这样导致推送给百度的URL中存在中文字符,带有中文字符的URL会301跳转到真实的URL上,出现此类情况,是无法享受快速抓取优待的。链接提交工具可以快速帮助站点实现内容抓取,使用第三方插件可以快速帮助站长解决推送的问题,站长只需在选择插件时,仔细检查下插件数据逻辑,否则推送错误数据,网站数据无法享受快速抓取优待。
4.3.2死链提交工具为什么要使用死链工具当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。注意事项:√ 请推送协议死链数据,死链工具仅支持协议死链数据;√ 提交死链被删除后,网站可以删除已提交的死链文件,否则搜索仍会继续抓取死链文件,确认文件中内容。什么是死链规则提交?死链规则是链接前缀,且匹配前缀的链接全部是死链。目前支持两种死链规则:√ 目录规则:以“/”结尾的前缀;√ CGI规则:以“?”结尾的前缀。什么是死链文件提交?√ 站长需要提交已被百度建索引的、且需要删除的链接,如链接在百度搜索不到,则可以不提交死链;√ 需要删除的链接需要全部设置为404,如发现有链接非死链,会导致文件校验失败,从而无法删除死链;√ 如死链文件抓取失败,可以通过抓取诊断工具判断死链文件是否可以正常抓取;√ 站长提交死链后,请不要在robots中封禁百度蜘蛛,封禁百度蜘蛛会影响链接的正常删除;√ 如果需要删除的链接已经被删除,请及时的删除掉死链文件;√ 提交死链工具,最长需要2-3天生效死链。如站长发现链接未被删除,一周后可以重新提交。规则提交:√ 规则死链不支持通配符;√ 规则死链必须是以?或者 /结尾的规则。关于死链提交的常见问题√ 网站死链数据,除了使用死链提交工具,还可以使用robots屏蔽百度抓取,百度将根据robots文件中的规则,不再抓取该内容,如果该内容线上已经展现,将会进行屏蔽;√ 已经提交死链的文件,蜘蛛仍会继续抓取,检查文件中是否有更新的链接;如抓到更新的链接,将再次校验网站;如死链提交已生效,且此文件后续将不再更新,可以直接在工具中将文件删除;√ 搜索资源平台中的链接分析工具,有死链分析功能,可以帮助网站发现站内死链。
4.3.3移动适配工具什么是移动适配,移动适配工具的作用移动适配工具主要用于,如果网站同时拥有PC站和移动站,且二者能够在内容上对应,即主体内容完全相同,网站可以通过移动适配工具进行对应关系,便于百度来识别PC和移动站之间的关系。站长通过移动适配工具提交pattern级别或者URL级别的PC页与手机页对应关系,若可以成功通过校验,将有助于百度移动搜索将移动用户直接送入对应的手机页结果。积极参与“移动适配”,将有助于的手机站在百度移动搜索获得更多流量,同时以更佳的浏览效果赢取用户口碑。移动适配工具如何使用当网站同时拥有移动站点和PC站点、且移动页面和PC页面的主体内容完全相同,就可以在通过百度搜索资源平台(原百度站长平台)提交正确的适配关系,获取更多移动流量。第一步:注册并登录百度搜索资源平台(原百度站长平台);第二步:提交PC网站并验证站点与ID的归属关系,具体验证网站归属方法可见帮助文档;第三步:站点验证后,进入“网站支持”――“数据引入”――“移动适配工具”,选择具体需要进行移动适配的PC站,然后“添加适配关系”;第四步:根据自己提交的适配数据特点,选择适合网站的提交方式。目前移动适配工具支持规则适配提交URL适配提交,无论使用哪种方式都需要先指定PC与移动站点,此举可以令平台更加快速地检验提交的数据、给出反馈,顺利生效。同时在之后步骤中提交的适配数据中必须包含指定的站点,否则会导致校验失败;1)规则适配:当PC地址和移动地址存在规则(pattern)的匹配关系时(如PC页面www.test.com/picture/12345.html,移动页面m.test.com/picture/12345.html),可以使用规则适配,添加PC和移动的正则表达式,正则的书写方式详见工具页面《正则格式说明》。强烈建议使用规则适配,一次提交成功生效后,对于新增同规则的URL可持续生效,不必再进行多次提交。同时该方式处理周期相对URL适配更短,且易于维护和问题排查,是百度推荐使用的提交方式。2)URL适配:当规则适配不能满足适配关系的表达时,可以通过“URL对文件上传”功能,将主体内容相同的PC链接和移动链接提交给百度:文件格式为每行前后两个URL,分别是PC链接和移动链接,中间用空格分隔,一个文件最多可以提交5万对URL,可以提交多个文件。另外网站还可以选择“URL对批量提交”,在输入框中直接输入URL对,格式与文件相同,但此处一次性仅限提交2000对URL。第五步:提交适配数据后,关注移动适配工具会提供状态说明,若未适配成功,可根据说明文字和示例进行相应的调整后更新提交适配数据。
4.3.4、robots什么是robots文件robots是站点与蜘蛛沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎抓取的部分或者指定搜索引擎只抓取特定的部分。请注意,仅当网站包含不希望被搜索引擎抓取的内容时,才需要使用robots.txt文件。如果希望搜索引擎抓取网站上所有内容,请勿建立robots.txt文件。之前发现很多流量下降的网站示例,最后追查都是因为技术人员通过robots对搜索引擎加了封禁。为了避免站长在设置robots文件时出现错误,百度搜索资源平台(原百度站长平台)特别推出了robots工具,帮助站长正确设置robots。robots.txt文件的格式 robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示: "<field>:<optional space><value><optionalspace>"在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下: User-agent:该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有URL,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。使用"*"and"$":百度蜘蛛支持使用通配符"*"和"$"来模糊匹配URL。 "*" 匹配0或多个任意字符。 "$" 匹配行结束符。最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分网站不想被抓取或抓取的目录的大小写,百度会对robots中所写的文件和网站不想被抓取和抓取的目录做精确匹配,否则robots协议无法生效。 4.4搜索展现工具站点logo百度搜索资源平台推出的免费类工具,可以给到网站品牌曝光、展示。站点logo是百度搜索根据网站评价、用户需求度、用户浏览轨迹等系统分析产出的效果,因此这个工具并不是所有站点都享有权限。
4.4.1站点logo站点申请百度搜索下的logo展示,可以通过搜索资源平台——站点属性——站点logo中进行提交,此工具为免费展示类工具。下图为站点logo的截图示例:http://zhanzhang.bj.bcebos.com/files/039031511340042.png
4.5 维护类工具
4.5.1 网站改版工具当一个站点的域名或者目录发生变化时,如果想让百度快速收录变化之后的新链接、用以替换之前的旧链接,需要使用百度搜索资源平台的网站改版工具来提交网站的改版关系,加速百度对已收录链接的新旧替换。网站换域名对网站的影响,可以参考5.1章节网站换域名。使用改版工具提交改版规则的前提:√ 站点的URL发生了变化,不论是域名还是站点的目录,或者结果页URL发生变化,改版工具都提供支持,这里单独说一点,页面内容发生变化的不在改版工具处理的范围内;√ 如果站点URL的路径和参数部分都没有变化,仅仅是域名改变的,只需要知道每个改版前域名和改版后域名的对应关系,不要有整理遗漏,目前平台不支持主域级别的改版规则提交,需要每个域名都单独提交生效;√ 如果站点URL的路径和参数部分发生变化,但是路径和参数都是有规律可寻的,可以通过规则表达式来整理改版前和改版后的URL对应关系;√ 如果站点的URL改变没有任何规律的情况,需要准确整理出改版前URL和改版后URL的对应关系。站长要准确的找到对应关系,这与改版规则的生效息息相关。有了准确的对应关系后,就可以设置301跳转了。
4.5.2闭站保护工具由网站自身原因(改版、暂停服务等)、客观原因(服务器故障、政策影响等)造成的网站较长一段时间都无法正常访问,百度搜索引擎会认为该站属于关闭状态。站长可以通过闭站保护工具进行提交申请,申请通过后,百度搜索引擎会暂时保留索引、暂停抓取站点、暂停其在搜索结果中的展现。待网站恢复正常后,站长可通过闭站保护工具申请恢复,申请审核通过后,百度搜索引擎会恢复对站点的抓取和展现,站点的评价得分不会受到影响。闭站保护工具的重要tip如下:√ 申请闭站需要保证全站链接都是死链或直接关闭服务器,申请恢复是需要保证网站服务器已经启动并没有死链。为了尽快进行闭站保护/解除闭站保护,保障自身权益,请确保以上条件没问题之后再提交申请(校验很严格,抽样的内容基本需要是100%);√ 闭站保护申请、死链提交等工具,提到的设置死链,都必须是协议死链,即返回码是404,否则会导致无法通过校验。● 内容死链,比如单纯的在网页上写上404,或一张图片上画着404,是不行的。● 判断自己网页返回码是否是404,浏览器里可以直接打开控制台,查看network的doc,刷新页面。http://zhanzhang.bj.bcebos.com/files/066041511340164.png
● 或者可以控制台使用命令:curl -i 网页地址 。● 查返回的信息。http://zhanzhang.bj.bcebos.com/files/057461511340823.png
闭站保护只能保证网站的索引量,不能保证网站的排名。之前有站点反馈闭站保护不好用,因为闭站恢复后网站排名没有了,这里再次强调一下,使用闭站工具只能保留网站的索引量,但不保证网站的排名不变。关于闭站保护常见的问题:√ 闭站保护的通过时间是从提交申请到生效一天内;√ 闭站保护申请恢复,是站点没有任何404页面等情况下,2天内恢复;√ 闭站保护生效之后,首页不会屏蔽,如有网站首页屏蔽需求,可以在搜索资源平台反馈中心提交;√ 闭站保护最长保护时间是180天,过了180天之后的自动放出,如站点有404页面√ 仍会正常屏蔽处理;√ 主站申请了闭站保护后,对应移动站也是需要申请闭站保护的;即使存在适配关系,也只能屏蔽在适配关系中的移动链接,其余不在适配关系中的链接,比如直接被抓取的链接,仍无法屏蔽。 4.5.3HTTPS认证工具使用HTTPS认证工具的收益:网站通过HTTPS认证后,站点在百度搜索的所有快照都会变成HTTPS格式,蜘蛛也会优先抓取HTTPS的链接,让用户在搜索中获得更安全的链接。网站使用HTTPS认证工具的注意事项:√ 保证HTTPS站点正常访问,且页面内引入资源为HTTPS格式,包括引入的视频、图片、CSS、JS等元素;如果网站没有全站HTTPS,申请百度搜索资源平台(原站长平台)HTTPS认知是不会通过的,但是如果系统没有检测到这个情况而通过验证的话,会导致没改造的这部分页面产生死链,所以认证前一定要检测好;√ 如果站点存在HTTP和HTTPS两种协议的页面,必须将HTTP的URL 301到HTTPS的URL上,仅有HTTPS站点的可以直接认证;√ 必须保证HTTP站点与HTTPS的链接一一对应,没有HTTPS对应的HTTP链接可能会被判断成死链接。关于网站做HTTPS回退的注意事项:√ 站点通过认证后,只需要点击退场按钮(在搜索资源平台验证的网站拥有者),就可以退回到HTTP站点了;√ 需要强调的是,点击回退按钮后,要等到显示回退成功了再做其他操作,否则有可能导致网站产生死链接。http://zhanzhang.bj.bcebos.com/files/019091511341358.png
5网站常见问题专题5.1网站换域名
5.1.1网站换域名的定义网站换域名,包括从一个二级域更换到一个新的二级域,或者网站域名整体发生改变,都视为网站换域名。如ent.test.com的内容,要整体换域名到news.test.com;或者网站www.test.com要换域名为www.123.com,以上两种情况都视为换域名。注意以下几点,轻松应对网站换域名:√ 换域名后,建议两个域名同时保存一段时间;√ 网站换域名后,需要把两个网站内容做好301的跳转,强调一点,需要做到正文页对正文页一一对应的跳转,而不是将旧域名内容全部跳转到新域名的首页;√ 网站换域名后,需使用改版工具,在搜索资源平台(原站长平台)提交数据,便于搜索识别新旧域名之间关联;√ 建议网站选择在用户访问网站较少的时间段换域名,如长假期间等。
5.1.2换域名对网站的影响网站换域名需要网站做好301,且使用搜索资源平台(原站长平台)的改版工具,能保证网站的流量损失降到最低;但搜索资源平台(原站长平台)的部分权益是与网站域名绑定,换域名的对网站的注意事项,请关注以下几点:√ 总体来说网站换域名会影响网站排名,不推荐更换域名。若品牌需要等原因,必须换域名,建议做好301跳转规则后,在平台工具提交改版规则和死链处理;√ 网站从目录级更换为二级域名,如之前为www.baidu.com/news/,需更新为news.baidu.com,这类现象通用视为换域名;同样需要需要在平台工具提交改版规则和做好301;√ 网站页面结构改版,仅是页面样式发生变化,不会对排名有影响;无需使用改版工具;√ 强烈建议不要把所有旧域名页面301到新域名首页,建议做新旧域名之间正文页对正文页的301;√ 网站换域名后,搜索资源平台(原站长平台)的VIP权限,站点logo、站点子链不会同步到新域名中,需要网站单独申请。 5.2网站流量异常网站流量异常是站长最担心的问题之一,网站发生流量异常,建议网站先做好站点自查,尽快发现并排除网站自身原因造成的流量波动情况;另外,如网站的索引量数据发生大幅下降,可自查网站是否存在大量过期/无索引内容,如索引量大幅波动,但流量无明显变化,可随时观察网站数据,无须在搜索资源平台(原站长平台)进行问题反馈。
5.2.1网站流量异常自查网站流量异常,应该首先进行全网自查,自查包括以下几个要点:√ 是否屏蔽百度抓取,如百度UA,设定了robots等,屏蔽百度抓取将对网站流量造成巨大影响;√ 网站服务器是否稳定,可以使用百度搜索资源平台,抓取异常及抓取诊断工具,模拟搜索蜘蛛对网站进行抓取,便于及时发现网站问题;√ 网站是否被黑,被劫持,出现网站不安全的行为;√ 网站是否存在大量死链,部分网站在改版等过程中,会出现大量死链,死链的大量存在,会对网站评价造成影响;√ 如网站流量异常来自移动端,需要网站自查移动端落地页体验,是否存在网站被转码&滤镜的可能性,尽快整改,避免流量损失。
5.2.2流量异常反馈网站流量异常,如自查网站并无以上问题,可以通过百度搜索资源平台(原百度站长平台)-反馈中心进行问题提交;反馈中心的问题提交,需要网站具备以下几点:√ 数据证明,需要截图搜索资源平台(原站长平台)-流量与关键词工具的数据截图作为证明,不提倡使用第三方工具截图;√ 关键词下降证明,需提供网站流量下降明显的关键词,及关键词对应的URL 10组,便于工作人员查询问题;√ 如网站索引量大幅下降,而网站流量变化不大,可仔细观察网站情况,不需要在反馈中心进行提交。
5.3HTTPS改造关于网站是否HTTPS化,要看站点具体需求;从网站安全和用户体验上来讲,HTTPS站点更为安全优质,且百度搜索在索引的时候会考虑优先展现用户体验较好的页面;总体来讲,如果条件允许建议网站做HTTPS。有站长提到HTTPS慢不慢的问题,繁重的计算和多次交互天然的影响了HTTPS的访问速度,所以需要网站有针对性的做站的优化,关于网页访问速度的问题,可以详细参考3.1.3.1访问速度章节。 5.3.1全站HTTPS的注意事项√ 建议站长从HTTP到HTTPS的301/302跳转,不建议只有HTTPS,而无HTTP到HTTPS的跳转关系,只用HTTPS访问对用户来说,可能会遇到问题;√ 不建议HTTPS、HTTP这两种版本并存,这种情况存在三种问题,第一个它的维护成本比较高,需要维护两个版本;第二个做不到绝对安全,HTTP访问有不安全风险;第三有不一致的可能性,随着长远的发展这两个版本可能会越来越不一致,会影响用户体验,我们建议站长做了HTTPS之后能对HTTPS做一定的跳转预设;√ HTTPS回退到HTTP极不建议。例如线上已经展示HTTPS的链接给用户点击,如果站长回退到HTTP,用户在浏览器里面点开的时候会展现死链的样式是非常不建议的,做这个之前一定考虑。如果实在想做回退,请在百度搜索资源平台(原站长平台)提交HTTPS校验,并建议站点提前至少24小时在平台提交回退,这样能够保证站长的点击不会出现死链的形式,这点非常重要;√ HTTPS网页没有建设完成之前不要在互联网上提供超链接,之前遇到过好几个case,本身HTTPS并没有做完,两个版本都存在,但是HTTP是用户可访问的,或者说HTTPS的页面是一个临时性的假页面,这样站点有可能就以HTTPS的形式展现出来,会引起用户体验问题。 5.3.2HTTTPS认证工具网站进行HTTPS改造后,为保证百度搜索可以快速识别HTTP和HTTPS站点间对应关系,且尽快进行搜索展示端资源替换,建议站点使用HTTPS认证工具。HTTPS认证工具使用,可参考4.5.3HTTPS认证工具章节。 5.4网站关闭服务器如网站短期内关闭服务器,举例来说,网站仅在一天之内关闭服务器,可不用使用闭站保护工具;如网站需要长时间关闭网站,建议使用闭站保护工具,可反馈蜘蛛闭站期间无需抓取,保护网站评价不受损害。网站如长时间需要关闭网站服务器,推荐使用闭站保护工具,可参考4.5.2闭站保护工具章节,仍有一点需要注意,闭站保护工具生效后,网站首页不会被屏蔽,如网站有首页屏蔽的需求,需要单独在搜索资源平台反馈中提交。 5.5新站扶持
5.5.1新站点三步走新站搭建成功后,应该做些什么,能得到搜索资源平台(原站长平台)哪些优待呢?新站入驻,先来三步走:第一步:站点验证,在搜索资源平台(原站长平台)验证网站后,可以了解网站在搜索的数据表现,以及使用平台工具向百度提交数据等;第二步:向百度提交数据,网站可以通过链接提交工具-Sitemap,将站点数据打包提交给百度,便于百度更快发现网站;第三步:新站保护,符合新站保护目标站点,则会在链接提交工具中发现隐藏板块-新站保护工具,使用此工具向百度提交数据,可更好的保证网站内容被百度抓取到。
5.5.2新站保护工具百度搜索资源平台(原百度站长平台)2017年9月份上线新站保护工具,此工具针对索引量极低的网站开放,且仅符合要求的网站可以在百度搜索资源平台(原百度站长平台)工具中看到此工具。关于新站保护工具的一些常见问题,可以通过以下得到解答:符合新站保护要求的网站,需关注以下注意事项:√ 新站保护工具权限是自动开通,符合要求的站点均会自动开通,无需申请;√ 新站保护中需填写备案信息,备案信息仅需要填写主体备案号即可;√ 建议提交网站容页URL;√ 此工具仅对站点进行2个月的保护,两个月后权限会自动关闭。
5.6流量统计
5.6.1百度统计百度统计是百度推出的一款免费的专业网站流量分析工具,能够告诉用户访客是如何找到并浏览用户的网站,在网站上做了些什么,有了这些信息,可以帮助用户改善访客在用户的网站上的使用体验,不断提升网站的投资回报率。百度统计提供了几十种图形化报告,全程跟踪访客的行为路径。同时,百度统计集成百度推广数据,帮助用户及时了解百度推广效果并优化推广方案。基于百度强大的技术实力,百度统计提供了丰富的数据指标,系统稳定,功能强大但操作简易。登陆系统后按照系统说明完成代码添加,百度统计便可马上收集数据,为用户提高投资回报率提供决策依据。是提供给广大网站管理员免费使用的网站流量统计系统,帮助用户跟踪网站的真实流量,并优化网站的运营决策。 5.6.2百度统计与流量与关键词区别关于流量与关键词工具的介绍,在4.2.2中已经有过介绍,这里重点强调下流量与关键词工具,与百度统计的区别。搜索资源平台流量与关键词工具,只记录来自百度自然搜索的内容,什么是自然搜索,是指除了广告、阿拉丁之外的搜索点击量;另外,流量与关键词工具,将PC端的点击量和移动端的点击量,是分开统计的,站长查看精确数据,需要结合PC端和移动端一起看;百度统计,统计的是来自百度搜索的全部UV或PV。简言之,百度搜索资源平台(原百度站长平台)流量与关键词工具,提供的是来自百度搜索的自然搜索的点击量,即搜索用户每次从百度点击进入页面的那个动作次数,点击一次算一次量;百度统计,计算的是来自百度搜索的全PV和UV,数据更详细更充分。从站长使用角度出发,如果网站想了解纯SEO流量,可以使用流量与关键词工具,如果想知道所有从百度过来的点击,可以使用百度统计。
5.7反馈沟通渠道
5.7.1反馈中心百度自然搜索结果下的网站问题,都可以通过反馈中心进行提交反馈。如网站流量下降、网站抓取建索引等问题,都可以通过反馈中心提交,并快速获得答案。这里提示各位站长,提交问题反馈需要具备充足的说明,包括并不限于数据截图,数据变化等,方便反馈中心同事更快解决网站问题。以流量异常为例,反馈参考示例如下:网站与2017年8月8日发生流量大幅异常,网站来自百度流量整体下降50%,(附流量与关键词工具的截图),自查网站并无问题,服务器稳定。网站流量下降严重的关键词如下:(需十组)百叶窗,URL:http://www.abc.com/news/baiye123,之前排在搜索结果第一位,现在排在搜索第二页。反馈中心入口为:PC——百度搜索资源平台首页——右侧小飘窗,地址:http://ziyuan.baidu.com/feedback
5.7.2自动问答关于网站如何优化、友好建站、搜索规则等问题,站长如果想通过自我学习的方式了解,除了可以通过百度搜索资源平台,更可以访问搜索学院推出的自助问答服务,快速了解搜索知识。搜索学院的自动问答系统涵盖学院所有历史文章,及站长常见QA;且对于站长提问,每周都会进行问题整理盘点,内容补充。欢迎各位体验搜索学院的自动问答系统,地址:https://ikefu.baidu.com/web/zhanzhangpingtai
页:
[1]