- 【新建页面URL层级<=4】一般新建未来具有搜索流量捕获能力的,均由SEO来设计url路径规则。
- 【禁用iframe框架、异步、flash、javascript等源码中无法显示具体内容的加载方式】商业爬虫虽有模拟浏览器加载的能力,但限于成本短期不会大规模铺开,所以iframe、异步加载的内容对爬虫属于暗网。
- 【网页埋点添加跟踪参数,使用onmousedown方式而非tracelog】全站埋点均通过先鼠标点击触发,url在拼接统计参数的形式。而非直接在href中把统计参数加在url上
- 【URL不包含参数或会话ID】这些技术可能会导致spider对网站检索不完整,因为spider或许无法排除url不同,但实际都是同一套页面的地址。
- 【请求头添加If-Modified-Since】爬虫spider一定概率根据该标签获知网页是否更新,判定是否进入抓取列表。一定程度上减少重复页面的抓取次数,提高抓取新页面/更新页面的效率
- 【禁用隐藏文本及链接】
- 【禁用隐藏内容或欺骗性的重定向】常见如登陆打断(各种论坛、及之前看准网也存在),若因产品需求必须面向用户隐藏,则需对符合爬虫spider的UA或者IP开放完整内容。
- 【页面正式开发前需要SEO介入】产品部门进行产品评审阶段,需要SEO介入,以确保页面是否符合SEO友好规范。以避免页面上线后,SEO在发现问题,出需求调整,增加本可避免的时间成本。
- 【全站添加移动适配标签(若有对应的M页)】
- PC页面,如:
<meta name="mobile-agent" content="format=html5;url=https://m.1688.com/offer_search/-BBFAD6C6C4CDBBF0C7F2.html">
<meta name="mobile-agent" content="format=xhtml;url=https://m.1688.com/offer_search/-BBFAD6C6C4CDBBF0C7F2.html">
<link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.1688.com/offer_search/-BBFAD6C6C4CDBBF0C7F2.html" />
PS:三个都加
- M页面,如:
<link rel="canonical" href="http://m.1688.com/offer_search/-BBFAD6C6C4CDBBF0C7F2.html"/>
- PC页面,如:
- 【全站添加禁止转码标签(M和PC页面均添加)】
`<meta http-equiv=”Cache-Control” content=”no-transform” />` `<meta http-equiv=”Cache-Control” content=”no-siteapp” />`
- 【添加结构化数据标签】详情文档见360文档:[http://www.so.com/help/help_3_9.html]
360搜索结果中的略缩图,全部引用结构化数据标签中的
property="og:image"
- 【统计代码】所有页面均需要添加GA统计代码
版权声明:本文由e路人发布,转载请注明出处。如本站文章转稿涉及版权等问题,请及时联系2841548687@qq.com,我们会在5个工作日内处理。