YisouSpider耗费大量的服务器资源,是否要屏蔽它?
YisouSpider 是神马搜索(由阿里旗下推出、主要集成在 UC 浏览器中的移动搜索引擎)的爬虫。如果你发现它“疯狂抓取”你的网站,确实可能带来服务器压力(如 CPU 飙升、带宽占用、响应变慢等),尤其在未做限流或防护的情况下。
是否有必要让它抓取,以及禁止后有什么弊端,需要结合你的业务目标来判断:
一、是否有必要让 YisouSpider 抓取?
你的网站有移动端用户,且希望在 UC 浏览器内置搜索(即神马搜索)中获得曝光和流量;
你重视来自中国市场的移动端 SEO,而神马搜索在中国移动搜索市场占有一定份额(约 5%~10%,仅次于百度、360);
你的内容适合被索引(如新闻、电商、本地服务、知识类内容等);
你已对爬虫做了合理限速(如通过 robots.txt、服务器限频、CDN 防护等),不会影响正常访问。
可以考虑限制或屏蔽的情况:
你的网站完全不面向中国用户,或明确不需要神马搜索的流量;
YisouSpider 抓取频率过高,导致服务器负载异常,且你无法通过技术手段有效限流;
你的内容是付费、私有或敏感信息,不希望被任何搜索引擎收录;
你已确认神马搜索带来的流量极低,但资源消耗显著(投入产出比太差)。
二、禁止 YisouSpider 的潜在弊端
失去神马搜索的自然流量
被屏蔽后,你的网页将不会出现在神马搜索结果中,可能损失一部分移动端用户(尤其是三四线城市或使用 UC 浏览器的用户)。
影响整体 SEO 布局
虽然神马权重不如百度,但在某些垂直领域(如小说、影视、本地生活)仍有价值。完全屏蔽可能让你在多引擎分发策略中处于劣势。
误判风险
如果仅通过 User-Agent 屏蔽(如 YisouSpider),可能被绕过;如果 IP 封禁不全,也可能漏掉新 IP 段。
三、更推荐的做法:限流而非完全禁止
与其彻底屏蔽,不如采取温和控制策略:
方法 1:通过 robots.txt 限制抓取频率或目录
User-agent: YisouSpider
Crawl-delay: 10 # 延迟10秒抓取一次(部分爬虫支持)
Disallow: /admin/
Disallow: /private/
注意:YisouSpider 不一定严格遵守 Crawl-delay,但至少表达了意愿。
方法 2:通过 Nginx/Apache/IIS 限制请求频率
方法 3:使用 CDN 或 WAF(如阿里云、Cloudflare)设置规则
识别 UA 为 YisouSpider 的请求;
设置 QPS 限制(如每秒最多 1~2 次);
超出则返回 429 或验证码。
服务器环境为iis,如何让YisouSpider仅仅抓取index.asp、product.asp页面
在 IIS(Internet Information Services)环境下,你可以通过 robots.txt 文件 和 URL 重写规则(使用 URL Rewrite 模块) 相结合的方式,来限制 YisouSpider 仅抓取 index.asp 和 product.asp 页面。
方法一:使用 robots.txt(基础控制)
这是最标准、对搜索引擎友好的方式。YisouSpider 通常会遵守 robots.txt 协议。
步骤:
在网站根目录创建或编辑文件:
robots.txt
写入以下内容:
User-agent: YisouSpider
Allow: /index.asp
Allow: /product.asp
Disallow: /
说明:
User-agent: YisouSpider:只针对神马爬虫生效。
Allow 行明确允许两个页面;
Disallow: / 禁止抓取其他所有路径;
注意顺序:部分爬虫按“最先匹配”原则处理,但主流引擎(包括神马)通常遵循“最具体规则优先”。为保险起见,把 Allow 放在 Disallow 前面更稳妥。
注意:如果 product.asp 有带参数的动态链接(如 /product.asp?id=123),你需要确认 YisouSpider 是否能正确识别这类 URL。如有必要,可补充:
Allow: /product.asp?
方法二:IIS URL Rewrite(强制拦截 + 返回 403/410)
robots.txt 依赖爬虫自觉遵守,但无法阻止恶意或不规范的爬虫。如果你发现 YisouSpider 仍在抓取其他页面,可通过 IIS 的 URL Rewrite 模块 主动拦截。
最终效果验证
请求 URL 是否允许
/index.asp ✅
/index.asp?cid=156 ✅
/product.asp ✅
/product.asp?id=654 ✅
/about.asp ❌(403)
/index.aspx ❌
/index.asp/extra ❌(路径非法)
共 1 页 1 条数据
