运维开发网

如何允许已知的网络抓取工具阻止垃圾邮件发送者和有害机器人扫描asp.net网站

运维开发网 https://www.qedev.com 2020-06-07 17:57 出处:网络 作者:运维开发网整理
如何配置我的网站以允许从众所周知的机器人抓取 像谷歌,bing,雅虎,alexa等,并阻止其他有害的垃圾邮件发送者,机器人 我应该阻止特定的IP吗?请讨论任何优点,缺点 在web.config或IIS中要做什么? 我可以在服务器范围内进行吗?如果我有root访问权限的vps? 谢谢. 我建议你看一下我发给类似问题的答案: How to identify web-crawler? robots.tx
如何配置我的网站以允许从众所周知的机器人抓取

像谷歌,bing,雅虎,alexa等,并阻止其他有害的垃圾邮件发送者,机器人

我应该阻止特定的IP吗?请讨论任何优点,缺点

在web.config或IIS中要做什么?

我可以在服务器范围内进行吗?如果我有root访问权限的vps?

谢谢.

我建议你看一下我发给类似问题的答案: How to identify web-crawler?

robots.txt的

robots.txt对礼貌机器人很有用,但垃圾邮件发送者通常不礼貌,所以他们往往会忽略robots.txt;如果你有robots.txt这很好,因为它可以帮助有礼貌的机器人.但是,请注意不要阻止错误的路径,因为它可以阻止好机器人抓取您实际希望他们抓取的内容.

用户代理

用户代理阻止也不是万无一失,因为垃圾邮件发送者经常冒充浏览器和其他流行的用户代理(例如Google机器人).事实上,欺骗用户代理是垃圾邮件发送者可以做的最容易的事情之一.

机器人陷阱

这可能是保护自己免受机器人攻击并且无法正确识别用户代理的机器人的最佳方法.至少有两种类型的陷阱:

> robots.txt陷阱(仅在机器人读取robots.txt时才有效):在robots.txt中专门设置一个禁止目录,并设置服务器以阻止尝试访问该目录的任何实体的IP地址.

>在您的网页中创建“隐藏”链接,这些链接也会导致禁止目录以及任何抓取这些链接并且不遵守您的robots.txt的机器人将进入陷阱并阻止IP.

隐藏链接是人不可见的链接,例如没有文本的锚标记:< a href =“http://www.mysite.com/path/to/bot/trap”>< / a取代.或者,您可以在锚标记中包含文本,但是您可以使字体非常小并更改文本颜色以匹配背景颜色,以便人类无法看到链接.隐藏的链接陷阱可以捕获任何非人类机器人,因此我建议您将它与robots.txt陷阱结合使用,以便您只捕获坏机器人. 验证机器人

上述步骤可能会帮助您摆脱99.9%的垃圾邮件发送者,但可能会有少数坏机器人冒充一个受欢迎的僵尸程序(如Googlebot)并遵守您的robots.txt;这些机器人可能会耗尽您为Googlebot分配的请求数量,并可能导致您暂时不允许Google抓取您的网站.在这种情况下,您还有一个选项,那就是验证机器人的身份.大多数主要的抓取工具(你想要被抓取)有一种方法可以识别他们的机器人,这是Google建议验证他们的机器人:http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html

任何模仿另一个主要僵尸程序并且验证失败的机器人都可能被IP阻止.这应该可以让你更接近阻止99.99%的坏机器人抓取您的网站.

扫码领视频副本.gif

0

精彩评论

暂无评论...
验证码 换一张
取 消

关注公众号