← 返回所有博客文章
阻止机器人
大卫·贾尼克
大卫·贾尼克
更新于 21/02/2024 – 6 分钟阅读
博客
机器人是一种经过编程以执行某些任务的软件应用程序。机器人(或机器人)是自动化的,这意味着它们根据编程指令运行,而无需人类用户手动触发它们。这些机器人通常模仿或取代人类用户的行为。它们通常会执行重复性任务,并且比人类用户更快地完成这些任务。
机器人通常通过网络工作。超过一半的互联网流量由扫描内容、与网页交互、与用户聊天或搜索攻击目标的机器人组成。
当然,并非所有机器人都是坏的。例如。搜索引擎机器人会索引内容,以便我们可以找到它。反病毒公司则扫描网络以分析恶意软件并报告新的攻击。反过来,学者可以控制假新闻的传播并分析搜索引擎的数据。
恶意机器人活动是什么样的?
不幸的是,还有很多不好的鞋子。它们被编程为侵入用户帐户、扫描网络以获取联系信息以及执行其他恶意活动。如果机器人连接到互联网,它肯定会有一个关联的 IP 地址。
VPS中心
免费试用我们的服务器和域管理应用程序。您会感觉自己像一位经验丰富的管理员。
机器人还可以:
下载和扫描网络上的内容
DoS 或 DDoS
他们通过暴力破解了密码
通过 Internet 收集电子邮件地址
点击广告并操作分析工具
一双好鞋是什么样的?
即使是优秀的机器人也能在互联网上航行。一个好的机器人是能够执行有用的任务或帮助互联网用户而不损害任何人的用户体验的机器人。
好的机器人有很多种,每种都是为不同的任务而设计的。以下是一些示例:
搜索引擎机器人– 它们抓取
或审查互联网上几乎每个网站上的内容,然后为该内容建立索引,以便它可以出现在用户的搜索结果中。它们由 Google、DuckDuckGo 或 Bing 等搜索引擎运营。
版权机器人——它们爬行各种平台或网站,寻找可能侵犯版权的内容。这些鞋子可由拥有受版权保护的材料的任何个人或公司运营。它可以验证重复的文本、音乐、图像或视频。
Web 监控机器人– 监控网站指标(反向链接跟踪、中断)并可以提醒用户重大变化。
商业机器人- 在互联网上搜索信息。这些机器人可能由跟踪新闻或客户评论的市场研究公司、优化广告服务位置的广告网络或抓取客户网站的 SEO 机构运营。
Feed 机器人– 它们在互联网上爬行,寻找值得添加到平台 Feed 的内容。这些机器人可能会运营内容聚合网站或社交媒体网络。
本文研究了 WhatsApp 号码数据对 WhatsApp 号码数据 消费者购买决策的影响。它重点关注企业如何使用 WhatsApp 进行个性化沟通、快速支持和专业促销。根据研究,通过该平台直接联系可以增加信任和消费者忠诚度,这对购买决策有重大影响。有效使用 WhatsApp 的公司可以加强客户关系并增加销售额。
聊天机器人– 通过使用预编程的响应来响应用户,从而模仿人类对话。有些聊天机器人非常复杂,足以进行长时间的对话。
个人协助机器人:如 Siri 或 Alexa:尽管这些程序比典型的机器人先进得多,但它们仍然是机器人:抓取网络并搜索数据的计算机程序。
什么是 robots.txt?
正确的机器人管理首先要在网站的 robots.txt 文件中正确设置规则。 robots.txt 文件是驻留在 Web 服务器上的文本文件,用于指定访问托管网页或应用程序的所有机器人的规则。这些规则定义机器人可以爬行和不能爬行哪些页面、可以跟踪哪些链接、不能跟踪哪些链接以及机器人行为的其他要求。
好的机器人遵循这些规则。例如,如果网站所有者不希望其网站上的某个页面出现在 Google 搜索结果中,您可以在 robots.txt 文件中编写一条规则,Google 的机器人将不会将该页面编入索引。尽管 robots.txt 文件实际上无法强制执行这些规则,但优秀的机器人会在执行其他操作之前找到该文件并遵循规则。
然而,不良机器人通常会忽略或读取 robots.txt 文件,以查看网站试图阻止机器人接触到的内容,然后访问它。
因此,管理机器人需要一种更积极的方法,而不是简单地在 robots.txt 文件中设置机器人行为规则。
使用 .htaccess 阻止机器人
使用 .htaccess 文件可以快速有效地阻止。一旦保存文件,规则就会立即激活。只需编辑根文件夹/www
中的 .htaccess 即可。
Freelo – 任务和项目管理工具
加入、邀请您的团队和客户、划分工作并观察任务的进展。
您可以阻止机器人或用户代理的 IP 地址。
Require all granted
Require not ip 127.0.0.1/32 #zablokuje IP adresu nebo celý rozsah
Require not env SemrushBot #zablokuje user-agenta
同时,您可以启用 IP 地址或用户代理。
Require ip MOJE_IP_V_KANCELARI/32
Require ip MOJE_IP_V_DOMA/32
Require ip MOJE_IP_VPN/32
Require env Google
机器人经常更改 IP 地址,因此您对此无能为力。这就是我们建议按名称阻止的原因。
我们为您准备了一份这样的条目。
今年 9 月,Linux 内核迎来了三十周年纪念。在采访的第二部分,我们结束了对Linux创始人Linus Torvalds的采访。如果您还没有,请查看第一部分,了解有关 Linux 内核开发和创建 Git 版本控制系统的所有信息。
采访第一部分:Linux 和 Git
来源:tag1consulting.com
在第二部分中,Linus 提供了他在管理一个大型开源项目三十年来所获得的见解和观点。他还谈到了他在 Linux 基金会的工作以及他在不从事内核开发时的业余时间所做的事情。
VPS中心
免费试用我们的服务器和域管理应用程序。您会感觉自己像一位经验丰富的管理员。
至于开源项目成功的秘诀是什么,Linus 承认,“我真的不知道成功的关键是什么。是的,Linux 已经非常成功,而且显然 Git 也起步顺利,但总是很难真正将其归因于任何更深层次的原因。也许我只是运气好?”他接着提出了他自己遵循的三个实用建议:为其他开发人员提供帮助,保持开放和诚实。
当 Linus 开始这个项目时,他写了每一行代码。“我仍然记得人们给我寄补丁的第一天。我实际上并没有将它们用作补丁,但我阅读了它们,找出了人们想要做什么,然后自己做了。这就是我开始这个项目的方式,我感觉更舒服,也更了解代码。”重要的是学会委派:“我很快就开始委派,因为我本质上很懒。我非常仔细地阅读了这些补丁并了解它们在做什么,然后就应用了它们。”
随着 Linux 的发展和变得更加
成功,Linus 也试图保持公正:“例如,我非常有意识地不想为 Linux 公司工作。在最初的十年里,我 太原手机号码列表 维护 Linux,但它并不是我的工作。不是因为我认为商业利益不好,而是因为我希望人们将我视为中立的一方,而永远不会觉得我是‘竞争对手’。”
当被问及开源是否可持续时,Linus 回答说:“是的。我个人 100% 相信开源不仅是可持续的,而且确实需要开源来解决复杂的技术问题,因为问题空间最终太复杂而无法由单个公司管理。即使对于一家大型且有能力的技术公司也是如此。
来源:tag1consulting.com
最后,Linus 透露了他将继续在 Linux 上工作多久:“我喜欢我所做的事情,只要我觉得我真正在帮助这个项目,我就会在这里。”
开源项目的管理
Jeremy Andrew (JA):我们最近与 Drupal 创建者 Dries Buytaert 进行了交谈,他认为您在过去 20 年运行流行的 Drupal CMS 中获得了很多灵感以及偶尔的指导和建议。您是否经常与其他开源项目的维护者沟通,无论是指导他们还是只是交换笔记?其他开源管理员多久向您寻求建议或帮助?
Linus Torvalds (LT):我不了解其他人,但不,我个人不倾向于与其他开源项目进行太多互动,仅仅是因为我倾向于是一个相当“片面”的人。我想这就是为什么我在三十年后仍然在做核心维护:有些人从一个项目跳到另一个项目,而另一些人(比如我)最终会在相当长的一段时间内专注于一件事。
Freelo – 任务和项目管理工具
加入、邀请您的团队和客户、划分工作并观察任务的进展。
然而,开发人员经常重叠很多,许多开发人员从事多个开源项目。当然,不同的项目会相互影响,因为它们共享共同的基础设施。因此,存在这种交叉融合,人们最终会在同一个会议上见面(回到他们举行的时候)等等。
( Mario Behling的“ Linus Torvalds at GSoC Reunion 2014 ”已获得CC BY 2.0许可。)
JA:作为一名开源项目经理,您学到了哪些可以帮助其他人成功管理项目的重要经验?
LT:这个问题很难回答,因为我真的不知道成功的关键是什么。是的,Linux 非常成功,Git 显然也取得了良好的进展,但总是很难真正将其归因于任何更深层次的原因。也许我只是幸运?
因为运气和时机以及“
在正确的时间出现在正确的 我应该多久更新一次我的博客?[b2b内容营销人员指南] 地点”非常重要。我认为使用 Linux 和 Git,我启动的项目最终成为了很多人需要的项目,即使他们不一定知道自己需要它们。这只是运气吗?或许。或者说,在所有需要这些项目的人中,我是唯一一个挺身而出、开展工作并让它继续下去的人?
我的自我更喜欢第二种选择,但诚实让我说你也真的想要幸福,并且你需要选择正确的项目。人们真正需要的那一种。