有时您必须阻止 Google 抓取您的网站。
执行此操作的方法是创建一个名为 robots.txt 文件的小文件。
但不要让它的大小欺骗了你;如果使用得当,它可以提高您的搜索引擎优化 (SEO)。
如果使用不当,您的内容可能永远不会见诸世人。
在这篇文章中,我们将讨论:
robots.txt 的含义
何时应使用 robots.txt 文件
如何创建 robots.txt 文件
robots.txt 文件的一些示例
什么是 robots.txt 文件?
robots.txt 文件通常位于网站的根目录中,指示网络爬虫应从爬网或索引中排除哪些页面。该文件对于管理搜索引擎访问、防止内容被索引以维护隐私、控制带宽使用或将搜索引擎的注意力集中在网站的重要区域至关重要。
robots.txt 文件是一组称为机器人排除协议 (REP) 的网络标准的一部分,该标准规范网络机器人如何抓取网络以索引内容。
在这个例子中:
想要扩大您的营销范围从最新 购买批量短信服务 邮件数据库“购买批量短信服务与德克萨斯州 Global City 的客户建立联系我们的批量短信营销平台提供快速可靠的交付确保您的信息到达西部地区的正确受众使用我们高效的批量短信解决方案推广您的产品发送更新并推动转化这些解决方案旨在提高您的营销活动效果.
User-agent: * 是一个通配符,将规则应用于所有网络爬虫或机器人。
Disallow:指定不应抓取的目录或文件。例如,/private/ 目录和 /restricted-page.html 文件是禁止访问的。
允许用于覆盖禁止规则。在这种情况下,虽然不允许整个 /images/ 目录,但允许 /images/public/ 子目录。
如何查找 robots.txt 文件
查找网站的 robots.txt 文件很简单。通常,您可以通过输入网站主页的 URL 并添加“/robots.txt”来查看它。
例如:
cheq.ai 的 Robots.txt 文件
为什么需要 robots.txt 文件?
一般来说,您应该检查您的 robots.txt 文件,作为 为何以及如何屏蔽不适当的网站 全面网站审核的一部分。但您的网站可能不需要 robots.txt 文件。如果没有,Google 机器人将抓取您的整个网站。如果您希望将整个网站编入索引,这正是您希望它执行的操作。如果您想更好地控制搜索引擎抓取的内容,则只需要一个。
以下是您需要 robots.txt 文件的主要场景:
1. 抓取预算优化
每个网站都有一个抓取预算。这意味着 DX 线索 在给定的时间范围内,Google 将抓取网站上有限数量的页面。
如果您网站上的网页数量超出了抓取预算,则有些网页将无法进入 Google 索引。当您的网页不在 Google 索引中时,它们在搜索中排名的机会就很小。
优化这一点的一种简单方法是确保搜索引擎机器人不会抓取不需要频繁抓取的低优先级或非必要内容。这可能包括重复的页面、档案或动态生成的内容,这些内容不会显着影响搜索排名。
这将节省您想要索引的页面的抓取预算。
您可以使用Similarweb 的网站分段工具设置网站分段分析,轻松监控网站的非必要部分。这将显示这些页面是否被索引。只需设置一个涵盖您所有内容的细分即可。您可以选择任何规则,包括:
文件夹
文本的任何变体
准确的文字
确切的网址
下面,我们为 上的 /gp/ 子文件夹设置一个分段。
创建新的网站部分
设置细分后,请转到营销渠道报告并查看有机流量。这将快速显示该网站段是否正在获得流量并耗尽您的抓取预算。在下面,您可以看到我们跟踪的细分在一年内获得了 491,600 次访问。
显示有机流量的营销渠道报告
2. 避免重复内容问题
对于许多网站来说,重复的内容是不可避免的。例如,如果您正在运行一个电子商务网站,并且您有多个产品页面,这些页面可能会在单个关键字上排名。 Robots.txt 是避免这种情况的简单方法。
3. 优先考虑重要内容
通过使用Allow:指令,您可以明确允许搜索引擎对您网站上的特定高优先级内容进行爬网和索引。这有助于确保重要页面被发现并建立索引。
4. 防止管理或测试区域索引
如果您的网站有不应编制索引的管理或测试区域,则在 robots.txt 文件中使用 Disallow: 可以帮助防止搜索引擎在搜索结果中包含这些区域。
跟踪 SEO 的各个方面
获取精细的指标来输入关键字排名、有机页面和 SERP 功能。
robots.txt 如何工作?
Robots.txt 文件告知搜索引擎机器人要忽略哪些页面以及要优先考虑哪些页面。为了理解这一点,我们首先来探讨一下机器人的作用。
搜索引擎机器人如何发现内容并为其编制索引
搜索引擎的工作是通过搜索向最终用户提供网络内容。为此,需要搜索引擎机器人。