防止搜索引擎索引页面,文件夹,你的整个网站,或只是你的webflow。io子域名。
您可以通过编写robots.txt文件来告诉搜索引擎要抓取哪些页面。你也可以防止搜索引擎抓取和索引特定的页面,文件夹,你的整个网站,或你的网络流。io子域名。这对于隐藏站点的404页面等页面,使其不被索引和列在搜索结果中非常有用。
在这节课中:
你可以阻止谷歌和其他搜索引擎索引你的网站的webflow。IO子域通过禁用索引从网站设置.
这将只在子域上发布唯一的robots.txt,告诉搜索引擎忽略该域。
robots.txt通常用于列出您不希望搜索引擎抓取的站点上的url。您还可以在robots.txt文件中包含站点的站点地图,以告诉搜索引擎爬虫应该抓取哪些内容。
就像站点地图一样,robots.txt文件位于域的顶级目录中。Webflow将为您的站点生成/robots.txt文件,一旦您在您的网站设置.
创建一个robots.txt文件。
重要的是:来自站点的内容仍然可能被索引,即使它没有被爬取。如果搜索引擎知道你的内容,要么是因为它之前发布过,要么是因为有从其他在线内容链接到该内容的链接,就会发生这种情况。为了确保先前索引的页面没有被索引,不要将其添加到robots.txt中。相反,使用noindex元代码来从谷歌的索引中删除该内容.
可以使用这些规则中的任何一条来填充robots.txt文件。
用户代理:*
不允许:/
用户代理:*
不允许:/页面的名称
用户代理:*
不允许:/文件夹名
网站地图:https://your-site.com/sitemap.xml
如果您想防止站点上的特定页面或URL被发现,不要使用robots.txt来禁止URL被抓取。相反,请使用以下选项之一:
我可以使用robots.txt文件来防止我的Webflow站点资产被索引吗?
使用robots.txt文件来阻止Webflow站点资产被索引是不可能的,因为robots.txt文件必须与它所应用的内容位于同一域中(在本例中,就是提供资产的地方)。Webflow服务于我们的资产全球CDN,而不是从robots.txt文件所在的自定义域。
我从我的网站设置中删除了robots.txt文件,但它仍然显示在我发布的网站上。我该如何解决这个问题?
一旦生成robots.txt,就不能完全删除它。然而,你可以用新的规则来代替它,以允许站点被爬行,例如:
用户代理:*
不允许:
请确保保存更改并重新发布站点。如果问题仍然存在,并且您在发布的站点上仍然看到旧的robots.txt规则,请执行此操作联系客户支持.