robots.txt相关内容

Meta标签与robots.txt

使用meta标记*还是使用robots.txt文件更好地通知爬行器/爬网程序包括或排除页面? 同时使用meta标记和robots.txt是否有问题? *例如: 推荐答案 robots.txt IMHO。 Meta标记选项告诉bot不要索引单个文件,而robots.txt可用于限制 ..
发布时间:2022-02-28 18:25:36 其他开发

使用 X-Robot-Tag 代替 robots.txt 有什么好处吗?

看起来有两种主流的解决方案可以指示爬虫索引什么和不索引什么:添加 X-Robot-Tag HTTP 标头,或指示 robots.txt. 使用前者有什么好处吗? 解决方案 使用 robots.txt 您不能禁止对您的文档进行索引. 他们有不同的目的: robots.txt 可以禁止抓取(使用 Disallow) X-Robots-Tag ¹ 可以禁止 indexing( ..
发布时间:2022-01-17 17:28:31 其他开发

用于检测 Google Chrome 的预加载请求的 HTTP 标头

Google Chrome 17 引入了一个新的功能在实际发出请求时预加载网页以提高渲染速度(在多功能栏中按 Enter). 两个问题:是否有一个 HTTP 标头来检测服务器端的此类请求,如果确实存在,那么正确的响应是什么以防止此类预加载(以防止可能产生不良影响的意外请求)? 谷歌浏览器是否会在发出预加载请求之前检查 robots.txt?是否有仅针对此特定行为的 robots.txt ..
发布时间:2022-01-17 17:16:54 其他开发

“Lighthouse 无法下载 robots.txt 文件"尽管文件可以访问

我有一个 NodeJS/NextJS 应用程序在 http://www.schandillia.com.该项目有一个 robots.txt 文件,可在 http://www.shandillia 访问.com/robots.txt.截至目前,该文件是用于测试目的的准系统: 用户代理:*允许:/ 但是,当我在我的网站上运行 Lighthouse 审核时,它会引发 抓取和索引错误,说它无法下载 r ..

Robots.txt 和元数据标签是否足以阻止搜索引擎索引依赖于 $_GET 变量的动态页面?

我创建了一个 php 页面,该页面只能通过通过 $_GET 收到的令牌/通行证访问 因此,如果您转到以下网址,您将获得一个通用页面或空白页面 http://fakepage11.com/secret_page.php 但是,如果您使用带有令牌的链接,它会向您显示特殊内容 http://fakepage11.com/secret_page.php?token=344ee826 ..
发布时间:2022-01-04 23:07:52 PHP

如何阻止搜索引擎索引所有以 origin.domainname.com 开头的 url

我有 www.domainname.com、origin.domainname.com 指向相同的代码库.有没有办法,我可以防止 basename origin.domainname.com 的所有 url 被索引. robot.txt 中是否有一些规则可以做到这一点.这两个网址都指向同一个文件夹.另外,我尝试在 htaccess 文件中将 origin.domainname.com 重定向 ..
发布时间:2022-01-04 16:35:04 服务器开发

使用 X-Robot-Tag 代替 robots.txt 有什么优势吗?

指示爬虫索引什么和不索引有两种主流解决方案:添加 X-Robot-Tag HTTP 标头,或指示 robots.txt. 使用前者有什么好处吗? 解决方案 使用 robots.txt 您不能禁止对文档编制索引. 它们有不同的用途: robots.txt 可以禁止爬行(使用Disallow) X-Robots-Tag ¹ 可以禁止索引(使用noindex) (两者都 ..
发布时间:2021-12-15 15:03:29 其他开发

Robots.txt:只允许主要 SE

有没有办法配置robots.txt,以便网站只接受来自Google、Yahoo!的访问?和 MSN 蜘蛛? 解决方案 用户代理: *不允许:/用户代理:Googlebot允许:/用户代理:Slurp允许:/用户代理:msnbot不允许: Slurp 是雅虎的机器人p> ..
发布时间:2021-09-22 20:27:33 其他开发

是否可以在一行中列出多个用户代理?

是否可以在 robots.txt 中向多个机器人发出一条指令而不必重复提及? 示例: 用户代理:googlebot yahoobot microsoftbot禁止:/无聊的东西/ 解决方案 实际上很难给出明确的答案,因为 robots.txt 没有一个非常明确的标准,而且很多那里的文档含糊不清或相互矛盾. Google 漫游器可理解的格式说明是相当全面,包括这个稍微有点乱的句子: ..
发布时间:2021-09-15 18:56:02 其他开发

在 Robots.txt 中允许和禁止

http://www.robotstxt.org/orig.html 说: 禁止:/help 禁止/help.html 和/help/index.html 现在,google.com/robots.txt 列出: 禁止:/search允许:/search/about 在运行 robotparser.py 时,它在 Google 的 robots.txt 中为上述两种情况返回 fal ..
发布时间:2021-07-10 19:20:14 其他开发

除了一个用户代理之外,所有用户代理都禁止所有吗?

如何禁止除一个用户代理之外的所有用户代理?例如,禁止所有用户代理全部使用,但只允许 Googlebot 使用? 解决方案 User-agent: *不允许:/用户代理:谷歌允许:/ 这个示例 robots.txt 告诉爬虫,如果他们不使用 google.那么最好不要抓取您的网站.虽然谷歌已经获得了在网站上抓取任何内容的绿色通行证. 此文件应存储在 www.example.com/r ..
发布时间:2021-07-10 19:20:11 其他开发

我可以允许(通过搜索引擎)索引受限内容而不将其公开吗?

我有一个包含一些受限内容的网站.我希望我的网站出现在搜索结果中,但我不希望它公开. 有什么方法可以让抓取工具抓取我的网站但阻止它们将其公开? 我找到的最接近的解决方案是 GoogleFirst Click Free 但即使是第一次显示内容也需要我. 解决方案 您为什么要允许人们搜索他们单击链接后无法访问的页面?从技术上讲,它可能会变得困难(如果用户代理包含“googlebot" ..
发布时间:2021-07-10 19:20:09 其他开发

这个 Robots.txt 文件是否正确?

我最近在我的服务器上遇到了很多 CPU 峰值,不知何故,我相信这不是真正的流量,或者它的某些部分不是真实的.所以我现在只想允许谷歌机器人、MSN 和雅虎.请指导我以下 robots.txt 文件是否符合我的要求. 用户代理:Googlebot用户代理:Slurp用户代理:msnbot用户代理:Mediapartners-Google*用户代理:Googlebot-Image用户代理:Yahoo- ..
发布时间:2021-07-10 19:20:05 其他开发

实施“报告此内容"并检测垃圾邮件发送者或机器人触发的事件

我正在为网站创建一个论坛,并计划实施“报告此内容"功能. 老实说,我不确定该功能有多大用处(必要的),因为发帖需要用户帐户(由管理员创建),但我对解决方案很感兴趣. 简而言之,这就是场景: 对于所有用户,都可以只读访问论坛上的所有(不受限制的)内容.对于身份不明的用户,将有一个回复按钮并报告此内容按钮.前者将继续需要登录,而我原计划后者不会,以便任何人都能够标记可疑或冒犯性的内容 ..
发布时间:2021-07-10 19:20:03 其他开发

如何为子域正确编写 robots.txt 文件?

如果我想让所有爬虫索引根和一些特定的子域,有人可以解释我应该如何编写 robots.txt 文件 用户代理:*允许:/允许:/subdomain1/允许:/subdomain2/ 这样对吗?我应该把它放在哪里?在根 (public_html) 文件夹中还是在每个子域文件夹中? 解决方案 无法在单个 robots.txt 文件中为不同的子域指定规则.给定的 robots.txt 文件将仅 ..
发布时间:2021-07-10 19:20:00 其他开发

htaccess 重定向到子域

我有一个域(比如 example.com).根目录中有一个名为 freesites 的文件夹.对于 freesites(比如 sf)的每个子文件夹,我添加了一个子域(sf.example.com).在每个子文件夹中,都有一个以 index.php 文件开头的单独 Web 应用程序. root (example.com)|-- index.php|-- .htaccess|-- ...|-- 免费 ..
发布时间:2021-07-10 19:19:57 其他开发