robots.txt - IT屋-程序员软件开发技术分享社区

是否限制机械手对(特定)查询字符串(参数)值的访问？

使用robot.txt是否可以限制机械手对(特定)查询字符串(参数)值的访问？ ie http://www.url.com/default.aspx #allow http://www.url.com/default.aspx?id=6 #allow http://www.url.com/default.aspx?id=7 #disallow 推荐答案 User-agent ..

发布时间：2022-08-04 09:08:30 seo robots.txt 其他开发

Meta标签与robots.txt

使用meta标记*还是使用robots.txt文件更好地通知爬行器/爬网程序包括或排除页面？同时使用meta标记和robots.txt是否有问题？ *例如：推荐答案 robots.txt IMHO。 Meta标记选项告诉bot不要索引单个文件，而robots.txt可用于限制 ..

发布时间：2022-02-28 18:25:36 seo robots.txt meta-tags 其他开发

使用 X-Robot-Tag 代替 robots.txt 有什么好处吗?

看起来有两种主流的解决方案可以指示爬虫索引什么和不索引什么:添加 X-Robot-Tag HTTP 标头，或指示 robots.txt. 使用前者有什么好处吗? 解决方案使用 robots.txt 您不能禁止对您的文档进行索引. 他们有不同的目的: robots.txt 可以禁止抓取(使用 Disallow) X-Robots-Tag ¹ 可以禁止 indexing( ..

发布时间：2022-01-17 17:28:31 http web http-headers robots.txt 其他开发

用于检测 Google Chrome 的预加载请求的 HTTP 标头

Google Chrome 17 引入了一个新的功能在实际发出请求时预加载网页以提高渲染速度(在多功能栏中按 Enter). 两个问题:是否有一个 HTTP 标头来检测服务器端的此类请求，如果确实存在，那么正确的响应是什么以防止此类预加载(以防止可能产生不良影响的意外请求)? 谷歌浏览器是否会在发出预加载请求之前检查 robots.txt?是否有仅针对此特定行为的 robots.txt ..

发布时间：2022-01-17 17:16:54 google-chrome http-headers meta-tags robots.txt 其他开发

“Lighthouse 无法下载 robots.txt 文件"尽管文件可以访问

我有一个 NodeJS/NextJS 应用程序在 http://www.schandillia.com.该项目有一个 robots.txt 文件，可在 http://www.shandillia 访问.com/robots.txt.截至目前，该文件是用于测试目的的准系统: 用户代理:*允许:/ 但是，当我在我的网站上运行 Lighthouse 审核时，它会引发抓取和索引错误，说它无法下载 r ..

发布时间：2022-01-08 23:26:49 node.js robots.txt content-security-policy next.js lighthouse 其他开发

在 Next.js 应用程序中生成动态/robots.txt 文件

我需要一种动态响应 /robots.txt 请求的方法. 这就是我决定使用 getServerSideProps 的原因 https://nextjs.org/docs/基本功能/数据获取#getserversideprops-server-side-rendering 如果您从页面导出名为 getServerSideProps 的异步函数，Next.js 将使用 getServe ..

发布时间：2022-01-08 23:13:28 reactjs next.js robots.txt 其他开发

Robots.txt 和元数据标签是否足以阻止搜索引擎索引依赖于 $_GET 变量的动态页面?

我创建了一个 php 页面，该页面只能通过通过 $_GET 收到的令牌/通行证访问因此，如果您转到以下网址，您将获得一个通用页面或空白页面 http://fakepage11.com/secret_page.php 但是，如果您使用带有令牌的链接，它会向您显示特殊内容 http://fakepage11.com/secret_page.php?token=344ee826 ..

发布时间：2022-01-04 23:07:52 php get web-crawler robots.txt google-crawlers PHP

如何阻止搜索引擎索引所有以 origin.domainname.com 开头的 url

我有 www.domainname.com、origin.domainname.com 指向相同的代码库.有没有办法，我可以防止 basename origin.domainname.com 的所有 url 被索引. robot.txt 中是否有一些规则可以做到这一点.这两个网址都指向同一个文件夹.另外，我尝试在 htaccess 文件中将 origin.domainname.com 重定向 ..

发布时间：2022-01-04 16:35:04 .htaccess url-rewriting robots.txt 服务器开发

使用 X-Robot-Tag 代替 robots.txt 有什么优势吗?

指示爬虫索引什么和不索引有两种主流解决方案:添加 X-Robot-Tag HTTP 标头，或指示 robots.txt. 使用前者有什么好处吗? 解决方案使用 robots.txt 您不能禁止对文档编制索引. 它们有不同的用途: robots.txt 可以禁止爬行(使用Disallow) X-Robots-Tag ¹ 可以禁止索引(使用noindex) (两者都 ..

发布时间：2021-12-15 15:03:29 http web http-headers robots.txt 其他开发

Flask 中的静态文件——robot.txt、sitemap.xml (mod_wsgi)

有没有什么聪明的办法可以把静态文件存放在Flask的应用根目录下.robots.txt 和 sitemap.xml 应该在/中找到，所以我的想法是为它们创建路由: @app.route('/sitemap.xml', methods=['GET'])定义站点地图():response = make_response(open('sitemap.xml').read())response.head ..

发布时间：2021-12-14 10:43:06 python flask static mod-wsgi robots.txt Python

如何在robots.txt中添加`nofollow, noindex`所有页面?

我想在网站构建过程中将 nofollow 和 noindex 添加到我的网站.客户要求我使用这些规则. 我知道 ..

发布时间：2021-11-26 18:41:42 http robots.txt access-control 其他开发

Robots.txt:只允许主要 SE

有没有办法配置robots.txt，以便网站只接受来自Google、Yahoo!的访问?和 MSN 蜘蛛? 解决方案用户代理: *不允许:/用户代理:Googlebot允许:/用户代理:Slurp允许:/用户代理:msnbot不允许: Slurp 是雅虎的机器人p> ..

发布时间：2021-09-22 20:27:33 web-crawler robots.txt 其他开发

是否可以在一行中列出多个用户代理?

是否可以在 robots.txt 中向多个机器人发出一条指令而不必重复提及? 示例: 用户代理:googlebot yahoobot microsoftbot禁止:/无聊的东西/ 解决方案实际上很难给出明确的答案，因为 robots.txt 没有一个非常明确的标准，而且很多那里的文档含糊不清或相互矛盾. Google 漫游器可理解的格式说明是相当全面，包括这个稍微有点乱的句子: ..

发布时间：2021-09-15 18:56:02 user-agent robots.txt 其他开发

在 Robots.txt 中允许和禁止

http://www.robotstxt.org/orig.html 说: 禁止:/help 禁止/help.html 和/help/index.html 现在，google.com/robots.txt 列出: 禁止:/search允许:/search/about 在运行 robotparser.py 时，它在 Google 的 robots.txt 中为上述两种情况返回 fal ..

发布时间：2021-07-10 19:20:14 robots.txt 其他开发

除了一个用户代理之外，所有用户代理都禁止所有吗?

如何禁止除一个用户代理之外的所有用户代理?例如，禁止所有用户代理全部使用，但只允许 Googlebot 使用? 解决方案 User-agent: *不允许:/用户代理:谷歌允许:/ 这个示例 robots.txt 告诉爬虫，如果他们不使用 google.那么最好不要抓取您的网站.虽然谷歌已经获得了在网站上抓取任何内容的绿色通行证. 此文件应存储在 www.example.com/r ..

发布时间：2021-07-10 19:20:11 robots.txt 其他开发

我可以允许(通过搜索引擎)索引受限内容而不将其公开吗?

我有一个包含一些受限内容的网站.我希望我的网站出现在搜索结果中，但我不希望它公开. 有什么方法可以让抓取工具抓取我的网站但阻止它们将其公开? 我找到的最接近的解决方案是 GoogleFirst Click Free 但即使是第一次显示内容也需要我. 解决方案您为什么要允许人们搜索他们单击链接后无法访问的页面?从技术上讲，它可能会变得困难(如果用户代理包含“googlebot" ..

发布时间：2021-07-10 19:20:09 seo web-crawler robots.txt 其他开发

这个 Robots.txt 文件是否正确?

我最近在我的服务器上遇到了很多 CPU 峰值，不知何故，我相信这不是真正的流量，或者它的某些部分不是真实的.所以我现在只想允许谷歌机器人、MSN 和雅虎.请指导我以下 robots.txt 文件是否符合我的要求. 用户代理:Googlebot用户代理:Slurp用户代理:msnbot用户代理:Mediapartners-Google*用户代理:Googlebot-Image用户代理:Yahoo- ..

发布时间：2021-07-10 19:20:05 yahoo robots.txt googlebot msn 其他开发

实施“报告此内容"并检测垃圾邮件发送者或机器人触发的事件

我正在为网站创建一个论坛，并计划实施“报告此内容"功能. 老实说，我不确定该功能有多大用处(必要的)，因为发帖需要用户帐户(由管理员创建)，但我对解决方案很感兴趣. 简而言之，这就是场景: 对于所有用户，都可以只读访问论坛上的所有(不受限制的)内容.对于身份不明的用户，将有一个回复按钮并报告此内容按钮.前者将继续需要登录，而我原计划后者不会，以便任何人都能够标记可疑或冒犯性的内容 ..

发布时间：2021-07-10 19:20:03 robots.txt spam-prevention 其他开发

如何为子域正确编写 robots.txt 文件?

如果我想让所有爬虫索引根和一些特定的子域，有人可以解释我应该如何编写 robots.txt 文件用户代理:*允许:/允许:/subdomain1/允许:/subdomain2/ 这样对吗?我应该把它放在哪里?在根 (public_html) 文件夹中还是在每个子域文件夹中? 解决方案无法在单个 robots.txt 文件中为不同的子域指定规则.给定的 robots.txt 文件将仅 ..

发布时间：2021-07-10 19:20:00 robots.txt google-crawlers 其他开发

htaccess 重定向到子域

我有一个域(比如 example.com).根目录中有一个名为 freesites 的文件夹.对于 freesites(比如 sf)的每个子文件夹，我添加了一个子域(sf.example.com).在每个子文件夹中，都有一个以 index.php 文件开头的单独 Web 应用程序. root (example.com)|-- index.php|-- .htaccess|-- ...|-- 免费 ..

发布时间：2021-07-10 19:19:57 .htaccess redirect robots.txt 其他开发

robots.txt相关内容