robots.txt相关内容
使用robot.txt是否可以限制机械手对(特定)查询字符串(参数)值的访问? ie http://www.url.com/default.aspx #allow http://www.url.com/default.aspx?id=6 #allow http://www.url.com/default.aspx?id=7 #disallow 推荐答案 User-agent
..
使用meta标记*还是使用robots.txt文件更好地通知爬行器/爬网程序包括或排除页面? 同时使用meta标记和robots.txt是否有问题? *例如: 推荐答案 robots.txt IMHO。 Meta标记选项告诉bot不要索引单个文件,而robots.txt可用于限制
..
看起来有两种主流的解决方案可以指示爬虫索引什么和不索引什么:添加 X-Robot-Tag HTTP 标头,或指示 robots.txt. 使用前者有什么好处吗? 解决方案 使用 robots.txt 您不能禁止对您的文档进行索引. 他们有不同的目的: robots.txt 可以禁止抓取(使用 Disallow) X-Robots-Tag ¹ 可以禁止 indexing(
..
Google Chrome 17 引入了一个新的功能在实际发出请求时预加载网页以提高渲染速度(在多功能栏中按 Enter). 两个问题:是否有一个 HTTP 标头来检测服务器端的此类请求,如果确实存在,那么正确的响应是什么以防止此类预加载(以防止可能产生不良影响的意外请求)? 谷歌浏览器是否会在发出预加载请求之前检查 robots.txt?是否有仅针对此特定行为的 robots.txt
..
我有一个 NodeJS/NextJS 应用程序在 http://www.schandillia.com.该项目有一个 robots.txt 文件,可在 http://www.shandillia 访问.com/robots.txt.截至目前,该文件是用于测试目的的准系统: 用户代理:*允许:/ 但是,当我在我的网站上运行 Lighthouse 审核时,它会引发 抓取和索引错误,说它无法下载 r
..
我需要一种动态响应 /robots.txt 请求的方法. 这就是我决定使用 getServerSideProps 的原因 https://nextjs.org/docs/基本功能/数据获取#getserversideprops-server-side-rendering 如果您从页面导出名为 getServerSideProps 的异步函数,Next.js 将使用 getServe
..
我创建了一个 php 页面,该页面只能通过通过 $_GET 收到的令牌/通行证访问 因此,如果您转到以下网址,您将获得一个通用页面或空白页面 http://fakepage11.com/secret_page.php 但是,如果您使用带有令牌的链接,它会向您显示特殊内容 http://fakepage11.com/secret_page.php?token=344ee826
..
我有 www.domainname.com、origin.domainname.com 指向相同的代码库.有没有办法,我可以防止 basename origin.domainname.com 的所有 url 被索引. robot.txt 中是否有一些规则可以做到这一点.这两个网址都指向同一个文件夹.另外,我尝试在 htaccess 文件中将 origin.domainname.com 重定向
..
指示爬虫索引什么和不索引有两种主流解决方案:添加 X-Robot-Tag HTTP 标头,或指示 robots.txt. 使用前者有什么好处吗? 解决方案 使用 robots.txt 您不能禁止对文档编制索引. 它们有不同的用途: robots.txt 可以禁止爬行(使用Disallow) X-Robots-Tag ¹ 可以禁止索引(使用noindex) (两者都
..
有没有什么聪明的办法可以把静态文件存放在Flask的应用根目录下.robots.txt 和 sitemap.xml 应该在/中找到,所以我的想法是为它们创建路由: @app.route('/sitemap.xml', methods=['GET'])定义站点地图():response = make_response(open('sitemap.xml').read())response.head
..
我想在网站构建过程中将 nofollow 和 noindex 添加到我的网站.客户要求我使用这些规则. 我知道
..
有没有办法配置robots.txt,以便网站只接受来自Google、Yahoo!的访问?和 MSN 蜘蛛? 解决方案 用户代理: *不允许:/用户代理:Googlebot允许:/用户代理:Slurp允许:/用户代理:msnbot不允许: Slurp 是雅虎的机器人p>
..
是否可以在 robots.txt 中向多个机器人发出一条指令而不必重复提及? 示例: 用户代理:googlebot yahoobot microsoftbot禁止:/无聊的东西/ 解决方案 实际上很难给出明确的答案,因为 robots.txt 没有一个非常明确的标准,而且很多那里的文档含糊不清或相互矛盾. Google 漫游器可理解的格式说明是相当全面,包括这个稍微有点乱的句子:
..
http://www.robotstxt.org/orig.html 说: 禁止:/help 禁止/help.html 和/help/index.html 现在,google.com/robots.txt 列出: 禁止:/search允许:/search/about 在运行 robotparser.py 时,它在 Google 的 robots.txt 中为上述两种情况返回 fal
..
如何禁止除一个用户代理之外的所有用户代理?例如,禁止所有用户代理全部使用,但只允许 Googlebot 使用? 解决方案 User-agent: *不允许:/用户代理:谷歌允许:/ 这个示例 robots.txt 告诉爬虫,如果他们不使用 google.那么最好不要抓取您的网站.虽然谷歌已经获得了在网站上抓取任何内容的绿色通行证. 此文件应存储在 www.example.com/r
..
我有一个包含一些受限内容的网站.我希望我的网站出现在搜索结果中,但我不希望它公开. 有什么方法可以让抓取工具抓取我的网站但阻止它们将其公开? 我找到的最接近的解决方案是 GoogleFirst Click Free 但即使是第一次显示内容也需要我. 解决方案 您为什么要允许人们搜索他们单击链接后无法访问的页面?从技术上讲,它可能会变得困难(如果用户代理包含“googlebot"
..
我最近在我的服务器上遇到了很多 CPU 峰值,不知何故,我相信这不是真正的流量,或者它的某些部分不是真实的.所以我现在只想允许谷歌机器人、MSN 和雅虎.请指导我以下 robots.txt 文件是否符合我的要求. 用户代理:Googlebot用户代理:Slurp用户代理:msnbot用户代理:Mediapartners-Google*用户代理:Googlebot-Image用户代理:Yahoo-
..
我正在为网站创建一个论坛,并计划实施“报告此内容"功能. 老实说,我不确定该功能有多大用处(必要的),因为发帖需要用户帐户(由管理员创建),但我对解决方案很感兴趣. 简而言之,这就是场景: 对于所有用户,都可以只读访问论坛上的所有(不受限制的)内容.对于身份不明的用户,将有一个回复按钮并报告此内容按钮.前者将继续需要登录,而我原计划后者不会,以便任何人都能够标记可疑或冒犯性的内容
..
如果我想让所有爬虫索引根和一些特定的子域,有人可以解释我应该如何编写 robots.txt 文件 用户代理:*允许:/允许:/subdomain1/允许:/subdomain2/ 这样对吗?我应该把它放在哪里?在根 (public_html) 文件夹中还是在每个子域文件夹中? 解决方案 无法在单个 robots.txt 文件中为不同的子域指定规则.给定的 robots.txt 文件将仅
..
我有一个域(比如 example.com).根目录中有一个名为 freesites 的文件夹.对于 freesites(比如 sf)的每个子文件夹,我添加了一个子域(sf.example.com).在每个子文件夹中,都有一个以 index.php 文件开头的单独 Web 应用程序. root (example.com)|-- index.php|-- .htaccess|-- ...|-- 免费
..