search-engine相关内容
我有一个安全的网站.Google(和其他搜索引擎)会抓取网站上的网页吗? 解决方案 是的,Google 会为 HTTP 和 HTTPS 页面编制索引.如果您尝试使用搜索,这很明显,尽管目前我似乎无法从任何“官方"来源找到确认.
..
我一直在尝试创建一个新的谷歌自定义搜索引擎,但是当我尝试一些查询时,搜索引擎并没有给我预期的搜索结果.在某些查询上它工作正常,但在其他查询上,它说“没有结果". 我尝试添加我想搜索的网站的 URL,但是当我尝试搜索该页面的关键字时,搜索结果中没有出现某些页面和关键字.我厌倦了添加主页 URL 和要搜索的子页面的 URL,但没有任何效果.搜索结果中有一些主 URL 的子页面. 解决方案
..
基本要求: 应该能够为 MediaWiki、Confluence、Sharepoint、GitHub:Enterprise、Askbot 等内容编制索引 在删除重复结果方面应该相当聪明(Confluence 搜索如此痛苦的原因之一). 绝对应该结合启发式方法,例如链接到文档的页数、搜索词是否在文档的标题中等.如果有办法让用户降低特定结果的排名,那可能是一个奖励. 应该在某种程度上可
..
我可以显示自定义字段信息吗?在搜索引擎页面上? 例如,当我在 Google 搜索引擎上输入关键字“google"时,除了常规搜索结果,我还会在右侧边栏上获得更多信息,例如 CEO、创立、总部、创始人等,类似于下图. 我想知道我是否也能像这样显示我的公司信息. 任何帮助将不胜感激. 解决方案 是的,如果您的网站可被 Google 的索引机器人访问,并且您的页面包含 结构化数
..
我一直对开发网络搜索引擎很感兴趣.什么是好的起点?我听说过 Lucene,但我不是 Java 大佬.还有其他好的资源或开源项目吗? 我知道这是一项艰巨的任务,但这也是吸引力的一部分.我不打算创建下一个 Google,我只是想用它来搜索我可能感兴趣的网站子集. 解决方案 搜索引擎有几个部分.从广义上讲,以一种无可救药的通用方式(伙计们,如果您觉得可以添加更好的描述、链接等,请随意编辑)
..
>>>营销 = User.search do |s|>>>s.fulltext“营销">>>结尾>>>总营销1448>>>sales = User.search do |s|>>>s.fulltext "销售">>>结尾>>>总销售额567>>>Marketing_and_sales = User.search do |s|>>>s.fulltext "营销与销售">>>结尾>>>Marketin
..
我有 Rails 应用程序,它记录每个请求到特定 URL 的 IP 地址,但在我的 IP 数据库中,我发现了 facebook blok IP,如 66.220.15.* 和 Google IP(我建议它来自 bot).是否有任何公式可以确定机器人或搜索引擎蜘蛛发出的请求中的 IP?谢谢 解决方案 机器人需要(比任何法律都更符合常识/礼貌)随用户代理发送他们的请求.您可以使用 reques
..
在此网页中: http://www.alvolante.it/news/pompe_benzina_%E2%80%9Ctruccate%E2%80%9D_autostrada-308391044 有这张图: http://immagini.alvolante.it/站点/默认/文件/图像缓存/anteprima_100/images/rifornimento_benzina.jp
..
我们知道我们可以使用 robots.txt 阻止搜索引擎索引我们网站上的目录. 但这当然有一个缺点,即实际上公开了我们不想被可能的攻击者发现的目录. 使用 .htaccess 或其他方式保护目录的密码显然是保持目录私密的最佳方式. 但是,如果为了方便起见,我们不想为目录添加另一层安全性,而只想添加另一层混淆呢?例如,隐藏管理员登录页面. 是否有另一种方法可以“隐藏"目录而不
..
我正在运行一个允许用户创建子域的站点.我想通过站点地图将这些用户子域提交给搜索引擎.但是,根据站点地图协议(和 Google 网站管理员工具),单个站点地图只能包含来自单个主机的 URL. 最好的方法是什么? 目前我有以下结构: 位于 example.com/sitemap-index.xml 的站点地图索引,其中列出了每个子域(但位于同一主机)的站点地图. 每个子域都有自己的
..
是否有搜索引擎可以让我通过正则表达式进行搜索? 解决方案 Google 代码搜索允许您使用正则表达式搜索. 据我所知,一般搜索不存在这样的搜索引擎.
..
我想用 Python 编写一个基本的语义网络爬虫,我知道语义应用程序使用 RDF 文件,但还有什么?我安装了一些 Python RDF 模块,我开始学习它们的工作原理. 您能否向我介绍语义应用程序中使用的技术和技巧? 解决方案 接下来您可能想了解的内容是: 在 HTML 中嵌入语义数据 - RDFa、微格式、微数据.一些统计数据:微格式和 RDFa 部署通过 DAM.co.uk
..
Badoo.com 拥有 56.000.000 个用户个人资料.个人资料可以按性别、年龄、发色、生肖、学历等搜索,加上离家乡的距离、在线状态和注册日期.到目前为止,这似乎是可行的,即使它是对巨大表(5600 万成员...)进行的一些查询,它可以以一般方式缓存. 有趣的是,他们还有一个单独的“排除列表"(对于您查看的每个个人资料,您可以说您不想见到此人).另外,你的朋友也不会出现. 第二
..
我打算做一个利基搜索引擎.我使用 apache-nutch-1.6 作为爬虫,使用 apache-solr-3.6.2 作为搜索器.我必须说,网络上关于这些技术的最新信息非常少. 我遵循了本教程 http://wiki.apache.org/nutch/NutchTutorial并在我的 ubuntu 系统上成功安装了 apache 和 solr.我还成功地将种子 url 注入到 webdb
..
我是搜索引擎和网络爬虫的新手.现在我想将特定网站中的所有原始页面存储为 html 文件,但是使用 Apache Nutch 我只能获取二进制数据库文件.如何使用 Nutch 获取原始 html 文件? Nutch 支持吗?如果没有,我可以使用哪些其他工具来实现我的目标.(支持分布式抓取的工具更好.) 解决方案 嗯,nutch 会将抓取的数据以二进制形式写入,因此如果您希望将其保存为
..
我需要一个搜索引擎来搜索我正在构建的网站.我决定尝试自己使用 php 和 mysql.目前看起来可行的选择是创建三个表. 一个是单词,一个是页面,一个是参考表.然后当我插入一篇新文章时,我会扫描文本并将单独的词放在词表中,并在第三个表中引用这些词. 最后进行搜索时.脚本应返回给定单词索引最多的页面. 但是看起来这种方法只能根据关键字的数量返回结果.文章中使用的关键字越多,它在结果
..
我有一个城市位置搜索网站,我们开始收集所有可能类别的数据城市,如学校、学院、百货公司等,并将其信息存储在单独的表中,因为每个条目除了姓名、地址和电话号码外,还有不同的详细信息. 我们不得不在网站中集成搜索功能,让人们能够找到信息,因此我们建立了一个索引表,其中存储了同一类别的类别和相关关键字以及如果搜索该类别则可以获取的表格.后来我们添加了搜索姓名和地址的功能,并将包含所有表中这些字段的另一
..
好的,所以我已经编写Backbone.js应用程序已有一年多了,我喜欢框架模型.我已经学会了如何避免所有此类陷阱,但是作为一个单页面应用程序开发人员,我仍然有一个领域仍然很薄弱:如何对面向公众的应用程序进行SEO. 我正在开发一个博客项目,我想到的最简单的解决方案是让服务器生成的所有博客条目的列表显示为/blog 部分中的链接,该列表显示在页面加载,并确保在点击/blog/:id url时,
..
Lucene等搜索引擎如何在数据集中的术语对许多文档通用的情况下执行AND查询?例如,在倒排索引中: 条款|document_id---------------------程序|1,2,3,5 ...python |一四验证码|4C ++ |4、5 术语 program 存在于多个文档中,这意味着对 program AND code 的查询将需要对大量文档进行相交. 是否有一种方法可以
..
您是否知道自己
..