search-engine相关内容

Solr 3.6 中的一些延迟后文件正在反映

为 ASP.net 应用程序使用 Solr 3.6.我们正在使用 SolrNet 库. 我们有一个用 asp.net 编写的自定义程序,用于使用 SolrNet 将文档增量添加到 Solr.这会监视将文档插入 Solr 的进度. 问题是,应用程序显示流程已完成,但检查 Solr 结果,我们只在结果中看到少数文档,而不是所有文档.尽管 15 分钟后再次检查,但现在 Solr 结果中列出的 ..
发布时间:2021-07-17 20:05:51 其他开发

网站如何知道我用来查找它的 Google 查询?

当我在 Google 上搜索诸如“rearrange table columns in asp.net"之类的内容时,并单击链接到 Wrox 的论坛站点,该站点向我致意,例如“您的 Google搜索“在 asp.net 中重新排列表格列"将您带到 Wrox 论坛...". 网站如何知道我在 Google 中输入了什么查询?我怎样才能在我的网站上添加这样的能力? 解决方案 它正在根据 ..
发布时间:2021-07-17 20:05:48 其他开发

solr vs xapian:哪一个给你最有意义的结果?

我目前正在使用 whoosh 来开发一个网站,一旦网站投入生产,我需要选择更强大的东西. 如果你们中的任何人都使用过这两种引擎,那么在漫长的道路上,哪一个给了你最有意义的结果? 解决方案 Solr 是最好的选择.它有据可查,社区很大.大约一年前,我对 Xapian 与 Solr 进行了基准测试: 我的数据集有 +8000 封电子邮件: Solr 索引时间:3s 索 ..
发布时间:2021-07-17 20:05:42 其他开发

搜索引擎从哪里开始抓取?

搜索引擎机器人使用什么作为起点?是 DNS 查找还是从一些固定的知名站点列表开始?有什么猜测或建议吗? 解决方案 你的问题可以有两种解释: 您是在问搜索引擎一般从哪里开始抓取,还是从哪里开始抓取特定网站? 我不知道大玩家是如何运作的;但如果您要制作自己的搜索引擎,您可能会将其植入流行的门户网站.DMOZ.org 似乎是一个流行的起点观点.由于大玩家拥有比我们多得多的数据,他们可 ..
发布时间:2021-07-17 20:05:39 其他开发

正则表达式检测搜索引擎和搜索词

我需要检测引用我网站的搜索引擎.由于每个搜索引擎都有不同的搜索查询字符串(例如,google 使用“q=',yahoo 使用 'p='),我使用它们的 url 正则表达式模式为搜索引擎创建了一个数据库. 举个例子:http://www.google.com/search?q=blabla&ie=utf-8&oe=utf-8&aq=t&rls=com.ubuntu:en-GB:official ..
发布时间:2021-07-17 20:05:36 其他开发

搜索查询,'order by' 优先级

我需要在小内容表中实现简单的搜索:id、名称、描述、内容.结果必须按优先级排序 姓名 说明 内容 意思是如果在描述字段中找到搜索词,它只会显示在所有名称字段中包含狗的行之后 我做了什么: 我尝试创建临时表,其结构类似于我使用的表,但具有另一个字段优先级.对于我用于搜索的每个字段,执行插入选择到临时表 示例: DECLARE @query NVARCHAR(25 ..
发布时间:2021-07-17 20:05:33 数据库

通过 URL 每页获得更多搜索结果

我一直在编写一个从网络搜索中提取数据的程序.为了获得更多数据,我希望通过脚本为每个查询提取更多结果(比如 100 个左右). 我的问题是,有没有办法修改 Google、Yahoo 或 Bing 的 URL(按优先顺序排列),以便每次查询可以获得 10 个以上的结果? 对于 Google,附加 &num=99 曾经一度有效但不再有效:​​(我看到了一个类似的 &count=50 附加,但 ..
发布时间:2021-07-17 20:05:30 其他开发

一些带有虚假链接的网站如何显示在搜索引擎的结果中

最近,我遇到了几个 Google 搜索结果,其中包含的网站链接与我的搜索词完全匹配.网站怎么可能动态地改变他们的内容,或者更确切地说,他们是如何欺骗谷歌为我的关键字索引他们的页面的.我读过关于内容农场的内容,但这似乎不是一个正确的答案.有人可以让我知道这种技术叫什么吗?我会努力了解更多. 解决方案 我的理解是,进入 Google 或任何其他索引引擎的唯一方法是让机器人实际抓取您的网站并生成 ..
发布时间:2021-07-17 20:05:28 其他开发

搜索引擎中的蜘蛛是如何工作的?

搜索引擎中的爬虫或蜘蛛是如何工作的 解决方案 万维网基本上是 Web 文档、图像、多媒体文件等的连接有向图.图的每个节点都是网页的一个组件-例如 - 网页由图像、文本、视频等组成,所有这些都是链接的.爬虫使用网页中的链接使用广度优先搜索遍历图形. 爬虫最初从一个(或多个)种子点开始. 它会扫描网页并浏览该页面中的链接. 这个过程一直持续到所有的图都被探索过(一些预定义的约束可以用 ..
发布时间:2021-07-17 20:05:25 其他开发

SOLR 权限/过滤结果取决于访问权限

例如我有文档 A、B、C.用户 1 必须只能看到文档 A、B.用户 2 必须只能看到文档 C.是否可以在 SOLR 中执行此操作而不按元数据进行过滤?如果我使用元数据过滤器,每次访问权限发生变化时,我都必须重新索引. [更新 2/14/2012] 不幸的是,在客户的情况下,更改很频繁.数据是机密的,通常仅由作为内部用户的所有者管理.那么具体的情况是他们需要能够将这些文档共享给某些外部用户并为 ..
发布时间:2021-07-17 20:05:19 其他开发

是否有支持正则表达式搜索的搜索引擎?

首先,我检查了这个问题但answer 指的是过时的服务. 那么是否有基于网络的(或软件,我不在乎)提供正则表达式搜索互联网内容? 解决方案 让我在这里写一个来自 superuser.com 的答案 问题 由于我完全支持作者: 引用自 询问元过滤器: 使关键字搜索效率超过数百 TB(或目前的任何索引)的唯一可能方法是预先计算单词索引. 事实上,一个完整的正则表达式引擎 ..
发布时间:2021-07-17 20:05:14 其他开发

如何抓取/索引经常更新的网页的策略?

我正在尝试构建一个非常小的、小众的搜索引擎,使用 Nutch 来抓取特定的站点.一些网站是新闻/博客网站.如果我抓取,比如说,techcrunch.com,并存储和索引他们的首页或他们的任何主要页面,那么在几小时内我对该页面的索引就会过时. 像谷歌这样的大型搜索引擎是否有一种算法可以非常频繁地、甚至每小时重新抓取频繁更新的页面?或者它只是对经常更新的页面评分很低,因此它们不会被退回? ..
发布时间:2021-07-17 20:05:11 其他开发

PHP 搜索引擎注意事项:未定义索引:类别

嗨,伙计们,我在某个类别中浏览的帮助下制作了一个脚本示例:我们有下一个类别的 PCgames、All 和 Documents.X 用户正在 PCgames 中搜索 Y 游戏.并且脚本在PCgames类别中搜索Y游戏并显示所有结果.但是当用户单击搜索按钮时,服务器会显示下一个错误注意:未定义索引:第 5 行 search.php 中的类别HTML代码 ..
发布时间:2021-07-17 20:05:04 PHP

如何准确地从ODP中提取信息?

我正在用 python 构建一个搜索引擎. 我听说 Google 从 ODP(Open Directory Project)中获取页面描述,以防 Google 无法使用页面中的元数据找出描述...我想做类似的事情. ODP 是来自 Mozilla 的在线目录,其中包含网络页面的描述,因此我想从 ODP 获取我的搜索结果的描述.如何从 ODP 获取特定 url 的准确描述,并在找不到时返 ..
发布时间:2021-07-17 20:04:59 Python

网络抓取和网络抓取有什么区别?

Crawling 和 Web-scraping 有区别吗? 如果存在差异,为了收集一些网络数据以提供数据库供以后在自定义搜索引擎中使用,最好使用什么方法? 解决方案 爬行本质上是 Google、雅虎、MSN 等公司所做的,寻找任何信息.抓取通常针对某些网站,用于特定数据,例如用于价格比较,因此编码完全不同. 通常,抓取工具会为它应该抓取的网站定制,并且会做(好的)抓取工具不会做 ..
发布时间:2021-07-17 20:04:56 其他开发

推荐一个基于linux的站点搜索引擎?

我需要一个站点搜索引擎来搜索我的会员专享内容.我以前使用过 流体动力学搜索引擎,但想知道是否还有更多最近更新. 需要通过网站抓取而不是文件系统抓取来索引内容,因为所有内容都在数据库中.还需要在FreeBSD/Linux下运行. 是的,抱歉,不是编程……但这是获得好答案的最佳场所! 解决方案 Solr 来自 Apache Lucene 项目感兴趣. ..
发布时间:2021-07-17 20:01:23 其他开发