web-crawler相关内容

如何从 .html 页面中提取链接和标题?

对于我的网站,我想添加一个新功能. 我希望用户能够上传他的书签备份文件(如果可能,从任何浏览器),这样我就可以将其上传到他们的个人资料中,而他们不必手动插入所有这些... 我唯一缺少的部分是从上传的文件中提取标题和 URL 的部分.. 任何人都可以提供线索从哪里开始或从哪里阅读? 使用的搜索选项和(如何从原始 HTML 文件?)这是与我最相关的问题,它没有谈论它.. 我真的 ..
发布时间:2022-01-01 23:55:54 PHP

从数据帧循环 url 并在 Python 中下载 pdf 文件

基于 的代码在这里,我可以为每次交易抓取url 并将它们保存到可以在此处下载的excel文件. 现在我想更进一步,点击url链接: 对于每个url,我需要打开和保存pdf格式的文件: 我怎么能在 Python 中做到这一点?任何帮助将不胜感激. 参考代码: 导入shutil从 bs4 导入 BeautifulSoup进口请求导入操作系统从 urllib.parse 导入 ..
发布时间:2021-12-31 20:25:42 其他开发

带有代理支持的多线程蜘蛛的 Python 包?

除了使用 urllib 之外,有谁知道最有效的包可以快速、多线程下载可以通过 http 代理操作的 URL 吗?我知道一些,例如 Twisted、Scrapy、libcurl 等,但我对它们的了解不够,无法做出决定,甚至他们是否可以使用代理.有人知道最适合我的目的吗?谢谢! 解决方案 在 python 中实现这个很简单. urlopen() 函数有效透明地使用代理不需要认证.在一个 ..
发布时间:2021-12-31 19:25:27 Python

推荐使用 Lucene 或 Solr 的爬虫工具?

用于处理 HTML 和 XML 文档(本地或基于 Web)并且在 Lucene/Solr 解决方案空间中运行良好的爬虫(蜘蛛)是什么?可以是基于 Java 的,但不一定是. 解决方案 在我看来,这是一个非常重要的漏洞,它阻碍了 Solr 的广泛采用.新的 DataImportHandler 是导入结构化数据的良好开端,但没有用于 Solr 的良好文档摄取管道.Nutch 确实有效,但 Nu ..
发布时间:2021-12-30 08:59:02 其他开发

并发下载 - Python

计划是这样的: 我下载一个网页,收集在 DOM 中解析的图像列表,然后下载这些图像.在此之后,我将遍历图像以评估哪个图像最适合代表网页. 问题是图片是一张一张下载的,这可能需要相当长的时间. 如果有人能为我指出有关该主题的某个方向,那就太好了. 非常感谢您的帮助. 解决方案 加速爬行基本上是 Eventlet 的主要内容用例.它非常快——我们有一个应用程序必须在几分 ..
发布时间:2021-12-28 23:03:25 前端开发

python: [Errno 10054] 远程主机强行关闭了现有连接

我正在编写 python 来使用 Twitter-py 抓取 Twitter 空间.我已将爬虫设置为在对 api.twitter.com 的每个请求之间休眠一段时间(2 秒).但是,运行一段时间后(大约 1 次),当 Twitter 的速率限制尚未超过时,我收到此错误. [Errno 10054] 远程主机强行关闭了现有连接. 此问题的可能原因是什么以及如何解决? 我搜索了一下,发现可能 ..
发布时间:2021-12-25 20:04:42 Python

如何将字符串转换为 BeautifulSoup 对象?

我正在尝试抓取一个新闻网站,我需要更改一个参数.我用下一个代码替换了它: while i 问题是“t"类型是字符串,带有属性的find只适用于类型.你知道如何将“t"转换成那种类型吗? 解决方案 在解析前做替换: html = html.replace('class="row bigbox container mi-df-local locked-single"', 'class= ..
发布时间:2021-12-23 20:45:10 Python

BeautifulSoup 和 Scrapy 爬虫的区别?

我想做一个网站,显示亚马逊和 e-bay 产品价格之间的比较.其中哪些会更好地工作,为什么?我对 BeautifulSoup 有点熟悉,但对 Scrapy crawler 不太熟悉. 解决方案 Scrapy 是一个 Web-spider 或 网络爬虫框架,你给 Scrapy 一个根 URL 来启动抓取,然后您可以指定对要抓取和获取的 URL 数量(数量)等的约束.它是用于网页抓取或抓取的完 ..
发布时间:2021-12-23 20:03:09 Python

Sharepoint 2010 搜索无法抓取 mediawiki 站点

使用 Sharepoint 2010 企业搜索,我们正在尝试抓取我们内部基于 mediawiki 的 wiki 站点.搜索失败并显示错误:“该 URL 已被永久移动.(URL 重定向到...)'. 由于 wiki 站点具有区分大小写的 URL,当 Sharepoint 2010 尝试使用小写 URL 名称进行抓取时,Wiki 会显示“页面不存在"并使用 301 重定向!!! 有解决办法 ..

设计一个网络爬虫

我遇到了一个面试问题“如果你正在设计一个网络爬虫,你将如何避免陷入无限循环?"我正在尝试回答. 这一切是如何从头开始的.假设谷歌从一些中心页面开始,比如数百个(如何首先找到这些中心页面是一个不同的子问题).当 Google 跟踪页面中的链接等时,它是否会不断制作哈希表以确保它不会跟踪之前访问过的页面. 如果现在我们有 URL 缩短器等,如果同一个页面有 2 个名称(URL)会怎样. ..

Python:在 Selenium Google ChromeDriver 中禁用图像

我花了很多时间来搜索这个.在一天结束时,我结合了一些答案并且它有效.我分享我的答案,如果有人编辑它或为我们提供更简单的方法来做到这一点,我将不胜感激. 1- 禁用 Selenium Google ChromeDriver 中的图像 中的答案适用于爪哇.所以我们应该在 Python 中做同样的事情: opt = webdriver.ChromeOptions()opt.add_extensi ..
发布时间:2021-12-17 13:36:44 Python

我需要一个强大的网络爬虫库

我需要一个强大的网络爬虫库来从网络中挖掘内容.可以付费也可以免费,对我来说都可以.请建议我一个库或更好的方法来挖掘数据并存储在我喜欢的数据库中.我已经搜索过,但我没有找到任何好的解决方案.我需要专家的好建议.请帮帮我. 解决方案 抓取真的很容易,你只需要解析你正在下载的内容并获取所有关联的链接. 最重要的部分是处理 HTML 的部分.由于大多数浏览器不需要最干净(或符合标准)的 HT ..
发布时间:2021-12-17 13:26:01 C#/.NET

Python:调用 Python 对象时超出了最大递归深度

我构建了一个爬虫,它必须在大约 500 万个页面上运行(通过增加 url ID),然后解析包含我需要的信息的页面. 使用在 url (200K) 上运行的算法并保存好的和坏的结果后,我发现我浪费了很多时间.我可以看到有一些返回的减数可以用来检查下一个有效的 url. 你可以很快地看到减数(少数第一个“好ID"中的一个小例子)- 510000011 # +8510000029 # +1 ..
发布时间:2021-12-16 08:39:26 Python

使用 Apache Spark 进行分布式 Web 爬网 - 有可能吗?

当我参加一次关于网络挖掘的采访时,我问了一个有趣的问题.问题是,是否可以使用 Apache Spark 抓取网站? 我猜是可以的,因为它支持Spark的分布式处理能力.面试后我搜索了这个,但找不到任何有趣的答案.Spark 可以做到吗? 解决方案 这种方式怎么样: 您的应用程序将获取一组网站 URL 作为您的抓取工具的输入,如果您只是实现一个普通应用程序,您可以按如下方式执行: ..
发布时间:2021-12-15 15:22:47 其他开发