web-crawler相关内容

如何抓取一些网站

我正在启动一个新的网站抓取项目,以使用网络服务在内部检索和存储数据.我查了一些资料,发现了 Scrapy 和 Beevolve 网络爬虫服务. 我的问题是最好在没有任何经验的情况下创建自己的爬虫还是租用网络爬虫服务? 我遇到的一个问题是,有些网站需要先登录才能获取任何数据. 解决方案 如果您想用 Java 创建自己的网络爬虫,您可能需要查看 这个 你也可以看看 jSpid ..
发布时间:2021-09-22 20:32:38 其他开发

网络爬虫评测?

我在专注网络爬行(又名主题网络爬行)中看到,评估指标 - 收获率 - 定义为:在爬行 't' 个页面后,收获率 = number_of_relevant_pages/pages_crawled(t). 例如,在抓取 100 个页面后,我得到了 80 个真阳性,那么此时抓取工具的收获率为 0.9.但是爬虫可能会忽略一些与爬行域完全相关但未计入评估比率的页面.这是什么?我们能否改进该评估指标以包 ..
发布时间:2021-09-22 20:32:35 其他开发

抓取数据但网址未更改

我想用python从这个网页抓取数据: https://www.discountoptiondata.com/freedata/ 保持到期日期和交易品种的相同值,但迭代开始日期的所有值.问题是所有组合的 URL 都保持不变,因此我无法获得要抓取的 URL 列表. 有人对我如何做到这一点有想法吗? 解决方案 您尝试解析的网站是动态的,这意味着当您在浏览器中下载它时,它会运行 ..
发布时间:2021-09-22 20:32:32 其他开发

使用 Ruby on Rails 从 URL 创建动态站点地图

我目前正在开发一个应用程序,我从多个不同的站点抓取信息.要在站点上获取所需主题的深层链接,我依赖于提供的站点地图(例如“论坛").在我扩展的过程中,我遇到了一些自己不提供站点地图的站点,所以我想知道是否有任何方法可以在 Rails 中从顶级域生成它? 我正在使用 Nokogiri 和 Mechanize 来检索数据,因此如果有任何功能可以帮助解决该任务,那么集成会更容易. 解决方案 ..
发布时间:2021-09-22 20:32:29 其他开发

Perl 只打印匹配的内容

我正在用 Perl 开发一个网络爬虫.它从页面中提取内容,然后进行模式匹配以检查内容的语言.Unicode 值用于匹配内容. 有时提取的内容包含多种语言的文本.我在这里使用的模式匹配会打印所有文本,但我只想打印与模式中指定的 Unicode 值匹配的文本. my $uu = LWP::UserAgent->new('Mozilla 1.3');我的 $extractorr = HTML:: ..
发布时间:2021-09-22 20:32:26 其他开发

在 Crawler4j 中循环调用 Controller.Start?

我在这里问了一个问题.但这是另一个听起来相似的问题. 使用crawler4j,我想抓取多个限制域名的种子网址(即shouldVisit中的域名检查).这里是一个如何操作的示例.简而言之,您使用 customData 设置域名列表,然后将其传递给爬虫类(来自控制器),在 shouldVisit 函数中,我们循环遍历此数据(这是一个列表,请参阅链接的 url)以查看域名是否在列表,如果是,则返回 ..
发布时间:2021-09-22 20:32:23 Java开发

对抓取的信息进行排序?

这是我成功抓取的页面的结果: 问题是我只得到了数字!没有分离.我的目标是将它们分开和排序. 这些数字中的每一个都代表着某种意义.但让我们拿前三个.5553为玩家等级,2591为玩家等级,1287238956为玩家经验值. 如何以这样的格式(如表格)显示此信息? 技能等级经验总体 5553 2591 1287238956 这是我的 PagesController: class ..
发布时间:2021-09-22 20:32:20 其他开发

web_crawler 中的 Itertools 给出错误的三元组

我已经编写了一些代码来解析 craigslist 中的名称、链接和价格.当我打印结果时,这些将作为列表被刮掉.我尝试使用下面粘贴的代码来获得解决方法,但它给出了错误的三元组,特别是当值为 none 时,它​​会从另一个三元组中获取下一个可用值,依此类推.因此,在这种情况下它没有用.希望我对如何实现这一点有任何建议,无论是 Itertools 还是任何其他方法. 导入请求从 lxml 导入 htm ..
发布时间:2021-09-22 20:32:17 其他开发

如何使用 C++ 单击网站上的按钮

我正在用 C++ 设计一个网络爬虫,但是有一个网页问我“你至少 18 岁吗?"当我第一次使用 URLDownloadToFileW 获取网页时,当然我必须点击 YES. 在javascript中,我可以使用document.getElementsByTagName('button')[0].click();来模拟按钮点击,那么有没有其他方法可以用C++解决这个问题? 解决方案 这并不 ..
发布时间:2021-09-22 20:32:14 C/C++开发

为什么python打印延迟?

我正在尝试使用请求下载文件,并在每次检索 100k 大小的文件时打印一个点,但最后打印出所有点.见代码. with open(file_name,'wb') 作为文件:print("开始下载,请稍候...")response_file = requests.get(file_url,stream=True)大小 = len(respond_file.content)//1000000#下一行将 ..
发布时间:2021-09-22 20:32:11 Python

如何使动态链接可通过谷歌抓取

我有问答网站,每个问题都有一个链接.我的问题是如何将此链接提供给谷歌?我应该在“site.xml"还是“robot.xml"中写链接?这个问题的标准解决方案是什么? 谢谢阿米特·阿加瓦尔 解决方案 一些建议: 首先确保您的网站对 SEO 友好并且可以被搜索引擎抓取. 第二,确保将您的网页站点地图发布到 Google. 为此将您的网站添加到 Google 网站管理员并提交您的 ..
发布时间:2021-09-22 20:32:08 其他开发

Java Selenium,在javascript激活后存储更新的页面源

我设法用我的链接打开浏览器并激活了 javascript,这使页面能够显示更多结果.完成此操作后,我尝试在控制台中打印新的更新页面源,但它显示的只是 javascript 激活之前的原始源.到目前为止,我的代码如下所示. WebDriver driver = new FirefoxDriver();driver.get("www.desiredLink.com");if(JavascriptEx ..
发布时间:2021-09-22 20:32:05 Java开发

使用 Python 从 URL 列表中查找特定 URL

我想通过爬行来查找特定链接是否存在于 URL 列表中.我编写了以下程序,它运行良好.但是,我被困在 2 个地方. 如何从文本文件中调用链接,而不是使用数组. 抓取工具需要将近 4 分钟才能抓取 100 个网页. 有什么办法可以让它更快. from bs4 import BeautifulSoup, SoupStrainer导入 urllib2进口重新进口螺纹开始 = time.ti ..
发布时间:2021-09-22 20:32:02 Python

Python 网络爬虫有时会返回一半的源代码,有时会返回全部......来自同一个网站

我有一个专利号电子表格,我通过抓取 Google 专利、美国专利商标局网站和其他一些网站来获取额外数据.我大部分时间都在运行,但有一件事我一整天都在坚持.当我去 USPTO 网站并获取源代码时,它有时会给我完整的东西并且工作得很好,但有时它只给我大约后半部分(我正在寻找的是第一部分). 在这里搜索了很多,我还没有看到任何人有这个确切的问题.这是相关的代码段(因为我已经尝试解决了一段时间,所以 ..
发布时间:2021-09-22 20:31:59 Python

网络爬虫在嵌套 div 中不起作用

我正在尝试制作一个能够吸引人们兴趣的网络爬虫.代码如下: 导入请求从 bs4 导入 BeautifulSoupdef facebook_spider():url = 'https://www.facebook.com/abhas.mittal7'source_code = requests.get(url)纯文本 = source_code.text汤 = BeautifulSoup(plain ..
发布时间:2021-09-22 20:31:56 Python

无效的 url 抛出异常 - python

导入httplib导入 urlparsedef getUrl(url):尝试:部分 = urlparse.urlsplit(url)服务器 = 零件 [1]路径 = 部分 [2]obj = httplib.HTTPConnection(server,80)obj.connect()obj.putrequest('HEAD',path)obj.putheader('接受','*/*')obj.end ..
发布时间:2021-09-22 20:31:49 Python

crawler4j 的实现

我正在尝试使 crawler4j 的基本形式如所见此处.我通过定义 rootFolder 和 numberOfCrawlers 修改了前几行,如下所示: 公共类 BasicCrawlController {public static void main(String[] args) 抛出异常 {如果(参数.长度!= 2){System.out.println("需要的参数:");System.o ..
发布时间:2021-09-22 20:31:46 Java开发

是否有任何 javascript(和客户端)wget 实现?

为了向网站管理员提供服务,我需要下载他们网站的公共部分.我目前在我的服务器上使用 wget 来做这件事,但它引入了很多负载,我想把那部分移到客户端. JavaScript 中是否存在 wget 的实现? 如果存在,我可以压缩文件并将它们发送到我的服务器进行处理,这样我就可以专注于应用的核心业务. 我知道 Js 中存在一些压缩库(例如 zip.js),但我无法找到 wget 对应项 ..
发布时间:2021-09-22 20:31:43 前端开发

为什么这个条件不起作用?带类的 Div

我有一个条件,我想从特定标签中检索文本,但它似乎没有返回 true.. 有什么帮助吗? #!/usr/bin/perl使用 HTML::TreeBuilder;使用警告;使用严格;我的 $URL = "http://prospectus.ulster.ac.uk/modules/index/index/selCampus/JN/selProgramme/2132/hModuleCode/COM1 ..
发布时间:2021-09-22 20:31:40 其他开发