web-crawler相关内容

如何使用 python 自动执行此下载提示?

我制作了一个爬虫,用于使用 selenium 和 python 从特定的 torrent 站点下载 torrent.当有人点击“磁铁下载"时,就会发生下载.链接并单击“打开 μtorrent".所以点击“磁铁下载"后它将打开一个弹出窗口(不是 javascript 弹出窗口),并且必须单击“打开 μtorrent".如何自动执行此步骤?我附上下面的图片.请帮助我.我在堆栈中寻找解决方案,但没有一个 ..
发布时间:2021-09-22 20:31:37 Python

如何使用 Python 抓取和抓取此特定网站并将数据保存在文本文件中?

好的,所以我正在做这个项目,它在孟加拉语网络语料库上实现 Word2Vec 以查找类似的上下文词,作为先决条件,我正在尝试抓取某些新闻和博客网站,然后抓取链接以构建一个数据语料库.目前,我正在 Chrome 浏览器上使用 Google Colab. 这是我用于抓取的 Python 代码...(我确实从互联网上获取了代码片段的帮助,我最近才了解了所有这些) 进口请求导入 urllib.par ..
发布时间:2021-09-22 20:31:34 Python

自动限制每个文件的行数并创建新文件

我正在编写将大量数据写入 .csv 文件的脚本.我想自动限制每个文件的行数并创建新文件. 解决方案 一个简单的方法是使用一个类来跟踪您的行并在需要时写入新文件(例如 self.max_row) 例如: 导入csvMyCSV 类:def __init__(self):self.max_row = 10self.cur_row = 0self.file_number = 0self.f ..
发布时间:2021-09-22 20:31:31 Python

我需要帮助使用 php 制作网站爬虫

我真的很想制作一个网站爬虫,它可以访问一个网站,扫描它的链接,将链接放入数据库中,然后移动到另一个网站.我找到了一个网站,但代码确实有问题.如果你见过这样的东西或者自己写过一篇. 解决方案 我找到了一个,所以如果有人正在寻找,这里是链接:php-crawler ..
发布时间:2021-09-22 20:31:28 PHP

使用 Twisted 的网络爬虫

我正在尝试使用python和twisted创建一个网络爬虫.发生的事情是在调用时reactor.run() 我不知道要获取的所有链接.所以代码如下: def crawl(url):d = 获取页面(网址)d.addCallback(handlePage)反应器运行() 和句柄页面有类似的东西: def handlePage(output):urls = getAllUrls(输出) ..
发布时间:2021-09-22 20:31:24 Python

使用 Python 下载 URL 中未明确引用的文档

我使用 Bing API 在 Python 2.6 中编写了一个网络爬虫,它会搜索某些文档,然后下载它们进行分类.我一直在使用字符串方法和 urllib.urlretrieve() 来下载 URL 以 .pdf、.ps 等结尾的结果,但是当文档“隐藏"在 URL 后面时我遇到了麻烦喜欢: http://www.oecd.org/officialdocuments/displaydocumen ..
发布时间:2021-09-22 20:31:18 Python

如何等待页面加载完成?

我正在尝试从 http://www.neimanmarcus.com/Stuart-Weitzman-Reserve-Suede-Over-the-Knee-Boot-Black/prod179890262/p.prod 我尝试了下面的代码,但它总是在获得大小之前返回. # config.url = 'http://www.neimanmarcus.com/Stuart-Weitzman- ..
发布时间:2021-09-22 20:31:15 Python

如何下载谷歌搜索结果?

如果这是一个太无知的问题或之前曾被问过,我们深表歉意.粗略一看,并没有发现任何与此完全相符的东西.问题是:如何下载 Google 已编入索引的所有 Word 文档?手工完成确实是一项艰巨的任务......感谢所有指点. 解决方案 恐怕没有合法的方法可以做到.以前 Google 为其网络搜索提供了 SOAP API,但 它已被弃用并将在今年夏天关闭.每天限制为 1000 次查询. 目前 ..
发布时间:2021-09-22 20:31:09 其他开发

file_get_content 获取错误的网页

我正在学习使用 PHP-file_get_contents 抓取网站内容,但是出了点问题.我想要的网络是“http://www.jandan.net". 但是使用file_get_content(),我从"http://i.jandan 获取内容.net"(这是电话页面,它们是不同的页面).user_agent 也无法使用. "用户代理:Mozilla/5.0\n"));$context ..
发布时间:2021-09-22 20:31:06 PHP

在 pdf 扩展中找到链接

我需要获取带有 pdf 扩展名的链接.我的代码是: 代码给我空白结果,我的代码有什么问题?非常感谢:) 解决方案 用简单的html dom解决,代码为: find('a') as $e) {$link= $e->href;if (preg_match('/\.pdf$/i', $link)) {}}print_r($result);?> ..
发布时间:2021-09-22 20:31:03 PHP

以编程方式下载未出现在页面源代码中的文本

我正在用 Python 编写一个爬虫.给定一个网页,我以下列方式提取它的 Html 内容: 导入 urllib2response = urllib2.urlopen('http://www.example.com/')html = response.read() 但是某些文本组件不会出现在 Html 页面源中,例如在 此页面(重定向到索引,请访问其中一个日期并查看特定邮件)如果您查看页面源,您 ..
发布时间:2021-09-22 20:31:00 前端开发

无法理解在源代码中查找的位置,以创建 Web 抓取工具

我是 Python 的菜鸟,从今年夏天开始就断断续续地自学.我正在阅读scrapy教程,偶尔阅读更多关于html/xml的内容来帮助我理解scrapy.我给自己的项目是模仿scrapy教程为了爬http://www.gamefaqs.com/boards/916373-pc.我想得到一个线程标题列表和线程 url,应该很简单! 我的问题在于不理解 xpath,我猜也是 html.在查看 ga ..
发布时间:2021-09-22 20:30:57 Python

请求:.text 格式的解释

我正在使用 requests 模块和 Python 2.7 来构建一个基本的网络爬虫. source_code = requests.get(url)纯文本 = source_code.text 现在,在上面的代码行中,我将指定 URL 的源代码和其他元数据存储在 source_code 变量中.现在,在 source_code.text 中,.text 属性究竟是什么?它不是一个函数.我在文 ..
发布时间:2021-09-22 20:30:54 Python

关于 Google Custom Search API 的正确使用

我正在编写一个商业应用程序,它将 URL 列表作为输入(在本例中来自 Google 自定义搜索),处理 URL 指向的页面并将处理后的信息与 URL 一起存储. 我只是想知道是否有人知道这是否违反了其 TOS 中的规定:“您不得以任何方式构建、缓存或修改 Google 生成的结果".. 来源:http://www.google.com/cse/docs/tos.html 我也很想 ..
发布时间:2021-09-22 20:30:51 其他开发

使用下拉列表从 url 抓取 csv 文件?

我正在尝试从 加拿大天气. 通常需要从下拉列表中选择年/月/日,然后单击“GO",然后单击“下载数据"按钮,为所选月+年的该数据,如下所示.我想从python中所有可用的月份/年份下载CSV格式的所有数据文件(使用beautifulsoup 4). 我试图修改另一个问题中的一些代码这里,但没有成功.请帮忙.从 bs4 导入 BeautifulSoup# Python 3.x从 urll ..
发布时间:2021-09-22 20:30:44 Python

python爬虫ieee论文关键词

我尝试使用爬虫来获取 ieee 论文关键字,但现在出现错误如何修复我的爬虫?我的代码在这里 导入请求导入json从 bs4 导入 BeautifulSoupieee_content = requests.get("http://ieeexplore.ieee.org/document/8465981", timeout=180)汤 = BeautifulSoup(ieee_content.tex ..
发布时间:2021-09-22 20:30:41 Python

为什么Selenium获取子元素慢

例如,HTML: 这个元素没有子元素,当我使用代码时: ListchildElements = ele.findElements(By.xpath("./*")); 程序使用了很长时间(大约30s)返回一个结果.结果大小是正确的,为零.那么我该如何解决这个问题呢?谢谢. 解决方案 根据文档 findElements() 方法受隐式等待持续时间的影响.执行.隐式等待时,findEl ..

如何获取通向下一页的所有链接?

我已经在 vba 中编写了一些代码来获取从网页通向下一页的所有链接.下一页链接的最高数量是 255.运行我的脚本,我得到了 6906 个链接内的所有链接.这意味着循环一次又一次地运行,我正在覆盖一些东西.过滤掉重复链接我可以看到有 254 个唯一链接.我的目标不是将最高页码硬编码到迭代链接.这是我正在尝试的内容: Sub YifyLink()常量链接 = "https://www.yify-to ..
发布时间:2021-09-22 20:30:36 其他开发