web-crawler 第6页 - IT屋-程序员软件开发技术分享社区

如何使用 python 自动执行此下载提示?

我制作了一个爬虫，用于使用 selenium 和 python 从特定的 torrent 站点下载 torrent.当有人点击“磁铁下载"时，就会发生下载.链接并单击“打开 μtorrent".所以点击“磁铁下载"后它将打开一个弹出窗口(不是 javascript 弹出窗口)，并且必须单击“打开 μtorrent".如何自动执行此步骤?我附上下面的图片.请帮助我.我在堆栈中寻找解决方案，但没有一个 ..

发布时间：2021-09-22 20:31:37 python selenium web-crawler Python

如何使用 Python 抓取和抓取此特定网站并将数据保存在文本文件中?

好的，所以我正在做这个项目，它在孟加拉语网络语料库上实现 Word2Vec 以查找类似的上下文词，作为先决条件，我正在尝试抓取某些新闻和博客网站，然后抓取链接以构建一个数据语料库.目前，我正在 Chrome 浏览器上使用 Google Colab. 这是我用于抓取的 Python 代码...(我确实从互联网上获取了代码片段的帮助，我最近才了解了所有这些) 进口请求导入 urllib.par ..

发布时间：2021-09-22 20:31:34 python web-scraping beautifulsoup unicode web-crawler Python

自动限制每个文件的行数并创建新文件

我正在编写将大量数据写入 .csv 文件的脚本.我想自动限制每个文件的行数并创建新文件. 解决方案一个简单的方法是使用一个类来跟踪您的行并在需要时写入新文件(例如 self.max_row) 例如: 导入csvMyCSV 类:def __init__(self):self.max_row = 10self.cur_row = 0self.file_number = 0self.f ..

发布时间：2021-09-22 20:31:31 python csv web-scraping web-crawler Python

我需要帮助使用 php 制作网站爬虫

我真的很想制作一个网站爬虫，它可以访问一个网站，扫描它的链接，将链接放入数据库中，然后移动到另一个网站.我找到了一个网站，但代码确实有问题.如果你见过这样的东西或者自己写过一篇. 解决方案我找到了一个，所以如果有人正在寻找，这里是链接:php-crawler ..

发布时间：2021-09-22 20:31:28 php web-crawler PHP

使用 Twisted 的网络爬虫

我正在尝试使用python和twisted创建一个网络爬虫.发生的事情是在调用时reactor.run() 我不知道要获取的所有链接.所以代码如下: def crawl(url):d = 获取页面(网址)d.addCallback(handlePage)反应器运行() 和句柄页面有类似的东西: def handlePage(output):urls = getAllUrls(输出) ..

发布时间：2021-09-22 20:31:24 python web-crawler twisted Python

如何下载 1080p 分辨率的 YouTube 视频?

我尝试了以下 3 个程序来下载 1080p 分辨率的 YouTube 视频，但只能下载 720p. https://github.com/nficano/pytube https://github.com/mps-youtube/pafy https://github.com/rg3/youtube-dl 如何通过脚本下载 1080p 视频，以便我可以将其与音频? 解 ..

发布时间：2021-09-22 20:31:21 python youtube-api web-crawler Python

使用 Python 下载 URL 中未明确引用的文档

我使用 Bing API 在 Python 2.6 中编写了一个网络爬虫，它会搜索某些文档，然后下载它们进行分类.我一直在使用字符串方法和 urllib.urlretrieve() 来下载 URL 以 .pdf、.ps 等结尾的结果，但是当文档“隐藏"在 URL 后面时我遇到了麻烦喜欢: http://www.oecd.org/officialdocuments/displaydocumen ..

发布时间：2021-09-22 20:31:18 python url web-crawler bing-api Python

如何等待页面加载完成?

我正在尝试从 http://www.neimanmarcus.com/Stuart-Weitzman-Reserve-Suede-Over-the-Knee-Boot-Black/prod179890262/p.prod 我尝试了下面的代码，但它总是在获得大小之前返回. # config.url = 'http://www.neimanmarcus.com/Stuart-Weitzman- ..

发布时间：2021-09-22 20:31:15 python web-crawler Python

Ruby 正则表达式的问题

我有这个 HTML 代码，就在一行中: fkdsafjldsajl fkdsafjldsajl 这是对线路友好的版本(我不能使用) ..

发布时间：2021-09-22 20:31:12 ruby regex web-crawler 其他开发

如何下载谷歌搜索结果?

如果这是一个太无知的问题或之前曾被问过，我们深表歉意.粗略一看，并没有发现任何与此完全相符的东西.问题是:如何下载 Google 已编入索引的所有 Word 文档?手工完成确实是一项艰巨的任务......感谢所有指点. 解决方案恐怕没有合法的方法可以做到.以前 Google 为其网络搜索提供了 SOAP API，但它已被弃用并将在今年夏天关闭.每天限制为 1000 次查询. 目前 ..

发布时间：2021-09-22 20:31:09 web-crawler 其他开发

file_get_content 获取错误的网页

我正在学习使用 PHP-file_get_contents 抓取网站内容，但是出了点问题.我想要的网络是“http://www.jandan.net". 但是使用file_get_content()，我从"http://i.jandan 获取内容.net"(这是电话页面，它们是不同的页面).user_agent 也无法使用. "用户代理:Mozilla/5.0\n"));$context ..

发布时间：2021-09-22 20:31:06 php web-crawler PHP

在 pdf 扩展中找到链接

我需要获取带有 pdf 扩展名的链接.我的代码是: 代码给我空白结果，我的代码有什么问题?非常感谢:) 解决方案用简单的html dom解决，代码为: find('a') as $e) {$link= $e->href;if (preg_match('/\.pdf$/i', $link)) {}}print_r($result);?> ..

发布时间：2021-09-22 20:31:03 php web-crawler PHP

以编程方式下载未出现在页面源代码中的文本

我正在用 Python 编写一个爬虫.给定一个网页，我以下列方式提取它的 Html 内容: 导入 urllib2response = urllib2.urlopen('http://www.example.com/')html = response.read() 但是某些文本组件不会出现在 Html 页面源中，例如在此页面(重定向到索引，请访问其中一个日期并查看特定邮件)如果您查看页面源，您 ..

发布时间：2021-09-22 20:31:00 javascript python html web-scraping web-crawler 前端开发

无法理解在源代码中查找的位置，以创建 Web 抓取工具

我是 Python 的菜鸟，从今年夏天开始就断断续续地自学.我正在阅读scrapy教程，偶尔阅读更多关于html/xml的内容来帮助我理解scrapy.我给自己的项目是模仿scrapy教程为了爬http://www.gamefaqs.com/boards/916373-pc.我想得到一个线程标题列表和线程 url，应该很简单！我的问题在于不理解 xpath，我猜也是 html.在查看 ga ..

发布时间：2021-09-22 20:30:57 python web-scraping web-crawler Python

请求:.text 格式的解释

我正在使用 requests 模块和 Python 2.7 来构建一个基本的网络爬虫. source_code = requests.get(url)纯文本 = source_code.text 现在，在上面的代码行中，我将指定 URL 的源代码和其他元数据存储在 source_code 变量中.现在，在 source_code.text 中，.text 属性究竟是什么?它不是一个函数.我在文 ..

发布时间：2021-09-22 20:30:54 python python-2.7 web-crawler python-requests Python

关于 Google Custom Search API 的正确使用

我正在编写一个商业应用程序，它将 URL 列表作为输入(在本例中来自 Google 自定义搜索)，处理 URL 指向的页面并将处理后的信息与 URL 一起存储. 我只是想知道是否有人知道这是否违反了其 TOS 中的规定:“您不得以任何方式构建、缓存或修改 Google 生成的结果".. 来源:http://www.google.com/cse/docs/tos.html 我也很想 ..

发布时间：2021-09-22 20:30:51 web-crawler web-search 其他开发

使用下拉列表从 url 抓取 csv 文件?

我正在尝试从加拿大天气. 通常需要从下拉列表中选择年/月/日，然后单击“GO"，然后单击“下载数据"按钮，为所选月+年的该数据，如下所示.我想从python中所有可用的月份/年份下载CSV格式的所有数据文件(使用beautifulsoup 4). 我试图修改另一个问题中的一些代码这里，但没有成功.请帮忙.从 bs4 导入 BeautifulSoup# Python 3.x从 urll ..

发布时间：2021-09-22 20:30:44 python csv beautifulsoup web-crawler Python

python爬虫ieee论文关键词

我尝试使用爬虫来获取 ieee 论文关键字，但现在出现错误如何修复我的爬虫?我的代码在这里导入请求导入json从 bs4 导入 BeautifulSoupieee_content = requests.get("http://ieeexplore.ieee.org/document/8465981", timeout=180)汤 = BeautifulSoup(ieee_content.tex ..

发布时间：2021-09-22 20:30:41 python python-3.x web-crawler Python

为什么Selenium获取子元素慢

例如，HTML: 这个元素没有子元素，当我使用代码时: ListchildElements = ele.findElements(By.xpath("./*")); 程序使用了很长时间(大约30s)返回一个结果.结果大小是正确的，为零.那么我该如何解决这个问题呢?谢谢. 解决方案根据文档 findElements() 方法受隐式等待持续时间的影响.执行.隐式等待时，findEl ..

发布时间：2021-09-22 20:30:39 selenium selenium-webdriver webdriver web-crawler implicitwait 其他开发

如何获取通向下一页的所有链接?

我已经在 vba 中编写了一些代码来获取从网页通向下一页的所有链接.下一页链接的最高数量是 255.运行我的脚本，我得到了 6906 个链接内的所有链接.这意味着循环一次又一次地运行，我正在覆盖一些东西.过滤掉重复链接我可以看到有 254 个唯一链接.我的目标不是将最高页码硬编码到迭代链接.这是我正在尝试的内容: Sub YifyLink()常量链接 = "https://www.yify-to ..

发布时间：2021-09-22 20:30:36 vba web-scraping web-crawler 其他开发

web-crawler相关内容