web-scraping 第2页 - IT屋-程序员软件开发技术分享社区

如何将原始的javascript对象转换成字典？

在抓屏时，我会从标签中提取数据。我得到的数据不是标准的JSON格式。我无法使用json.loads()。 # from js_obj = '{x:1, y:2, z:3}' # to py_obj = {'x':1, 'y':2, 'z':3} 目前我使用regex将原始数据转换为JSON格式。但当我遇到复杂的数据结构时，我感觉很糟糕。您有更好的解决方案 ..

发布时间：2022-06-21 18:22:24 javascript python json web-scraping 前端开发

对Instagram通知提要的API访问

目前我正在构建一个社交媒体灯，当你的Facebook/Twitter/Instagram/上有更新时，它就会闪烁。现在我正在看Instagram，我想知道什么时候有人喜欢我的一篇帖子。The official API没有此功能。然后我发现有一个非官方版本，实现了官方应用程序的更多功能。This is a version for PHP。找了一段时间后，我找不到用于访问Like提要的API端 ..

发布时间：2022-06-11 10:12:05 python python-3.x web-scraping instagram instagram-api Python

R：网络抓取没有返回适用于'；XML_FIND_ALL'；应用于字符类的对象的方法？

我正在使用RSelum和Purrr函数生成包含此页面中所有产品及其价格的DF： https://www.lacuracao.pe/curacao/tv-y-audio/televisores 我收到此错误，为什么？ Error in UseMethod("xml_find_all") : no applicable method for 'xml_find_all' app ..

发布时间：2022-06-09 15:49:07 r web-scraping purrr 其他开发

关于使用rvest和Purrr抓取具有嵌套链接的多个页面的问题

我已经编写了下面的代码来摘录FLOTUS在这个link上的所有演讲。代码如下： library(rvest) library(purrr) url_base ..

发布时间：2022-06-09 14:16:38 r web-scraping purrr rvest 其他开发

如何使用VBA和ChromeDriver优化等待方法

在此主页“http://www.kpia.or.kr/index.php/year_sugub” 如果检查html，会发现从li1到li6有6个id。第一次使用chromeDriver后，我注意到的第一件事是等待方法无效。所以我在点击这个主页的互联网后，寻找了各种方法来优化等待时间。例如，我应用了以下三种编码。 EX1) 应用程序.立即等待+TimeSerial(0，0，5) ** ..

发布时间：2022-04-20 16:37:08 vba selenium web-scraping selenium-chromedriver wait 其他开发

从YouTube、SoundCloud和其他平台获取元数据和MRL

目前我正在使用LibVLC获取在线视频和音乐的元数据和MRL。但仅为了获取此信息就需要大量愚蠢的开销。 ... from vlc import Instance as vlcInstance, MediaList, MediaListPlayer, Event, EventType, State ... self.player = MediaListPlayer(vlcInstanc ..

发布时间：2022-04-14 20:32:20 python web-scraping stream urllib libvlc Python

当我尝试使用urllib发送请求时，出现InvalidURL：URL不能包含控制字符

我正在尝试从用作urllib请求参数的链接获取JSON响应。但它给我一个错误，它不能包含控制字符。我如何解决此问题？ start_url = "https://devbusiness.un.org/solr-sitesearch-output/10//0/ds_field_last_updated/desc?bundle_fq =procurement_notice&sm_vid_I ..

发布时间：2022-04-14 20:27:31 python web-scraping beautifulsoup urllib Python

将查询参数添加到URL

我正在尝试自动从网站下载数据。我需要传递动态参数到网站，每天都在变化。该html是以表格而不是表格的形式构成的。如何传递参数并从URL获得结果？这就是我尝试过的，它需要在python2.7中使用 import urllib url = "https://disc.gsfc.nasa.gov/SSW/#keywords=" params = urllib.urlencode({'k ..

发布时间：2022-04-14 20:19:46 python python-2.7 url web-scraping urllib Python

从.csv中读取URL并将抓取结果添加到前面使用的Python、BeautifulSoup、Pandas

我让这段代码几乎正常工作，尽管我对此一无所知。请帮我打出本垒打！问题1：输入：我有一个很长的URL列表(1000+)可供读取，它们位于.csv中的单个列中。我更愿意读取该文件，而不是将它们粘贴到代码中，如下所示。问题2：输出：源文件实际上有3个驱动程序和3个挑战。在一个单独的python文件中，下面的代码查找、打印并保存所有3个文件，但在我使用下面的数据帧时不会(见 ..

发布时间：2022-04-05 11:50:13 python pandas web-scraping beautifulsoup export-to-csv Python

使用VBA的下拉菜单

我需要使用VBA从下拉菜单中选择特定选项。我如何才能做到这一点？ https://clinicaltrials.gov/ct2/results?cond=&term=Medpace&cntry=&state=&city=&dist= 链接到我们尝试从其中拉出的网页我尝试的 IE.document.getElementsByName(“down_count”).click代码 Fu ..

发布时间：2022-03-25 23:51:31 excel vba web-scraping dropdown queryselector 其他开发

使用puppeteer在page.waitForFunction()内传递函数

以下是我的代码： function hasDataBeenRefreshed(pastAvgGain, currentAvgGain) { if (pastAvgGain!== currentAvgGain) { return true } else { return false } } async function getInfos(paire, pa ..

发布时间：2022-03-11 19:09:32 javascript web-scraping puppeteer 前端开发

我正在尝试用Puppeteer和Node.js抓取https://www.ventureloop.com/ventureloop/job_search.php?g=0&jcat=46&dc=all&ldata=%&jt=1&jc=1&jd=1&d=5&btn=1 为此，我首先使用函数scrapeJobsInIndexPage(url)获取每个作业的url，然后运行函数scrapeDescri ..

发布时间：2022-03-11 18:48:56 javascript node.js web-scraping puppeteer 前端开发

如何使用Puppeteer-Sharp在IFRAME内填写表单

我正在尝试用木偶夏普刮淘宝网站。代码如下： private static async Task SurfWithPuppeteer() { var options = new LaunchOptions{ Devtools = true }; Console.WriteLine("Downloading chromium"); ..

发布时间：2022-03-11 18:29:49 c# iframe web-scraping puppeteer puppeteer-sharp C#/.NET

木偶中的页面cookie不适用于保持登录

我要在https://web.whatsapp.com上制作Web刮板向我的客户发送消息我想保存我的登录信息以备下次使用，这样就不需要重新扫描二维码了我知道我必须保存cookie以备下次使用。扫描QR并登录到我的帐户后，我在Google Chrome开发工具、应用程序选项卡和Cookie部分看到Cookie，但page.cookie为空并返回[] 我尝试使用示例代码将cookie存储在文件 ..

发布时间：2022-03-11 18:14:56 node.js web-scraping web-crawler puppeteer 其他开发

如何下载在木偶玩家的新标签中打开的pdf文件？

我有一个带有按钮的页面。当我单击该按钮时，它会在新选项卡中打开PDF。如何使用Pupeteer将PDF下载为文件？也许我可以使用新选项卡中的缓冲区编写文件。但我不确定是怎么做到的。推荐答案简单的解决方案是使用fetch接口执行GET请求。这样，您可以读取响应，将其传递到后端并将其保存到磁盘。使用此示例代码作为参考： import fs from 'fs ..

发布时间：2022-03-11 16:34:00 javascript node.js web-scraping puppeteer 前端开发

木偶师CORS错误

你好，我在使用木偶戏的代码中有问题，CORS错误是随机发生的，但在我的测试中有80%是随机发生的。这是我的代码，感谢您的帮助。顺便说一下，服务器的响应是 CORS策略已阻止访问从源‘https://www.nike.com’在‘https://secure-store.nike.com/eu/services/jcartService/?action=addItem&rt=json&countr ..

发布时间：2022-03-11 16:31:41 javascript web-scraping cors chromium puppeteer 前端开发

从Vivino.com上抓取数据

我正在尝试从vivino.com收集数据，但DataFrame结果为空，我可以看到我的汤正在收集网站信息，但看不到我的错误在哪里。我的代码： def get_data(): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/ ..

发布时间：2022-03-02 10:33:49 python pandas web-scraping beautifulsoup data-science Python

从范围获取文本返回空字符串

我正在尝试使用python和Selenium从此div内部的span中获取文本： TEXT 我尝试过此操作，但返回空字符串： line = dr.find_element_by_class_name('product-name' ..

发布时间：2022-02-28 20:45:59 python selenium web-scraping phantomjs Python

将`xml_document/xml_node`对象保存在Tibble中进行变异

我要将html页面保存到Tibble，以便以后可以对页面内容使用变异体我想过将html直接读取到Tibble： library(tidyverse) library(rvest) #does not work tibble(html=read_html("https://www.accessdata.fda.gov/scripts/cder/daf/index.cfm?event= ..

发布时间：2022-02-28 20:30:37 r web-scraping tidyverse 其他开发

用于使用窗体身份验证绕过警报消息的scrapy

Scrapy是否可以爬网警报消息？链接(例如http://domainhere/admin)加载到实际浏览器后，会显示一条带有表单的警告消息，用于填写用户名和密码。或者是否有办法检查警报消息中的表单，以了解要填写哪些参数？ PS：我确实有此网站的凭据，我只想通过Web爬网自动执行流程。谢谢。推荐答案我通过执行以下操作实现了这一点：已观察到在身份 ..

发布时间：2022-02-25 10:39:52 python web-scraping scrapy web-crawler Python

web-scraping相关内容