web-scraping相关内容

如何将原始的javascript对象转换成字典?

在抓屏时,我会从标签中提取数据。 我得到的数据不是标准的JSON格式。我无法使用json.loads()。 # from js_obj = '{x:1, y:2, z:3}' # to py_obj = {'x':1, 'y':2, 'z':3} 目前我使用regex将原始数据转换为JSON格式。 但当我遇到复杂的数据结构时,我感觉很糟糕。 您有更好的解决方案 ..
发布时间:2022-06-21 18:22:24 前端开发

对Instagram通知提要的API访问

目前我正在构建一个社交媒体灯,当你的Facebook/Twitter/Instagram/上有更新时,它就会闪烁。现在我正在看Instagram,我想知道什么时候有人喜欢我的一篇帖子。The official API没有此功能。然后我发现有一个非官方版本,实现了官方应用程序的更多功能。This is a version for PHP。 找了一段时间后,我找不到用于访问Like提要的API端 ..
发布时间:2022-06-11 10:12:05 Python

如何使用VBA和ChromeDriver优化等待方法

在此主页“http://www.kpia.or.kr/index.php/year_sugub” 如果检查html,会发现从li1到li6有6个id。第一次使用chromeDriver后,我注意到的第一件事是等待方法无效。所以我在点击这个主页的互联网后,寻找了各种方法来优化等待时间。 例如,我应用了以下三种编码。 EX1) 应用程序.立即等待+TimeSerial(0,0,5) ** ..
发布时间:2022-04-20 16:37:08 其他开发

将查询参数添加到URL

我正在尝试自动从网站下载数据。我需要传递动态参数到网站,每天都在变化。该html是以表格而不是表格的形式构成的。如何传递参数并从URL获得结果? 这就是我尝试过的,它需要在python2.7中使用 import urllib url = "https://disc.gsfc.nasa.gov/SSW/#keywords=" params = urllib.urlencode({'k ..
发布时间:2022-04-14 20:19:46 Python

从.csv中读取URL并将抓取结果添加到前面使用的Python、BeautifulSoup、Pandas

我让这段代码几乎正常工作,尽管我对此一无所知。请帮我打出本垒打! 问题1:输入: 我有一个很长的URL列表(1000+)可供读取,它们位于.csv中的单个列中。我更愿意读取该文件,而不是将它们粘贴到代码中,如下所示。 问题2:输出: 源文件实际上有3个驱动程序和3个挑战。在一个单独的python文件中,下面的代码查找、打印并保存所有3个文件,但在我使用下面的数据帧时不会(见 ..
发布时间:2022-04-05 11:50:13 Python

使用VBA的下拉菜单

我需要使用VBA从下拉菜单中选择特定选项。我如何才能做到这一点? https://clinicaltrials.gov/ct2/results?cond=&term=Medpace&cntry=&state=&city=&dist= 链接到我们尝试从其中拉出的网页 我尝试的 IE.document.getElementsByName(“down_count”).click代码 Fu ..
发布时间:2022-03-25 23:51:31 其他开发

木偶中的页面cookie不适用于保持登录

我要在https://web.whatsapp.com上制作Web刮板 向我的客户发送消息 我想保存我的登录信息以备下次使用,这样就不需要重新扫描二维码了 我知道我必须保存cookie以备下次使用。 扫描QR并登录到我的帐户后,我在Google Chrome开发工具、应用程序选项卡和Cookie部分看到Cookie,但page.cookie为空并返回[] 我尝试使用示例代码将cookie存储在文件 ..
发布时间:2022-03-11 18:14:56 其他开发

如何下载在木偶玩家的新标签中打开的pdf文件?

我有一个带有按钮的页面。当我单击该按钮时,它会在新选项卡中打开PDF。 如何使用Pupeteer将PDF下载为文件? 也许我可以使用新选项卡中的缓冲区编写文件。但我不确定是怎么做到的。 推荐答案 简单的解决方案是使用fetch接口执行GET请求。这样,您可以读取响应,将其传递到后端并将其保存到磁盘。 使用此示例代码作为参考: import fs from 'fs ..
发布时间:2022-03-11 16:34:00 前端开发

木偶师CORS错误

你好,我在使用木偶戏的代码中有问题,CORS错误是随机发生的,但在我的测试中有80%是随机发生的。这是我的代码,感谢您的帮助。顺便说一下,服务器的响应是 CORS策略已阻止访问从源‘https://www.nike.com’在‘https://secure-store.nike.com/eu/services/jcartService/?action=addItem&rt=json&countr ..
发布时间:2022-03-11 16:31:41 前端开发

从Vivino.com上抓取数据

我正在尝试从vivino.com收集数据,但DataFrame结果为空,我可以看到我的汤正在收集网站信息,但看不到我的错误在哪里。 我的代码: def get_data(): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/ ..
发布时间:2022-03-02 10:33:49 Python

用于使用窗体身份验证绕过警报消息的scrapy

Scrapy是否可以爬网警报消息? 链接(例如http://domainhere/admin)加载到实际浏览器后,会显示一条带有表单的警告消息,用于填写用户名和密码。 或者是否有办法检查警报消息中的表单,以了解要填写哪些参数? PS:我确实有此网站的凭据,我只想通过Web爬网自动执行流程。 谢谢。 推荐答案 我通过执行以下操作实现了这一点: 已观察到在身份 ..
发布时间:2022-02-25 10:39:52 Python