screen-scraping相关内容

将 C# 表单设置为否定位置

我正在开发一种适用于 Windows 的工具,该工具将使用其 API 与 CloudApp 进行交互.我在这里找到了一些关于如何实现区域捕获的文章,我曾经修改过这些文章以满足我的确切需求.一切都很顺利,但我在多显示器设置方面遇到了问题.麻烦的原因是我在 1920x1080 中运行一台显示器,第二台是 1080x1920. 整个流程是我创建整个屏幕(3000、1920)的图像,然后将其显示为表 ..
发布时间:2021-07-17 18:43:44 C#/.NET

如何知道被抓取的网站是否发生了变化?

我正在使用 PHP 抓取网站并收集一些数据.这一切都是在不使用正则表达式的情况下完成的.我正在使用 php 的 expand() 方法来查找特定的 HTML 标签. 如果网站的结构发生变化(CSS、HTML),抓取工具可能会收集到错误的数据.所以问题是 - 我如何知道 HTML 结构是否已更改?在将任何数据存储到我的数据库之前如何识别这一点,以避免存储错误的数据. 解决方案 如果您抓 ..
发布时间:2021-07-17 18:43:33 PHP

webrtc 视频流和屏幕共享库

我需要满足以下要求的基于 WebRTC 的产品(开源或商业许可). 屏幕共享、视频和音频流 使用 Google Chrome、Firefox,如果可能,支持 IE IOS 库支持 我的目标是什么 我将构建一个系统,允许用户通过指定的支持功能通过 ASP.NET 网站和 Ipad/Iphone 应用程序相互通信.我在互联网上找到了一些库,但它们不支持屏幕共享或单独具有这 ..
发布时间:2021-07-17 18:43:27 其他开发

抓取/模拟浏览帮助

我想制作一个程序来模拟用户浏览网站和点击链接.必须启用 Cookie 和 javascript.我已经在 python 中成功地做到了这一点,但我想把它写成一种可编译的语言(python ide 不会削减它).网站上的链接是用 javascript 生成的,并且是动态的.使用 python,我使用 PAMIE(使用 win32com 的第三方模块)启动 Internet Explorer 实例,抓 ..
发布时间:2021-07-17 18:43:21 C#/.NET

如何获取两个 HTML 标签之间的所有内容?(使用 XPath?)

编辑:我添加了一个适用于这种情况的解决方案. 我想从页面中提取一个表格,并且我想(可能)使用 DOMDocument 和 XPath 来执行此操作.但如果你有更好的主意,请告诉我. 我的第一次尝试是这样的(显然是错误的,因为它将获得第一个结束表标签): 我很坚强,这可能可以通过 DOMDocument 和/或 xpath 解决... 最后,我想要标签(在本例中为标签)之间的 ..
发布时间:2021-07-17 18:43:17 PHP

HTMLAgilityPack 中的 XPath 选择无法按预期工作

我正在用 C# 编写简单的屏幕抓取程序,为此我需要选择放置在一个名为“aspnetForm"的单个表单中的所有输入(页面上有 2 个表单,我不想输入来自另一个表单)),并且此表单中的所有输入都放置在不同的表、div 中,或仅位于此表单的第一个子级. 所以我写了非常简单的 XPath 查询: //form[@id='aspnetForm']//输入 它在我测试过的所有浏览器(Chrome、 ..
发布时间:2021-07-17 18:43:09 C#/.NET

使用 Node.js 进行网页抓取时,我可以在页面上运行所有 JavaScript 吗?(即模拟真实浏览器?)

我正在尝试使用 node.js 进行一些网页抓取.使用 jsdom,很容易加载 DOM 并将 JavaScript 注入其中.我想更进一步:运行从网页链接到的所有 JavaScript,然后检查生成的 DOM,包括元素的视觉属性(高度、宽度等). 到目前为止,当我尝试使用 jsdom 检查 DOM 元素的维度时,我得到了 NaN. 这可能吗? 我觉得有两个不同的挑战: 在网 ..
发布时间:2021-07-17 18:43:06 其他开发

将表单数据发送到aspx页面

有需要在网站上搜索 url = r'http://www.cpso.on.ca/docsearch/' 这是一个 aspx 页面(我从昨天开始这个跋涉,很抱歉有菜鸟问题) 使用 BeautifulSoup,我可以像这样获得 __VIEWSTATE 和 __EVENTVALIDATION: viewstate = soup.find('input', {'id' : '__VIEWS ..
发布时间:2021-07-17 18:43:03 Python

检测网页是否被更改

在我的 python 应用程序中,我必须阅读许多网页来收集数据.为了减少 http 调用,我只想获取更改的页面.我的问题是我的代码总是告诉我页面已更改(代码 200),但实际上并没有. 这是我的代码: from models import mytab进口重新导入 urllib2从 wsgiref.handlers 导入 format_date_time从日期时间导入日期时间从时间导入 mk ..
发布时间:2021-07-17 18:43:01 Python

使用 Python 下载 URL 的 html - 但启用了 javascript

我正在尝试下载此页面 这样我就可以抓取搜索结果.但是,当我下载页面并尝试使用 BeautifulSoup 处理它时,我发现页面的某些部分(例如,搜索结果)未包含在内,因为该站点检测到未启用 javascript. 有没有办法下载在 Python 中启用了 javascript 的 URL 的 HTML? 解决方案 @kstruct:我的首选方法是使用已经编写好的浏览器,而不是使用 Q ..
发布时间:2021-07-17 18:42:52 Python

从从 Tableau 画布动态加载的页面中抓取与冠状病毒相关的数据(我认为......)

我会很高兴发现这个问题是重复的,但如果是这样 - 我找不到那个问答. 有这个神秘页面来自 纽约州卫生部 包含“按县和年龄组划分的死亡人数".正如标题所暗示的,它包含两个表(“按县"/“按年龄组"). 出于某种奇怪的原因,此页面上的数据是超级安全的.无法选择,无法保存页面,无法打印.数据不在页面源上.我还尝试(但失败)检查 xhr 调用数据. 显然,requests 和beauti ..
发布时间:2021-07-17 18:42:49 Python

这个正在重新计算的页面可以应用抓取吗?

我想从下面的页面中获取卫星位置,但我不确定抓取是否合适,因为该页面似乎每秒都在使用一些内部代码进行更新(在我断开与互联网).背景信息可以在我在 Space Stackexchange 上的问题中找到:下载 Orbcomm-2 卫星位置的更好方法. 我需要同时四个项目的“快照": UTC 时间 纬度 经度 海拔 现在我使用屏幕截图和手动输入.由于这些值正在由页面更新 - 传统 ..
发布时间:2021-07-17 18:42:46 Python

从安全网站抓取数据或自动化平凡的任务

我有一个网站,我需要使用用户名和密码以及验证码登录. 进入后,我有一个包含预订的控制面板.对于每个预订,都有一个详细信息页面的链接,其中包含进行预订的人的电子邮件地址. 每天我都需要一份所有这些电子邮件地址的列表,以便向他们发送电子邮件. 我知道如何在 .NET 中抓取网站以获取这些类型的详细信息,但不知道如何抓取需要登录的网站. 我看过一篇文章,我可以将 cookie 作 ..
发布时间:2021-07-17 18:42:43 C#/.NET

屏幕抓取:正则表达式还是 XQuery 表达式?

我在面试时回答了一些测验问题,问题是我将如何进行屏幕抓取.也就是说,从网页中挑选内容,假设您没有更好的结构化方式来直接查询信息(例如网络服务). 我的解决方案是使用 XQuery 表达式.表达式相当长,因为我需要的内容在 HTML 层次结构中非常深.在找到具有 id 属性的元素之前,我必须以公平的方式搜索祖先.例如,抓取 Amazon.com 页面的 Product Dimensions 如 ..
发布时间:2021-07-17 18:42:40 其他开发

以编程方式登录网站以进行屏幕抓取的最佳方法是什么?(最好在 Python 中)

我希望能够以编程方式登录网站并定期从该网站获取一些信息.什么是使这尽可能简单的最佳工具?我更喜欢某种类型的 Python 库,因为我想更精通 Python,但我愿意接受任何建议. 解决方案 你可以试试 Mechanize (http://wwwsearch.sourceforge.net/mechanize/) 用于程序化网络浏览,并且绝对使用 Beautiful Soup (http:/ ..
发布时间:2021-07-17 18:42:37 Python

用 Python 抓取?

我想从这里获取所有索引词及其定义.是否可以使用 Python 抓取网页内容? Firebug 探索显示以下 URL 返回了我想要的内容,包括索引及其对“a"的定义. http://pali.hum.ku.dk/cgi-bin/cpd/pali?acti=xart&arid=14179&sphra=undefined 使用的模块是什么?有教程吗? 我不知道字典中索引了多少个单词.我绝 ..
发布时间:2021-07-17 18:42:35 Python

Python 万维网宏

我需要类似 iMacros for Python 的东西.有这样的东西会很棒: browse_to('www.google.com')type_in_input('搜索', '查询')click_button('搜索')list = get_all(' ') 你知道这样的事情吗? 提前致谢,埃塔姆. 解决方案 几乎直接实现了问题中的愿望 - 斜纹. twill 是一种简单的 ..
发布时间:2021-07-17 18:42:26 Python