web-scraping相关内容

如何在数据库中添加抓取的网站数据?

我想储存: 产品名称 Categoty 子类别 价格 产品公司。 在我的表中,名为products_data的filds名称为PID,product_name,category,subcategory,product_price和product_company。 我使用 curl_init()函数在php到第一个废料网站的URL,接下来我想存储产品数据在我的数据库表。这是 ..
发布时间:2017-03-05 21:44:04 PHP

日期格式在Java中创建.CSV文件时受到干扰

我正在创建一个网页抓取工具,然后将数据存储在.CSV文件中。 我的程序运行正常,但有一个问题,我从其中检索数据的网站有一个日期(月日,年)格式。所以当我将数据保存在.CSV文件中时,它将把Year作为另一个列,因为所有的数据都被处理。我实际上想将该数据存储到(MM-MON-YYYY)中,并将有效期日期存储在一列中。我在下面发布我的代码。请帮助我。谢谢! PS:对不能在原始帖子中填写我想要的 ..
发布时间:2017-02-25 00:41:34 Java开发

抓取:将存储为图片的数据添加到python 3.5中的CSV文件

对于此项目,我从数据库中刮取数据,并尝试将此数据导出到电子表格以进行进一步分析。 (以前发布的此处 - 我以前认为在表格中找到获胜候选人可以简化为只需总是选择名字出现在表中,因为我认为“赢家”总是首先出现。然而,这种情况并非如此。 候选人是否被选举以图片的形式存储在第一列。 它位于 as: ..
发布时间:2017-02-24 21:23:51 Python

我如何使用python和beautifulsoup4在网站中循环抓取数据的多个页面

我试图从PGA.com网站抓取数据,以获取美国所有高尔夫球场的表格。在我的CSV表格中,我想要包括高尔夫球场的名称,地址,所有权,网站,电话号码。有了这些数据,我想对它进行地理编码并放入地图,并在我的计算机上有本地副本。 我使用Python和Beautiful Soup4来提取我的数据。我已经到达尽可能提取的数据,并将其导入到CSV,但我现在有一个问题,从PGA网站上的多个页面中的数据。我想 ..
发布时间:2017-02-24 18:13:11 Python

如何在R中抓取一个活的java脚本网页?

我想通过播放从 http://stats.statbroadcast.com / statmonitr /?id = 107165 。链接将带您到“分割框”选项卡。我有兴趣通过播放选项卡,以及主页统计和访问者统计选项卡刮游戏。其中一个问题是,无论什么标签,你切换到url从来没有改变。如果使用选择器小工具,css-selector的所有选项卡的主要内容也是一样,这是“#stats”。我是一个新手在网 ..
发布时间:2017-02-23 00:08:43 前端开发

硒提取问题:等待/未找到元素

在chrome和firefox中,一切都很好,直到我需要提取文本。我得到这个错误: h3 = next(h3s中元素的元素,如果element.is_displayed()) StopIteration 我甚至添加了流畅的等待。 browser = webdriver.Firefox() browser.get('https://www.voilanorbe ..
发布时间:2017-02-17 02:28:43 前端开发

cURL请求在需要JavaScript支持的页面上

我需要获取pinnaclesports.com的HTML源代码。问题是它检测是否启用了Cookie和JS,如果没有,它只返回一些页面 此网站需要JavaScript和Cookie启用。请更改浏览器设置或升级浏览器。 使用cURL时是否有任何方式欺骗JS支持? 编辑:我可以使用无头浏览器作为Perl / Ruby模块或用PHP编写。 解决方案 我想出来, 如果你做无coo ..
发布时间:2017-01-06 17:50:51 前端开发

Jsoup用于HTTPS抓取的Cookie

我正在尝试使用此网站在欢迎页面上收集我的用户名以学习Jsoup和Android。使用以下代码 Connection.Response res = Jsoup.connect(“http://www.mikeportnoy.com/forum/ login.aspx“) .data(”ctl00 $ ContentPlaceHolder1 $ ctl00 $ Login1 $ UserNa ..
发布时间:2017-01-06 09:55:16 Java开发

UnicodeEncodeError:'ascii'编解码器不能编码字符u'\xe7'在位置17710:序数不在范围(128)

我尝试从存档的网页抓取中打印字符串,但是当我这样做时会收到此错误: 打印页面['html'] UnicodeEncodeError:'ascii'编解码器无法对位置17710的字符u'\xe7' :ordinal不在范围(128) 当我尝试打印 unicode ['html'])我得到: 打印unicode错误='忽略') TypeError:解码Unicode不支 ..
发布时间:2016-11-19 15:06:01 Python

如何使用python请求和事件钩子编写一个web回调函数的回调函数?

我最近看过 python-requests 模组,我想撰写一个简单的web爬行器。给定一个开始url的集合,我想写一个Python函数,搜索其他urls的起始url的网页内容,然后再次调用相同的函数作为回调与新的urls作为输入,等等。起初,我认为事件挂钩将会正确的工具为此目的,但其文档部分是相当稀疏。在另一页我读到用于事件钩子的函数必须返回传递给它们的同一个对象。所以事件钩子显然不可行这种任务。 ..
发布时间:2016-11-10 10:43:04 Python

遵循超链接和“过滤的异地请求”

我知道有几个相关的线程,他们已经帮助了我很多,但我仍然不能得到所有的方式。我在运行代码不会导致错误,但我没有在我的 csv 文件。我有以下 Scrapy 蜘蛛,从一个网页开始,然后跟随一个超链接,并刮掉链接的页面: 来自scrapy.http import请求 来自scrapy.spider import BaseSpider 来自scrapy.selector import HtmlXP ..
发布时间:2016-11-10 10:18:30 Python

如何提取网页的动态Ajax内容

我的要求是提取从网页所需的内容。该页面有正在被使用AJAX填充的部分。当我在网页源代码查看它没有显示用ajax加载的内容。该部分内容将改变基于选中的复选框。如果我们选择“印度”复选框,然后部分将显示印度的所有细节。该页面的源代码将只显示默认的内容没有使用AJAX显示的内容。我查了一下网页的源文件选中复选框后,它仍然只显示默认值。如何获得该部分内容, 解决方案 在C#中,您可以使用HTMLA ..
发布时间:2016-10-08 16:21:01 C#/.NET