web-scraping 第160页 - IT屋-程序员软件开发技术分享社区

如何在数据库中添加抓取的网站数据？

我想储存：产品名称 Categoty 子类别价格产品公司。在我的表中，名为products_data的filds名称为PID，product_name，category，subcategory，product_price和product_company。我使用 curl_init（）函数在php到第一个废料网站的URL，接下来我想存储产品数据在我的数据库表。这是 ..

发布时间：2017-03-05 21:44:04 php curl web-scraping PHP

php - 检查许多域中文本存在的最快方式（1000以上）

我有一个php脚本运行，并使用cURL检索网页的内容，我想检查一些文本的存在。现在看起来像这样： for（$ i = 0; $ i $ ch = curl_init（）; $ timeout = 10; curl_setopt（$ ch，CURLOPT_URL，$ target [$ i]）; curl_setopt（$ ch，CURLOPT_RETURNTRANSF ..

发布时间：2017-03-05 21:36:44 php curl screen-scraping web-scraping PHP

R：抓取网站，在网址中按日期递增循环，保存到CSV

我对R和网络抓取相对陌生，所以对任何固有的明显错误道歉。我想要从网址1中删除CSV文件，按日期增加到网址2，然后保存每个CSV文件。 startdate ..

发布时间：2017-02-26 16:01:31 r csv web-scraping Office

日期格式在Java中创建.CSV文件时受到干扰

我正在创建一个网页抓取工具，然后将数据存储在.CSV文件中。我的程序运行正常，但有一个问题，我从其中检索数据的网站有一个日期（月日，年）格式。所以当我将数据保存在.CSV文件中时，它将把Year作为另一个列，因为所有的数据都被处理。我实际上想将该数据存储到（MM-MON-YYYY）中，并将有效期日期存储在一列中。我在下面发布我的代码。请帮助我。谢谢！ PS：对不能在原始帖子中填写我想要的 ..

发布时间：2017-02-25 00:41:34 java csv web-scraping web-crawler jsoup Java开发

抓取：将存储为图片的数据添加到python 3.5中的CSV文件

对于此项目，我从数据库中刮取数据，并尝试将此数据导出到电子表格以进行进一步分析。（以前发布的此处 - 我以前认为在表格中找到获胜候选人可以简化为只需总是选择名字出现在表中，因为我认为“赢家”总是首先出现。然而，这种情况并非如此。候选人是否被选举以图片的形式存储在第一列。它位于 as： ..

发布时间：2017-02-24 21:23:51 python csv web-scraping beautifulsoup python-3.5 Python

如何将所有这些行写入给定范围的CSV文件？

下面的代码的目的是webscrape牛津英语词典在一年的范围内每年“发明”的词。这一切都按预期。 import csv import os import re import requests import urllib2 year_start = 1550 year_end = 1552 subject_search = ['Law'] 年份范围（ye ..

发布时间：2017-02-24 19:10:21 python-2.7 csv web-scraping Office

由于Python中的ascii错误，将数据写入CSV时出错

import requests from bs4 import BeautifulSoup import csv 来自urlparse import urljoin import urllib2 base_url ='http://www.baseball-reference.com' data = requests.get（“http://www.baseball- ..

发布时间：2017-02-24 18:52:45 python csv web-scraping non-ascii-characters Python

我如何使用python和beautifulsoup4在网站中循环抓取数据的多个页面

我试图从PGA.com网站抓取数据，以获取美国所有高尔夫球场的表格。在我的CSV表格中，我想要包括高尔夫球场的名称，地址，所有权，网站，电话号码。有了这些数据，我想对它进行地理编码并放入地图，并在我的计算机上有本地副本。我使用Python和Beautiful Soup4来提取我的数据。我已经到达尽可能提取的数据，并将其导入到CSV，但我现在有一个问题，从PGA网站上的多个页面中的数据。我想 ..

发布时间：2017-02-24 18:13:11 python loops csv web-scraping beautifulsoup Python

我想通过播放从 http://stats.statbroadcast.com / statmonitr /？id = 107165 。链接将带您到“分割框”选项卡。我有兴趣通过播放选项卡，以及主页统计和访问者统计选项卡刮游戏。其中一个问题是，无论什么标签，你切换到url从来没有改变。如果使用选择器小工具，css-selector的所有选项卡的主要内容也是一样，这是“#stats”。我是一个新手在网 ..

发布时间：2017-02-23 00:08:43 javascript r web-scraping css-selectors 前端开发

硒提取问题：等待/未找到元素

在chrome和firefox中，一切都很好，直到我需要提取文本。我得到这个错误： h3 = next（h3s中元素的元素，如果element.is_displayed（）） StopIteration 我甚至添加了流畅的等待。 browser = webdriver.Firefox（） browser.get（'https://www.voilanorbe ..

发布时间：2017-02-17 02:28:43 python css selenium web-scraping 前端开发

从Ruby获得相同的结果作为Javascript逐位异或

在Ruby中： -1104507 ^ 3965973030 => -3966969949 在Javascript中： -1104507 ^ 3965973030 => 327997347 有人问一个的我需要一种能够获得JavaScript来自任何整数的 A ^ B 结果 A 和 B 。解决方案这两个的是的相同的结果，模2 ..

发布时间：2017-01-16 12:55:21 javascript cryptography web-scraping crc32 前端开发

cURL请求在需要JavaScript支持的页面上

我需要获取pinnaclesports.com的HTML源代码。问题是它检测是否启用了Cookie和JS，如果没有，它只返回一些页面此网站需要JavaScript和Cookie启用。请更改浏览器设置或升级浏览器。使用cURL时是否有任何方式欺骗JS支持？编辑：我可以使用无头浏览器作为Perl / Ruby模块或用PHP编写。解决方案我想出来，如果你做无coo ..

发布时间：2017-01-06 17:50:51 javascript cookies curl web-scraping spoofing 前端开发

Jsoup用于HTTPS抓取的Cookie

我正在尝试使用此网站在欢迎页面上收集我的用户名以学习Jsoup和Android。使用以下代码 Connection.Response res = Jsoup.connect（“http://www.mikeportnoy.com/forum/ login.aspx“） .data（”ctl00 $ ContentPlaceHolder1 $ ctl00 $ Login1 $ UserNa ..

发布时间：2017-01-06 09:55:16 java cookies web-scraping jsoup Java开发

点击网站上的按钮，然后刮掉网页

我有一个网站，我想点击一个按钮，然后使用python抓取网站的HTML代码之间的按钮是：测试 ..

发布时间：2016-11-25 10:52:47 python onclick click web-scraping screen-scraping Python

从交互式图表中抓取数据

可以在此网页（对不起，网站需要登录）？当鼠标悬停在图表上时，数据显示，以下是该网站HTML源代码的摘要： ..

发布时间：2016-11-20 17:21:33 python svg charts web-scraping Python

UnicodeEncodeError：'ascii'编解码器不能编码字符u'\xe7'在位置17710：序数不在范围（128）

我尝试从存档的网页抓取中打印字符串，但是当我这样做时会收到此错误：打印页面['html'] UnicodeEncodeError：'ascii'编解码器无法对位置17710的字符u'\xe7' ：ordinal不在范围（128）当我尝试打印 unicode ['html']）我得到：打印unicode错误='忽略'） TypeError：解码Unicode不支 ..

发布时间：2016-11-19 15:06:01 python unicode character-encoding web-scraping Python

如何使用python请求和事件钩子编写一个web回调函数的回调函数？

我最近看过 python-requests 模组，我想撰写一个简单的web爬行器。给定一个开始url的集合，我想写一个Python函数，搜索其他urls的起始url的网页内容，然后再次调用相同的函数作为回调与新的urls作为输入，等等。起初，我认为事件挂钩将会正确的工具为此目的，但其文档部分是相当稀疏。在另一页我读到用于事件钩子的函数必须返回传递给它们的同一个对象。所以事件钩子显然不可行这种任务。 ..

发布时间：2016-11-10 10:43:04 python callback web-scraping python-requests Python

遵循超链接和“过滤的异地请求”

我知道有几个相关的线程，他们已经帮助了我很多，但我仍然不能得到所有的方式。我在运行代码不会导致错误，但我没有在我的 csv 文件。我有以下 Scrapy 蜘蛛，从一个网页开始，然后跟随一个超链接，并刮掉链接的页面：来自scrapy.http import请求来自scrapy.spider import BaseSpider 来自scrapy.selector import HtmlXP ..

发布时间：2016-11-10 10:18:30 python callback web-scraping scrapy Python

从网页抓取并重新格式化为日历文件

我正在尝试抓取此网站： http://stats.swehockey.se/ScheduleAndResults / Schedule / 3940 我已经得到了（感谢alecxe）检索日期和团队。来自scrapy.item import Item，Field 来自scrapy.spider import BaseSpider 来自scrapy.selector import H ..

发布时间：2016-11-09 15:45:58 python xpath calendar web-scraping scrapy Python

如何提取网页的动态Ajax内容

我的要求是提取从网页所需的内容。该页面有正在被使用AJAX填充的部分。当我在网页源代码查看它没有显示用ajax加载的内容。该部分内容将改变基于选中的复选框。如果我们选择“印度”复选框，然后部分将显示印度的所有细节。该页面的源代码将只显示默认的内容没有使用AJAX显示的内容。我查了一下网页的源文件选中复选框后，它仍然只显示默认值。如何获得该部分内容，解决方案在C＃中，您可以使用HTMLA ..

发布时间：2016-10-08 16:21:01 c# parsing c#-4.0 html-parsing web-scraping C#/.NET

web-scraping相关内容