web-scraping相关内容
我想储存: 产品名称 Categoty 子类别 价格 产品公司。 在我的表中,名为products_data的filds名称为PID,product_name,category,subcategory,product_price和product_company。 我使用 curl_init()函数在php到第一个废料网站的URL,接下来我想存储产品数据在我的数据库表。这是
..
我有一个php脚本运行,并使用cURL检索网页的内容,我想检查一些文本的存在。 现在看起来像这样: for($ i = 0; $ i $ ch = curl_init(); $ timeout = 10; curl_setopt($ ch,CURLOPT_URL,$ target [$ i]); curl_setopt($ ch,CURLOPT_RETURNTRANSF
..
我对R和网络抓取相对陌生,所以对任何固有的明显错误道歉。 我想要从网址1中删除CSV文件,按日期增加到网址2,然后保存每个CSV文件。 startdate
..
我正在创建一个网页抓取工具,然后将数据存储在.CSV文件中。 我的程序运行正常,但有一个问题,我从其中检索数据的网站有一个日期(月日,年)格式。所以当我将数据保存在.CSV文件中时,它将把Year作为另一个列,因为所有的数据都被处理。我实际上想将该数据存储到(MM-MON-YYYY)中,并将有效期日期存储在一列中。我在下面发布我的代码。请帮助我。谢谢! PS:对不能在原始帖子中填写我想要的
..
对于此项目,我从数据库中刮取数据,并尝试将此数据导出到电子表格以进行进一步分析。 (以前发布的此处 - 我以前认为在表格中找到获胜候选人可以简化为只需总是选择名字出现在表中,因为我认为“赢家”总是首先出现。然而,这种情况并非如此。 候选人是否被选举以图片的形式存储在第一列。 它位于 as:
..
下面的代码的目的是webscrape牛津英语词典在一年的范围内每年“发明”的词。这一切都按预期。 import csv import os import re import requests import urllib2 year_start = 1550 year_end = 1552 subject_search = ['Law'] 年份范围(ye
..
import requests from bs4 import BeautifulSoup import csv 来自urlparse import urljoin import urllib2 base_url ='http://www.baseball-reference.com' data = requests.get(“http://www.baseball-
..
我试图从PGA.com网站抓取数据,以获取美国所有高尔夫球场的表格。在我的CSV表格中,我想要包括高尔夫球场的名称,地址,所有权,网站,电话号码。有了这些数据,我想对它进行地理编码并放入地图,并在我的计算机上有本地副本。 我使用Python和Beautiful Soup4来提取我的数据。我已经到达尽可能提取的数据,并将其导入到CSV,但我现在有一个问题,从PGA网站上的多个页面中的数据。我想
..
我想通过播放从 http://stats.statbroadcast.com / statmonitr /?id = 107165 。链接将带您到“分割框”选项卡。我有兴趣通过播放选项卡,以及主页统计和访问者统计选项卡刮游戏。其中一个问题是,无论什么标签,你切换到url从来没有改变。如果使用选择器小工具,css-selector的所有选项卡的主要内容也是一样,这是“#stats”。我是一个新手在网
..
在chrome和firefox中,一切都很好,直到我需要提取文本。我得到这个错误: h3 = next(h3s中元素的元素,如果element.is_displayed()) StopIteration 我甚至添加了流畅的等待。 browser = webdriver.Firefox() browser.get('https://www.voilanorbe
..
在Ruby中: -1104507 ^ 3965973030 => -3966969949 在Javascript中: -1104507 ^ 3965973030 => 327997347 有人问一个的 我需要一种能够获得JavaScript来自任何整数的 A ^ B 结果 A 和 B 。 解决方案 这两个的是的相同的结果,模2
..
我需要获取pinnaclesports.com的HTML源代码。问题是它检测是否启用了Cookie和JS,如果没有,它只返回一些页面 此网站需要JavaScript和Cookie启用。请更改浏览器设置或升级浏览器。 使用cURL时是否有任何方式欺骗JS支持? 编辑:我可以使用无头浏览器作为Perl / Ruby模块或用PHP编写。 解决方案 我想出来, 如果你做无coo
..
我正在尝试使用此网站在欢迎页面上收集我的用户名以学习Jsoup和Android。使用以下代码 Connection.Response res = Jsoup.connect(“http://www.mikeportnoy.com/forum/ login.aspx“) .data(”ctl00 $ ContentPlaceHolder1 $ ctl00 $ Login1 $ UserNa
..
我有一个网站,我想点击一个按钮,然后使用python抓取网站的HTML代码之间的按钮是: 测试
..
可以在此网页(对不起,网站需要登录)? 当鼠标悬停在图表上时,数据显示, 以下是该网站HTML源代码的摘要:
..
我尝试从存档的网页抓取中打印字符串,但是当我这样做时会收到此错误: 打印页面['html'] UnicodeEncodeError:'ascii'编解码器无法对位置17710的字符u'\xe7' :ordinal不在范围(128) 当我尝试打印 unicode ['html'])我得到: 打印unicode错误='忽略') TypeError:解码Unicode不支
..
我最近看过 python-requests 模组,我想撰写一个简单的web爬行器。给定一个开始url的集合,我想写一个Python函数,搜索其他urls的起始url的网页内容,然后再次调用相同的函数作为回调与新的urls作为输入,等等。起初,我认为事件挂钩将会正确的工具为此目的,但其文档部分是相当稀疏。在另一页我读到用于事件钩子的函数必须返回传递给它们的同一个对象。所以事件钩子显然不可行这种任务。
..
我知道有几个相关的线程,他们已经帮助了我很多,但我仍然不能得到所有的方式。我在运行代码不会导致错误,但我没有在我的 csv 文件。我有以下 Scrapy 蜘蛛,从一个网页开始,然后跟随一个超链接,并刮掉链接的页面: 来自scrapy.http import请求 来自scrapy.spider import BaseSpider 来自scrapy.selector import HtmlXP
..
我正在尝试抓取此网站: http://stats.swehockey.se/ScheduleAndResults / Schedule / 3940 我已经得到了(感谢alecxe)检索日期和团队。 来自scrapy.item import Item,Field 来自scrapy.spider import BaseSpider 来自scrapy.selector import H
..
我的要求是提取从网页所需的内容。该页面有正在被使用AJAX填充的部分。当我在网页源代码查看它没有显示用ajax加载的内容。该部分内容将改变基于选中的复选框。如果我们选择“印度”复选框,然后部分将显示印度的所有细节。该页面的源代码将只显示默认的内容没有使用AJAX显示的内容。我查了一下网页的源文件选中复选框后,它仍然只显示默认值。如何获得该部分内容, 解决方案 在C#中,您可以使用HTMLA
..