python-2.7相关内容

多线程在Python / BeautifulSoup刮不加快在所有

我有一个CSV文件,该文件中列出的所有我需要刮链接(“SomeSiteValidURLs.csv”)。在code是工作,将通过网址在CSV,刮去信息和记录/保存在另一个csv文件(“Output.csv”)。然而,因为我打算做的站点(> 10,000,000页)一大截,速度是很重要的。对于每一个环节,它需要大约1秒抓取并保存信息为CSV,这是该项目的规模过于缓慢。所以,我已经把多线程模块,并让我吃 ..

beautifulSoup不一致的行为

我完全被下面的HTML刮code,我在两种不同环境自编自的行为感到困惑的需要帮助找到这种差异的根本原因 进口SYS 进口BS4 进口MD5 进口记录 从进口的urllib2的urlopen 从平台进口平台#登录环境的详情 logging.warning(“OS平台为%s”%平台()) logging.warning(“Python版本为%s”%内容sys.version) logging.war ..
发布时间:2016-08-05 19:09:27 Python

使用BeautifulSoup选择在HTML的div块

我试图解析使用美丽的汤使用从网站一些HTML几个分区块。但是,我不能工作了哪些功能应该被用于选择这些分区块。我曾尝试以下内容: 进口的urllib2 从BS4进口BeautifulSoup高清的getData(): HTML = urllib2.urlopen(“http://www.racingpost.com/horses2/results/home.sd?r_date=2013-09 ..
发布时间:2016-08-05 19:07:27 前端开发

获取使用BeautifulSoup属性值

我正在写一个python脚本从网页解析后,将提取的脚本的位置。 比方说,有两种情况: <脚本类型=“文/ JavaScript的”SRC =“htt​​p://example.com/something.js”>< / SCRIPT> 和<脚本>一些JS< / SCRIPT> 我能够从所述第二场景获取JS,即当JS在标签内写入。 但有什 ..
发布时间:2016-08-05 19:06:48 Python

删除所有< A>标签

我刮出一个容器,其中包括网址,例如: < A HREF =“URL”>文字< / A> 我需要的所有被删除,只有在文本留... 进口urllib2的,SYS 从BS4进口BeautifulSoup网站=“htt​​p://mysite.com” 页= urllib2.urlopen(网站) 汤= BeautifulSoup(页) 这可能吗? 解决方案 汤= Be ..
发布时间:2016-08-05 19:06:07 Python

Python的网页抓取(美丽的汤,硒,PhantomJS):整个页面只有部分刮

您好我有麻烦试图从建模目的的网站刮数据(fantsylabs网络公司)。我只是一个黑客所以原谅我上的计算机科学术语无知。什么我试着去做到的是... 使用硒登录到网站并导航到数据的页面。 ##初始化并加载网页 URL =“网站网址” 司机= webdriver.Firefox() driver.get(URL) time.sleep(3)##填写表格和登录到网站 用户名= driver.f ..

bs4.FeatureNotFound:找不到一棵树建设者您所要求的功能:LXML。你需要安装一个解析器库?

... 汤= BeautifulSoup(HTML,“LXML”) 文件“/Library/Python/2.7/site-packages/bs4/__init__.py”线152,在__init__ %“,”加盟(功能)) bs4.FeatureNotFound:找不到一棵树建设者您所要求的功能:LXML。你需要安装一个解析器库? 在我的终端上面的输出。我在Mac OS 10.7.x.我 ..
发布时间:2016-08-05 19:03:28 Python

从之间的&LT BeautifulSoup的getText; p>中不拾取后续段落

首先,我是一个完整的新手,当涉及到Python。不过,我已经写了一张code来看待一个RSS feed,打开链接并提取从文章的文本。这是我到目前为止有: 从BeautifulSoup进口BeautifulSoup 进口feedparser 进口的urllib#字典 链接= {} 标题= {}#变量 N = 0rss_url = \"feed://www.gfsc.gg/_layouts/GFSC ..
发布时间:2016-08-05 19:02:52 其他开发语言

安装使用PIP美丽的汤

我试图使用 PIP 在Python 2.7安装BeautifulSoup。我不断收到错误信息,并不能明白为什么。 我按照说明安装点子,这是安装到以下目录: C:\\ Python27 \\脚本\\ pip.exe ,然后我试着将它添加到路径和运行 PIP安装包命令。 尝试了两种不同的方式: 进口SYS sys.path.append('C:\\\\ Python27 \\\\ \\\\脚本p ..
发布时间:2016-08-05 19:02:11 Python

从文件类型字段中下载文件?

我要寻找一种方式来从不同的网页下载文件,并让他们存储在一个特定文件夹下,在本地计算机上。我使用Python 2.7 请参阅下面的字段: 修改 的这里是HTML内容:的 <输入类型=“隐藏” name=\"supplier.orgProfiles(1152444).location.locationPurposes().extendedAttributes(Upload_RFI_F ..
发布时间:2016-08-05 19:01:50 Python

网络爬虫获取链接从新版网站

我想从一个新闻网站页面的链接(从档案之一)。我写了code以下行的Python: main.py 包含: 进口机械化 从BS4进口BeautifulSoupURL =“htt​​p://www.thehindu.com/archive/web/2010/06/19/”BR = mechanize.Browser() 的htmlText = br.open(URL).read()articlet ..
发布时间:2016-08-05 19:01:32 Python

如何获取在Python中的JavaScript内容

我有一个网站,有数据我想获取存储在一个javascript。我该如何获取呢? 在code是这样的: - http://pastebin.com/zhdWT5HM 我想从“VAR playersData”行去取。我想取这事 - “playerId”:“showsPlayer”(不含引号明显)。我怎么做呢? 我试过美丽的汤。我现在的剧本是这样的 Q = requests.get('websi ..
发布时间:2016-08-05 19:01:03 前端开发

在单击事件"与调用&QUOT的问题;使用Python中美丽的汤在HTML页面上

我想网页上刮的所有项目present的名字,但在默认情况下只有18页和放大器上可见;我的code仅那些刮。您可以通过点击“全部显示”按钮来查看所有项目,但该按钮是在Javascript。 经过一番研究,我发现PyQt的模块可以用来解决涉及JavaScript的按钮和放这个问题;我用它,但我仍然无法调用“上点击”事件。下面是被称为code: 导入CSV 进口的urllib2 进口SYS 进口时间 ..
发布时间:2016-08-05 18:58:44 Python

寻找下一个发生的历史标记,并与美丽的汤其包含的文本

我试图解析标记之间的文本<&BLOCKQUOTE GT; 。当我键入​​ soup.blockquote.get_text()。 我得到我想要在HTML文件中第一次出现的块引用的结果。我如何找到下一个和顺序< BLOCKQUOTE>本文件中的标记?也许我只是累了,在文档中找不到它。 例如HTML文件: < HTML和GT; < HEAD>头 < /头 ..
发布时间:2016-08-05 18:58:33 前端开发

从网页下载图像数据的URI通过BeautifulSoup

我需要从使用Python网站获取的图像。然而,图像不是在链接文件的形式,但作为一个GIF数据的URI。怎样下载这个并将其存储在一个.gif文件? 解决方案 这应该让你在正确的方向前进。 首先,我会假设你已经检索到的图像数据的URI,它保存在一个Python变量称为img_data: #示例 img_data =“数据:图像/ JPEG; BASE64,/ 9J / 4A ...< ..
发布时间:2016-08-05 18:56:34 Python