python-2.7 第466页 - IT屋-程序员软件开发技术分享社区

多线程在Python / BeautifulSoup刮不加快在所有

我有一个CSV文件，该文件中列出的所有我需要刮链接（“SomeSiteValidURLs.csv”）。在code是工作，将通过网址在CSV，刮去信息和记录/保存在另一个csv文件（“Output.csv”）。然而，因为我打算做的站点（> 10,000,000页）一大截，速度是很重要的。对于每一个环节，它需要大约1秒抓取并保存信息为CSV，这是该项目的规模过于缓慢。所以，我已经把多线程模块，并让我吃 ..

发布时间：2016-08-05 19:09:46 multithreading python-2.7 parallel-processing web-scraping beautifulsoup 其他开发语言

beautifulSoup不一致的行为

我完全被下面的HTML刮code，我在两种不同环境自编自的行为感到困惑的需要帮助找到这种差异的根本原因进口SYS 进口BS4 进口MD5 进口记录从进口的urllib2的urlopen 从平台进口平台＃登录环境的详情 logging.warning（“OS平台为％s”％平台（）） logging.warning（“Python版本为％s”％内容sys.version） logging.war ..

发布时间：2016-08-05 19:09:27 python python-2.7 web-scraping beautifulsoup html-parsing Python

使用BeautifulSoup选择在HTML的div块

我试图解析使用美丽的汤使用从网站一些HTML几个分区块。但是，我不能工作了哪些功能应该被用于选择这些分区块。我曾尝试以下内容：进口的urllib2 从BS4进口BeautifulSoup高清的getData（）： HTML = urllib2.urlopen（“http://www.racingpost.com/horses2/results/home.sd?r_date=2013-09 ..

发布时间：2016-08-05 19:07:27 python html python-2.7 beautifulsoup urllib2 前端开发

获取使用BeautifulSoup属性值

我正在写一个python脚本从网页解析后，将提取的脚本的位置。比方说，有两种情况：＆LT;脚本类型=“文/ JavaScript的”SRC =“http://example.com/something.js”＆GT;＆LT; / SCRIPT＆GT; 和＆LT;脚本＆GT;一些JS＆LT; / SCRIPT＆GT; 我能够从所述第二场景获取JS，即当JS在标签内写入。但有什 ..

发布时间：2016-08-05 19:06:48 python python-2.7 beautifulsoup Python

删除所有＆LT; A＆GT;标签

我刮出一个容器，其中包括网址，例如：＆LT; A HREF =“URL”＆gt;文字＆LT; / A＆GT; 我需要的所有被删除，只有在文本留... 进口urllib2的，SYS 从BS4进口BeautifulSoup网站=“http://mysite.com” 页= urllib2.urlopen（网站）汤= BeautifulSoup（页）这可能吗？解决方案汤= Be ..

发布时间：2016-08-05 19:06:07 python python-2.7 beautifulsoup Python

Python的网页抓取（美丽的汤，硒，PhantomJS）：整个页面只有部分刮

您好我有麻烦试图从建模目的的网站刮数据（fantsylabs网络公司）。我只是一个黑客所以原谅我上的计算机科学术语无知。什么我试着去做到的是... 使用硒登录到网站并导航到数据的页面。 ##初始化并加载网页 URL =“网站网址” 司机= webdriver.Firefox（） driver.get（URL） time.sleep（3）##填写表格和登录到网站用户名= driver.f ..

发布时间：2016-08-05 19:05:45 python-2.7 selenium web-scraping beautifulsoup phantomjs 其他开发语言

bs4.FeatureNotFound：找不到一棵树建设者您所要求的功能：LXML。你需要安装一个解析器库？

... 汤= BeautifulSoup（HTML，“LXML”）文件“/Library/Python/2.7/site-packages/bs4/__init__.py”线152，在__init__ ％“，”加盟（功能）） bs4.FeatureNotFound：找不到一棵树建设者您所要求的功能：LXML。你需要安装一个解析器库？在我的终端上面的输出。我在Mac OS 10.7.x.我 ..

发布时间：2016-08-05 19:03:28 python python-2.7 beautifulsoup lxml Python

从之间的＆LT BeautifulSoup的getText; p＆gt;中不拾取后续段落

首先，我是一个完整的新手，当涉及到Python。不过，我已经写了一张code来看待一个RSS feed，打开链接并提取从文章的文本。这是我到目前为止有：从BeautifulSoup进口BeautifulSoup 进口feedparser 进口的urllib＃字典链接= {} 标题= {}＃变量 N = 0rss_url = \"feed://www.gfsc.gg/_layouts/GFSC ..

发布时间：2016-08-05 19:02:52 python-2.7 beautifulsoup 其他开发语言

安装使用PIP美丽的汤

我试图使用 PIP 在Python 2.7安装BeautifulSoup。我不断收到错误信息，并不能明白为什么。我按照说明安装点子，这是安装到以下目录： C：\\ Python27 \\脚本\\ pip.exe ，然后我试着将它添加到路径和运行 PIP安装包命令。尝试了两种不同的方式：进口SYS sys.path.append（'C：\\\\ Python27 \\\\ \\\\脚本p ..

发布时间：2016-08-05 19:02:11 python python-2.7 beautifulsoup pip Python

从文件类型字段中下载文件？

我要寻找一种方式来从不同的网页下载文件，并让他们存储在一个特定文件夹下，在本地计算机上。我使用Python 2.7 请参阅下面的字段：修改的这里是HTML内容：的＆LT;输入类型=“隐藏” name=\"supplier.orgProfiles(1152444).location.locationPurposes().extendedAttributes(Upload_RFI_F ..

发布时间：2016-08-05 19:01:50 python selenium python-2.7 beautifulsoup Python

网络爬虫获取链接从新版网站

我想从一个新闻网站页面的链接（从档案之一）。我写了code以下行的Python： main.py 包含：进口机械化从BS4进口BeautifulSoupURL =“http://www.thehindu.com/archive/web/2010/06/19/”BR = mechanize.Browser（）的htmlText = br.open（URL）.read（）articlet ..

发布时间：2016-08-05 19:01:32 python python-2.7 python-3.x beautifulsoup Python

同时采用美丽的汤刮数据问题与HTML标签

code常见片：＃ - * - 编码：CP1252 - * - 导入CSV 进口的urllib2 进口SYS 进口时间从BS4进口BeautifulSoup 从进口和itertools islice页= urllib2.urlopen（'http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html'）.read（） ..

发布时间：2016-08-05 19:01:15 python-2.7 html-parsing screen-scraping beautifulsoup html 前端开发

如何使用硒下载文件？

我想获得下载链接，下载文件。我哈瓦包含以下链接的日志文件： http://www.downloadcrew.com/article/18631-aida64 http://www.downloadcrew.com/article/4475-sumo http://www.downloadcrew.com/article/2174-iolo_system_mechanic_professio ..

发布时间：2016-08-05 19:01:06 python python-2.7 selenium selenium-webdriver beautifulsoup Python

如何获取在Python中的JavaScript内容

我有一个网站，有数据我想获取存储在一个javascript。我该如何获取呢？在code是这样的： - http://pastebin.com/zhdWT5HM 我想从“VAR playersData”行去取。我想取这事 - “playerId”：“showsPlayer”（不含引号明显）。我怎么做呢？我试过美丽的汤。我现在的剧本是这样的 Q = requests.get（'websi ..

发布时间：2016-08-05 19:01:03 javascript python html python-2.7 beautifulsoup 前端开发

BeautifulSoup4 stripped_strings给我字节的对象？

我试图让文本从一个块引用它看起来像这样的：＆LT;块引用类=“postcontent恢复”＆GT; 01 Oyasumi ＆LT; BR＆GT;＆LT; / BR＆GT; 02 DanSin“ ＆LT; BR＆GT;＆LT; / BR＆GT; 03 w.t.s. ＆LT; BR＆GT;＆LT; / BR＆GT; 04 Lovism ..

发布时间：2016-08-05 19:00:30 python python-2.7 unicode encoding beautifulsoup Python

在单击事件＆QUOT;与调用＆QUOT的问题;使用Python中美丽的汤在HTML页面上

我想网页上刮的所有项目present的名字，但在默认情况下只有18页和放大器上可见;我的code仅那些刮。您可以通过点击“全部显示”按钮来查看所有项目，但该按钮是在Javascript。经过一番研究，我发现PyQt的模块可以用来解决涉及JavaScript的按钮和放这个问题;我用它，但我仍然无法调用“上点击”事件。下面是被称为code：导入CSV 进口的urllib2 进口SYS 进口时间 ..

发布时间：2016-08-05 18:58:44 python python-2.7 onclick pyqt beautifulsoup Python

寻找下一个发生的历史标记，并与美丽的汤其包含的文本

我试图解析标记之间的文本＆LT;＆BLOCKQUOTE GT; 。当我键入 soup.blockquote.get_text（）。我得到我想要在HTML文件中第一次出现的块引用的结果。我如何找到下一个和顺序＆LT; BLOCKQUOTE＆gt;本文件中的标记？也许我只是累了，在文档中找不到它。例如HTML文件：＆LT; HTML和GT; ＆LT; HEAD＆GT;头＆LT; /头 ..

发布时间：2016-08-05 18:58:33 python html python-2.7 beautifulsoup 前端开发

从网页下载图像数据的URI通过BeautifulSoup

我需要从使用Python网站获取的图像。然而，图像不是在链接文件的形式，但作为一个GIF数据的URI。怎样下载这个并将其存储在一个.gif文件？解决方案这应该让你在正确的方向前进。首先，我会假设你已经检索到的图像数据的URI，它保存在一个Python变量称为img_data：＃示例 img_data =“数据：图像/ JPEG; BASE64，/ 9J / 4A ...＆LT; ..

发布时间：2016-08-05 18:56:34 python python-2.7 beautifulsoup Python

如何处理IncompleteRead：Python中

我试图从一个网站获取一些数据。然而，它返回我不完整的读。我想获得的数据是一个巨大的一套嵌套链接。我做了一些研究，并在网上发现，这可能是由于服务器错误（A块传输编码前整理达到预期大小）。我还发现在这上面一个解决办法 ..

发布时间：2016-08-05 18:55:39 python python-2.7 web-scraping beautifulsoup mechanize Python

BeautifulSoup复方类名称搜索时返回空列表

BeautifulSoup使用正则表达式由复合类名称搜索时返回空列表。例如：进口重从BS4进口BeautifulSoupBS = “”“ ＆LT;一类=“名单name692的”href =“www.example.com”，“物实施例文字＆lt; / A＆GT; “”“bsObj = BeautifulSoup（BS）＃这个返回类 found_elements = ..

发布时间：2016-08-05 18:52:48 python regex python-2.7 beautifulsoup html-parsing Python

python-2.7相关内容