python-2.7相关内容
我有一个CSV文件,该文件中列出的所有我需要刮链接(“SomeSiteValidURLs.csv”)。在code是工作,将通过网址在CSV,刮去信息和记录/保存在另一个csv文件(“Output.csv”)。然而,因为我打算做的站点(> 10,000,000页)一大截,速度是很重要的。对于每一个环节,它需要大约1秒抓取并保存信息为CSV,这是该项目的规模过于缓慢。所以,我已经把多线程模块,并让我吃
..
我完全被下面的HTML刮code,我在两种不同环境自编自的行为感到困惑的需要帮助找到这种差异的根本原因 进口SYS 进口BS4 进口MD5 进口记录 从进口的urllib2的urlopen 从平台进口平台#登录环境的详情 logging.warning(“OS平台为%s”%平台()) logging.warning(“Python版本为%s”%内容sys.version) logging.war
..
我试图解析使用美丽的汤使用从网站一些HTML几个分区块。但是,我不能工作了哪些功能应该被用于选择这些分区块。我曾尝试以下内容: 进口的urllib2 从BS4进口BeautifulSoup高清的getData(): HTML = urllib2.urlopen(“http://www.racingpost.com/horses2/results/home.sd?r_date=2013-09
..
我正在写一个python脚本从网页解析后,将提取的脚本的位置。 比方说,有两种情况: <脚本类型=“文/ JavaScript的”SRC =“http://example.com/something.js”>< / SCRIPT> 和<脚本>一些JS< / SCRIPT> 我能够从所述第二场景获取JS,即当JS在标签内写入。 但有什
..
我刮出一个容器,其中包括网址,例如: < A HREF =“URL”>文字< / A> 我需要的所有被删除,只有在文本留... 进口urllib2的,SYS 从BS4进口BeautifulSoup网站=“http://mysite.com” 页= urllib2.urlopen(网站) 汤= BeautifulSoup(页) 这可能吗? 解决方案 汤= Be
..
您好我有麻烦试图从建模目的的网站刮数据(fantsylabs网络公司)。我只是一个黑客所以原谅我上的计算机科学术语无知。什么我试着去做到的是... 使用硒登录到网站并导航到数据的页面。 ##初始化并加载网页 URL =“网站网址” 司机= webdriver.Firefox() driver.get(URL) time.sleep(3)##填写表格和登录到网站 用户名= driver.f
..
... 汤= BeautifulSoup(HTML,“LXML”) 文件“/Library/Python/2.7/site-packages/bs4/__init__.py”线152,在__init__ %“,”加盟(功能)) bs4.FeatureNotFound:找不到一棵树建设者您所要求的功能:LXML。你需要安装一个解析器库? 在我的终端上面的输出。我在Mac OS 10.7.x.我
..
首先,我是一个完整的新手,当涉及到Python。不过,我已经写了一张code来看待一个RSS feed,打开链接并提取从文章的文本。这是我到目前为止有: 从BeautifulSoup进口BeautifulSoup 进口feedparser 进口的urllib#字典 链接= {} 标题= {}#变量 N = 0rss_url = \"feed://www.gfsc.gg/_layouts/GFSC
..
我试图使用 PIP 在Python 2.7安装BeautifulSoup。我不断收到错误信息,并不能明白为什么。 我按照说明安装点子,这是安装到以下目录: C:\\ Python27 \\脚本\\ pip.exe ,然后我试着将它添加到路径和运行 PIP安装包命令。 尝试了两种不同的方式: 进口SYS sys.path.append('C:\\\\ Python27 \\\\ \\\\脚本p
..
我要寻找一种方式来从不同的网页下载文件,并让他们存储在一个特定文件夹下,在本地计算机上。我使用Python 2.7 请参阅下面的字段: 修改 的这里是HTML内容:的 <输入类型=“隐藏” name=\"supplier.orgProfiles(1152444).location.locationPurposes().extendedAttributes(Upload_RFI_F
..
我想从一个新闻网站页面的链接(从档案之一)。我写了code以下行的Python: main.py 包含: 进口机械化 从BS4进口BeautifulSoupURL =“http://www.thehindu.com/archive/web/2010/06/19/”BR = mechanize.Browser() 的htmlText = br.open(URL).read()articlet
..
code常见片: # - * - 编码:CP1252 - * - 导入CSV 进口的urllib2 进口SYS 进口时间 从BS4进口BeautifulSoup 从进口和itertools islice页= urllib2.urlopen('http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html').read()
..
我想获得下载链接,下载文件。 我哈瓦包含以下链接的日志文件: http://www.downloadcrew.com/article/18631-aida64 http://www.downloadcrew.com/article/4475-sumo http://www.downloadcrew.com/article/2174-iolo_system_mechanic_professio
..
我有一个网站,有数据我想获取存储在一个javascript。我该如何获取呢? 在code是这样的: - http://pastebin.com/zhdWT5HM 我想从“VAR playersData”行去取。我想取这事 - “playerId”:“showsPlayer”(不含引号明显)。我怎么做呢? 我试过美丽的汤。我现在的剧本是这样的 Q = requests.get('websi
..
我试图让文本从一个块引用它看起来像这样的: <块引用类=“postcontent恢复”> 01 Oyasumi < BR>< / BR> 02 DanSin“ < BR>< / BR> 03 w.t.s. < BR>< / BR> 04 Lovism
..
我想网页上刮的所有项目present的名字,但在默认情况下只有18页和放大器上可见;我的code仅那些刮。您可以通过点击“全部显示”按钮来查看所有项目,但该按钮是在Javascript。 经过一番研究,我发现PyQt的模块可以用来解决涉及JavaScript的按钮和放这个问题;我用它,但我仍然无法调用“上点击”事件。下面是被称为code: 导入CSV 进口的urllib2 进口SYS 进口时间
..
我试图解析标记之间的文本<&BLOCKQUOTE GT; 。当我键入 soup.blockquote.get_text()。 我得到我想要在HTML文件中第一次出现的块引用的结果。我如何找到下一个和顺序< BLOCKQUOTE>本文件中的标记?也许我只是累了,在文档中找不到它。 例如HTML文件: < HTML和GT; < HEAD>头 < /头
..
我需要从使用Python网站获取的图像。然而,图像不是在链接文件的形式,但作为一个GIF数据的URI。怎样下载这个并将其存储在一个.gif文件? 解决方案 这应该让你在正确的方向前进。 首先,我会假设你已经检索到的图像数据的URI,它保存在一个Python变量称为img_data: #示例 img_data =“数据:图像/ JPEG; BASE64,/ 9J / 4A ...<
..
我试图从一个网站获取一些数据。然而,它返回我不完整的读。我想获得的数据是一个巨大的一套嵌套链接。我做了一些研究,并在网上发现,这可能是由于服务器错误(A块传输编码前整理 达到预期大小)。我还发现在这上面一个解决办法
..
BeautifulSoup使用正则表达式由复合类名称搜索时返回空列表。 例如: 进口重 从BS4进口BeautifulSoupBS = “”“ <一类=“名单name692的”href =“www.example.com”,“物实施例文字< / A> “”“bsObj = BeautifulSoup(BS)#这个返回类 found_elements =
..