数据挖掘相关内容
对数据分析时使用到pandas,下面的代码是从数据库中获取数据再转换成DataFrame结构 sql = 'select * from content;' cur.execute(sql) rows = cur.fetchall() datas = [] for data in rows: datas.append(data) frame = DataFrame(datas) 数
..
最近在学习selenium,遇到一个很奇怪的问题,debug了半天还是没弄明白,我是在测试抓取携程网站的机票信息 我的代码: # -*- coding: utf-8 -*- from selenium import webdriver import time from lxml import etree #在订票页面http://flights.ctrip.com/ driver =
..
问 题 问题描述如下 100万数据从A机房的一个表迁移到B机房的一个表,两个表结构不一样。我的实现方法如下:查出数据来,java层面进行数据的转义,然后开了30个线程,进行分页同步数据。即每次查询500条数据,然后插入B机房的表。线程池中有30个线程。 现在的问题是: 迁移到效率很慢,很慢。17万数据就用了一个多小时,还没有跑完数据,请问有什么方案可以提高效率的么???
..
问 题 用Pandas读取一个七百万条记录的微博爬虫文件,大小约1G。直接读入内存不足,于是采用chunksize=100000来分批读取。每个chunk的数据处理后得到count长这样: daysCount tweetsSum userID 1294588034 5 305
..
问 题 有哪些关于ensemble模型相关的论文?Stacking、Boosting和Bagging各有什么优缺点? 解决方案 推荐南京大学周志华老师的一篇综述文章:Ensemble methods: foundations and algorithms 里面对各种ensemble模型的原理、优缺点都有很好的分析,如果想读原始论文,可以看每一章后面further readi
..
问 题 深度学习中Dropout方法的目的是什么? 解决方案 简单说就是作为一种正则化手段,防止模型过拟合。 深入了解可以读原始论文:Dropout: a simple way to prevent neural networks from overfitting.
..
问 题 先说说我的想法吧:同时监控淘宝上很多物品的价格,然后获取价格走势(这个我打算自己写爬虫获取,然后存在数据库里),但是问题来了 我该怎么存储数据,使我能分析哪些物品在最近2天或7天的价格波动最大(最好是任意天数),这个地方该怎么实现比较好。总不能说每天我都要遍历一次数据库来求价格的差值吧,能不能有经验的大师指点下。 解决方案 总不能说每天我都要遍历一次数据库来求价格的
..