数据挖掘 - IT屋-程序员软件开发技术分享社区

数据挖掘 - python使用pandas的交叉表crosstab出现问题

对数据分析时使用到pandas，下面的代码是从数据库中获取数据再转换成DataFrame结构 sql = 'select * from content;' cur.execute(sql) rows = cur.fetchall() datas = [] for data in rows: datas.append(data) frame = DataFrame(datas) 数 ..

发布时间：2017-09-06 09:11:15 python3.5 pandas 数据分析数据挖掘 python Python

网页爬虫 - 用python selenium抓取携程信息

最近在学习selenium，遇到一个很奇怪的问题，debug了半天还是没弄明白，我是在测试抓取携程网站的机票信息我的代码： # -*- coding: utf-8 -*- from selenium import webdriver import time from lxml import etree #在订票页面http://flights.ctrip.com/ driver = ..

发布时间：2017-09-06 08:41:47 python爬虫网页爬虫数据挖掘 selenium python Python

java - 迁移数据效率问题

问题问题描述如下 100万数据从A机房的一个表迁移到B机房的一个表，两个表结构不一样。我的实现方法如下：查出数据来，java层面进行数据的转义，然后开了30个线程，进行分页同步数据。即每次查询500条数据，然后插入B机房的表。线程池中有30个线程。现在的问题是：迁移到效率很慢，很慢。17万数据就用了一个多小时，还没有跑完数据，请问有什么方案可以提高效率的么？？？ ..

发布时间：2017-09-06 06:07:46 数据挖掘数据库 spring mysql java Java开发

python3.x - Python Dataframe合并问题

问题用Pandas读取一个七百万条记录的微博爬虫文件，大小约1G。直接读入内存不足，于是采用chunksize=100000来分批读取。每个chunk的数据处理后得到count长这样： daysCount tweetsSum userID 1294588034 5 305 ..

发布时间：2017-09-06 05:46:24 concat 数据挖掘 python python3.x pandas Python

机器学习 - 有哪些关于ensemble模型相关的经典论文？Stacking、Boosting和Bagging各有什么优缺点？

问题有哪些关于ensemble模型相关的论文？Stacking、Boosting和Bagging各有什么优缺点？解决方案推荐南京大学周志华老师的一篇综述文章：Ensemble methods: foundations and algorithms 里面对各种ensemble模型的原理、优缺点都有很好的分析，如果想读原始论文，可以看每一章后面further readi ..

发布时间：2017-09-06 02:31:43 数据挖掘机器学习统计学统计学习模型其他开发

机器学习 - 深度学习中Dropout方法的目的是什么？

问题深度学习中Dropout方法的目的是什么？解决方案简单说就是作为一种正则化手段，防止模型过拟合。深入了解可以读原始论文：Dropout: a simple way to prevent neural networks from overfitting. ..

发布时间：2017-09-06 00:39:50 数据分析数据挖掘机器学习深度学习其他开发

数据分析 - java 数据挖掘分析求思路

问题先说说我的想法吧：同时监控淘宝上很多物品的价格，然后获取价格走势（这个我打算自己写爬虫获取，然后存在数据库里），但是问题来了我该怎么存储数据，使我能分析哪些物品在最近2天或7天的价格波动最大（最好是任意天数），这个地方该怎么实现比较好。总不能说每天我都要遍历一次数据库来求价格的差值吧，能不能有经验的大师指点下。解决方案总不能说每天我都要遍历一次数据库来求价格的 ..

发布时间：2017-09-05 23:50:02 数据分析数据数据挖掘 java Java开发

数据挖掘相关内容