机器学习相关内容

C++与python在机器学习方面的不同

问 题 如题,用C++来机器学习与用python有什么不同,有人说是线上与线下的差别,其实我还是有点模糊,本人刚入机器学习,主要学习语言是C++,希望这方面的前辈解答下疑惑。 解决方案 python 主要起一种胶水语言的作用,模块底层使用c或c++进行编写,一般直接使用c++框架,python在算法测试和数据处理等方面效果很好 ..
发布时间:2017-09-06 08:35:36 C/C++开发

c++ - shark或者mlpack怎么配置使用啊

问 题 最近准备使用C++学习机器学习,别让我用py,真的不喜欢,不过C++方面的机器学习真的很少啊,google了好久找到这两个C++机器学习库,但是没找到配置的方法,而且即使配置好,又怎么用,那么多函数,怎么就找不到一点资料呢?求分享啊,拜托拜托。 解决方案 这俩框架不都有文档吗,看文档啊 http://image.diku.dk/shark/sp... http:/ ..
发布时间:2017-09-06 08:06:32 C/C++开发

算法 - 关于Python嵌套循环代码优化

问 题 用Python实现K-means算法时候,要计算随机两个数之间的欧氏距离,数据量为5000行,但计算的时间却有500多秒,不知道有什么能优化,求指教,代码如下 循环 for i in range(len(data)): # 计算任意两点距离和 for j in range(i+1, len(data)): random_sum += ed_rel ..
发布时间:2017-09-06 07:36:40 Python

机器学习 - 聚类算法的实际应用

问 题 聚类算法在实际项目中都应用在哪些方面? 解决方案 能想到的场景或接触到的场景如下。 用户分类运营。一般情况下,运营给的分类标准比较多,比如RFM模型中就有三个变量,如果穷举所有变量为0,1也有8种。在一些线下或者个性化要求不高的场景中,聚类就是一个很好的策略,可以根据运营能接受的运营数目,给定聚类数来使用聚类。完成后为每个结果标注变量的大小,告诉运营每个类别的属性, ..
发布时间:2017-09-06 06:48:38 其他开发

python - 机器学习实战代码中的.split函数与.strip函数疑惑

图1是学习到机器学习实战2.2.1节时,knn.py中需要的所有代码。图二是要处理的数据集合,可以看到有4列,行数很多。我的疑问是图三中33行与34行代码,既然用strip函数处理了每行的数据,那每行的空格和分行符都被去掉了,我认为经过33行代码处理后,第一行就变成了409208.3269760.9539523这个样子,这个样子的话split没办法进行划分啊?split是为了将每行中每一列的数据进 ..
发布时间:2017-09-06 06:28:51 Python

python - sklearn的决策树模型能不能处理多类特征呢?

问 题 比如有一个特征,喜欢的运动 小明喜欢足球 小花喜欢足球和篮球 小白喜欢篮球 喜欢的运动 小明 足球 小花 篮球和足球 小白 篮球 那么这个该怎么存呢?向量还是数组? 在官网没有找到,只找到一个向量,看了一下感觉又不太像,没看太懂 sklearn.feature_extraction.DictVectorizer 求大神指点! 解决方案 ..
发布时间:2017-09-06 04:57:25 Python

机器学习 - 有哪些关于ensemble模型相关的经典论文?Stacking、Boosting和Bagging各有什么优缺点?

问 题 有哪些关于ensemble模型相关的论文?Stacking、Boosting和Bagging各有什么优缺点? 解决方案 推荐南京大学周志华老师的一篇综述文章:Ensemble methods: foundations and algorithms 里面对各种ensemble模型的原理、优缺点都有很好的分析,如果想读原始论文,可以看每一章后面further readi ..
发布时间:2017-09-06 02:31:43 其他开发

html - 能否实现网页内容的模式识别?

问 题 问题可能不够准确。我假设几个网站作为说明。 存在A B C 三个网站,他们都是卖书的。都有一个列表展示每本书的数据。 比如名称,价格,作者,日期等。 这几个网站对一本书的各数据的元素id,排序,数量可能都有区别。 有没一种办法,能避开这种差异,获得干净的数据? 各位大佬球指点 听上去只有机器学习才是我唯一可行的方法的? 看来也没别的太神奇方法,只能尝试机 ..
发布时间:2017-09-05 21:24:11 前端开发