dummy-data相关内容

python scikit-learn随机森林中如何使用虚拟变量表示分类数据

我正在为 scikit-learn 的随机森林分类器生成特征向量.特征向量表示9个蛋白质氨基酸残基的名称.有 20 个可能的残基名称.所以,我用20个哑变量来代表一个残基名称,9个残基,我有180个哑变量. 例如,如果滑动窗口中的 9 个残基是:ARNDCQEGH(每个字母代表一个蛋白质残基的名称),我的特征向量将是: "True\tFalse\tFalse\tFalse\tFalse\t ..
发布时间:2021-12-25 14:44:36 Python

scikit learn:如何检查系数的重要性

我尝试使用 SKLearn 对一个相当大的数据集进行 LR,该数据集具有约 600 个虚拟变量且只有很少的区间变量(以及我的数据集中的 300 K 行),结果混淆矩阵看起来很可疑.我想检查返回的系数和方差分析的重要性,但我找不到如何访问它.有可能吗?对于包含大量虚拟变量的数据,最佳策略是什么?非常感谢! 解决方案 Scikit-learn 故意不支持统计推断.如果您想要开箱即用的系数显着性 ..
发布时间:2021-11-10 23:42:06 其他开发

用于单元测试的虚拟 ObjectList 生成器

谁能告知c#中是否有好的框架可以生成虚拟对象和列表,这样我们就不需要手动生成存根数据? 解决方案 你可以试试 NBuilder.其目的是快速生成测试对象. 如果你有 Employee 类: 公共类员工{公共字符串名称{获取;放;}公共日期时间生日{得到;放;}} 生成 10 个 Employee 对象的列表很简单: var Employees = Builder.CreateLis ..
发布时间:2021-09-14 19:09:18 C#/.NET

用虚拟数据填充 SQL 表的最快方法

用虚拟数据填充 SQL 表的最快方法是什么? 我有一个包含大约 40 个不同类型(int、bit、varchar 等)字段的宽表,需要做一些性能测试.我使用的是 SQL Server 2008. 谢谢! 解决方案 SQL 数据生成器来自 RedGate 一键生成数据 基于列名和表名的真实数据 如果需要,可以自定义数据 消除繁琐的工作时间 完全支持 ..
发布时间:2021-08-25 19:43:49 数据库

在bash中生成虚拟文件

我想在bash中生成虚拟文件.内容无关紧要,如果是随机的就可以了,但是所有相同的字节也是可以接受的. 我的第一次尝试是以下命令: rm dummy.zip;触摸dummy.zip;x = 0;而[$ x -lt 100000];确实回显>>dummy.zip;x =`expr $ x + 1`;完毕; 问题在于其性能不佳.我在Windows上使用GitBash,因此在Linux下可能 ..
发布时间:2021-04-14 19:46:04 其他开发

自动生成带有伪数据的sql插入语句

可能重复: 用虚拟数据填充SQL表的最快方法 我正在寻找一种工具,该工具将为填充有伪数据的现有数据库生成插入语句。 这是为了允许对系统进行测试。 我正在考虑读取每个字段的类型并相应地生成数据的东西。例如,如果字段名称是“用户名”,则最好是它实际上知道使用通用用户名。显然,它也应该使数据库关系保持具有外键约束。 这看起来并不难写。 感谢奥姆里 解决方案 我 ..
发布时间:2020-10-16 00:24:21 其他开发

当您不需要python中的索引时,如何制作For循环?

如果我需要在python中进行for循环 for i in range(1,42): 打印“ spam” 但是对于任何pylint抱怨未使用的变量,请不要使用“ i”。我该如何处理?我知道您可以执行以下操作: 对于range(1,42)中的dummy_index: 打印“垃圾邮件” 但是这样做对我来说似乎很奇怪,有更好的方法吗? 我对p ..
发布时间:2020-10-05 04:20:33 Python

如何在python scikit-learn随机森林中使用伪变量表示分类数据

我正在为scikit-learn的随机森林分类器生成特征向量.特征载体代表9个蛋白质氨基酸残基的名称.有20种可能的残基名称.因此,我使用20个虚拟变量代表一个残基名称,对于9个残基,我有180个虚拟变量. 例如,如果滑动窗口中的9个残基为:ARNDCQEGH(每个字母代表一个蛋白质残基的名称),我的特征向量将为: "True\tFalse\tFalse\tFalse\tFalse\t ..
发布时间:2020-07-06 06:29:54 Python

在R中生成虚拟网店数据:随机生成交易时合并参数

对于我目前正在上的一门课程,我正在尝试建立虚拟交易,客户与交易;产品数据集,用于展示网店环境中的机器学习用例以及财务仪表板;不幸的是,我们没有得到虚拟数据。我认为这是提高我的R知识的好方法,但是在实现它方面遇到了很大的困难。 我的想法是我指定一些参数/规则(任意/虚拟的,但适用于某种聚类算法的演示)。我基本上是想隐藏一个模式,然后利用机器学习(不是此问题的一部分)重新找到该模式。我隐藏的模式 ..
发布时间:2020-06-11 02:02:51 其他开发

使用pandas中的多个值从列中创建假人

我正在寻找一种处理以下问题的Python方法. pandas.get_dummies()方法非常适合从数据框的分类列创建虚拟对象.例如,如果该列的值在['A', 'B']中,则get_dummies()创建2个虚拟变量并相应地分配0或1. 现在,我需要处理这种情况.单列(称为“标签")的值类似于['A', 'B', 'C', 'D', 'A*C', 'C*D']. get_dummie ..
发布时间:2020-05-23 21:50:38 Python

scikit学习:如何检查系数的意义

我尝试使用SKLearn对具有约600个虚拟对象和仅几个区间变量(以及我的数据集中的300 K行)的相当大的数据集进行LR,结果混淆矩阵看起来很可疑.我想检查返回的系数和方差分析的重要性,但找不到如何访问它.有可能吗?包含大量虚拟变量的数据的最佳策略是什么?非常感谢! 解决方案 Scikit学习故意不支持统计推断.如果您想要开箱即用的系数显着性检验(以及更多),可以使用统计模型中的rel ..
发布时间:2020-05-04 03:16:36 其他开发

从mimetype生成图像扩展名

我一直在尝试在Laravel 5中上传图像(通过laravelcollective/forms生成的上传,并使用Intervention Image库进行了处理). 我想做的是,当用户上传任何照片时,我想根据其模仿类型来设置扩展名.应该进行一些基本检查,以防止虚假数据注入. $file_profile_image->getClientMimeType(); 为此,我是否应该像这样进行映射 ..

为我的web应用程序生成虚拟数据 - 寻找字典

很抱歉,如果这是偏离主题,但 当然是编程相关。 我的web应用程序(并发用户和系统中的数据量)。对于后者,我需要一些方法为各种类型(名称,地址,电子邮件和一些其他数据类型)生成哑元数据。 有任何开源免费)或伪数据字典的商业提供商(任何格式,但最好是mySQL)(我真的不需要一个完整的应用程序 - 只是数据)。 有其他人解决了这个问题吗? 编辑: 如果我不清楚,我不需要一种 ..
发布时间:2017-03-18 22:18:45 其他数据库

什么是一个简单的方法来存根/虚拟RESTful Web服务?

我想创建一个Android应用程序,该应用程序将基于REST调用Web服务来获取一些数据。 我知道RESTful接口会有,但我不希望创建我自己的实现的麻烦。有一个简单的方法来创建一个存根REST风格的Web服务,它会返回一些静态的数据,而无需编写一个完全成熟的WS应用程序来做到这一点? 解决方案 大概是做的最好的事情就是创建一个模拟的REST Web服务的服务,您正在开发应用程序code一段 ..
发布时间:2015-12-02 01:04:31 移动开发