normalization相关内容

归一化PANDA数据框中的列

我有一个 pandas 数据框,它有语料库的词频,以词为行,以年为列,如下所示: | | term | 2002 | 2003 | 2004 | 2005 | |------:|:--------|-------:|-------:|-------:|-------:| | 3708 | climate | 1 | 10 | 1 ..
发布时间:2022-07-20 15:56:31 Python

执行操作时忽略字符串列

我使用以下代码来标准化 pandas DataFrame: df_norm = (df - df.mean()) / (df.max() - df.min()) 当所有列都是数字时,这很好用。但是,现在我在df中有一些字符串列,上面的标准化出现了错误。有没有办法只对数据框的数字列执行这种标准化(保持字符串列不变)? 推荐答案 可以使用select_dtypes计算所需列的值: ..
发布时间:2022-05-18 15:20:34 Python

使用python从文本中提取城市名称

我有一个数据集,其中一列的标题是“您的位置和时区是什么?” 这意味着我们有如下条目 丹麦,CET 地点为英格兰德文郡,格林威治时间 澳大利亚。澳大利亚东部标准时间。+10小时协调世界时。 甚至 我的位置是俄勒冈州的尤金,一年中的大部分时间,或者在首尔, 韩国则视学校假期而定。我的主要时区是 太平洋时区。 整个五月我将在英国伦敦(格林威治标准时间+1)。整个六月份,我要 ..
发布时间:2022-05-18 15:11:28 Python

按总和归一化 pandas DataFrame行

将 pandas DataFrame的每一行标准化的最常用的方法是什么?将列正常化很容易,所以一个(非常难看!)选项为: (df.T / df.T.sum()).T pandas 广播规则禁止df / df.sum(axis=1)这样做 推荐答案 要解决直播问题,可以使用div方法: df.div(df.sum(axis=1), axis=0) 参见pandas U ..
发布时间:2022-05-18 15:02:23 Python

标准化 SVM 的特征值

我一直在玩一些 SVM 实现,我想知道 - 将特征值标准化以适应一个范围的最佳方法是什么?(从 0 到 1) 假设我有 3 个特征值在以下范围内: 3 - 5. 0.02 - 0.05 10-15. 如何将所有这些值转换为 [0,1] 的范围? 如果在训练期间,我将遇到的特征编号 1 的最大值是 5,而在我开始在更大的数据集上使用我的模型后,我会偶然发现高达 7 ..

在 Julia 中,如何对稀疏矩阵进行列归一化?

如果我使用 sparse(i, j, k) 构造函数构造了一个稀疏矩阵,那么我该如何规范化矩阵的列(以便每列总和为 1)?在创建矩阵之前,我无法有效地规范化条目,因此感谢您提供任何帮助.谢谢! 解决方案 最简单的方法是广播除以列的总和: 朱莉娅>A = sprand(4,5,.5)A./sum(A,1)4x5 数组{Float64,2}:0.0 0.0989976 0.0 0.0 0.0 ..
发布时间:2022-01-23 19:48:02 其他开发

如何在“菱形"中保持外键关系一致关系系统

考虑这种情况:汽车是从销售人员处购买的.一名销售人员在陈列室(并且仅在一个陈列室)工作.陈列室隶属于制造商,仅销售该制造商制造的汽车.同时,汽车是特定的Model,而Model是由制造商制造的. 限制 R:汽车模型的制造商必须与汽车销售员的陈列室的附属制造商是同一制造商. 该图显示了明显的外键关系. ---->制造商 您如何执行限制 R?您可以添加外键关系 Car -->制造商 ..

如何在数据库中建模标签?

我有一个现有的 web 应用程序并想添加一个标记功能,以便用户可以标记现有的对象.问题是我应该为每个对象添加一个标签列吗?还是应该对其进行规范化并使用标签表,其中每个对象都有一组标签?我倾向于后者,因为它感觉更干净,更容易报告并且更容易创建标签云.但是因为我知道这已经解决了 1000 次,所以我想问一下,看看我是否遗漏了什么? 解决方案 您是否预见到用户需要将多个标签与一个对象关联? ..
发布时间:2022-01-18 21:29:52 其他开发

Elasticsearch:何时将 omit_norms 选项设置为 false

elasticsearch 中 omit_norms 选项的好用例是什么?我在 es 网站上找不到足够的解释. 解决方案 规范是存储在索引中与字段并列的值,用于评分.使用默认评分算法,这结合了 lengthNorm(用于对短字段进行比长字段更重的权重)和任何字段级别的提升.您可以在 Lucene 文档. LengthNorm 方面最有助于正确的全文字段.在不需要字段提升的结构化字段上 ..
发布时间:2022-01-15 13:21:17 其他开发

如何标准化 Lucene 分数?

我需要将 Lucene 分数标准化为 0 到 1 之间. 例如,随机查询返回以下分数... 8.8646652.7926872.7926872.7926872.7926870.490090370.337302420.337302420.337302420.33730242 最大的分数是多少?10.0 ? 谢谢 解决方案 你可以将所有分数除以最大分数,得到0到1之间的分数. ..
发布时间:2022-01-15 12:43:44 其他开发

为什么 NUMPY correlate 和 corrcoef 返回不同的值以及如何“标准化"?“完整"中的相关性模式?

我正在尝试在 Python 中使用 Numpy 进行时间序列分析. 我有两个中等大小的系列,每个都有 20k 值,我想检查滑动相关性. corrcoef 给了我一个自相关/相关系数矩阵作为输出.在我的情况下,它本身没有任何用处,因为其中一个系列包含滞后. correlate 函数(在 mode="full" 中)返回一个 40k 元素列表,该列表看起来确实像我想要的结果(峰值与列 ..
发布时间:2022-01-11 09:21:49 Python

在 ColdFusion 中规范化字符串

我正在尝试在 ColdFusion 中规范化字符串. 我想为此使用Java类java.text.Normalizer,因为据我所知CF没有任何类似的功能. 这是我当前的代码: 任何想法为什么它总是输出 äéöè 而不是规范化字符串? 解决方案 在 ColdFusion 中,与 Java 不同,您不需要在字符串文字中转义反斜杠.您当前的正则表达式不会匹配不以反斜杠开头的任何 ..
发布时间:2022-01-09 15:23:20 Java开发

有趣的树/分层数据结构问题

大学有不同的方式来组织他们的部门.一些学校去 School ->术语 ->部门.其他的则介于两者之间,最长的是 School ->Sub_Campus ->程序 ->术语 ->司 ->部门. School、Term 和 Department 是唯一始终存在于学校部门“树"中的部门.这些类别的顺序永远不会改变,我给你的第二个例子是最长的.每一步都是 1:N 的关系. 现在,我不确定如何设 ..
发布时间:2022-01-05 18:32:52 其他开发

TypeScript:尝试使用 string | 时,索引签名参数必须是“字符串"或“数字"数字

我正在尝试创建一个函数来规范化我的数组,它需要一个结构如下的输出对象: {allIds: [1],byId:{1:{...}}} 或 {allIds: ['1'],byId:{'1':{...}}} 我正在尝试创建一个名为 IOutput 的接口来满足此需求. 我已经试过了: interface IOutput {allIds: 字符串[] |数字[]byId:{[键:数字 |字符 ..
发布时间:2021-12-31 14:54:00 其他开发

什么是“批量标准化"?为什么使用它?它如何影响预测?

最近,许多深度架构使用“批量归一化"进行训练. 什么是“批量标准化"?它在数学上有什么作用?它对培训过程有什么帮助? 在训练期间如何使用批量归一化?它是插入模型的特殊层吗?我需要在每一层之前标准化,还是只需要标准化一次? 假设我使用批量归一化进行训练.这会影响我的测试时间模型吗?我应该用我的“部署"网络中的其他/等效层/操作替换批量标准化吗? 关于批量标准化的这个问题只涵盖 ..

规范化数据库对资源有什么影响?

当从一个相对非规范化的形式中取出一个数据库并对其进行规范化时,如果有的话,资源利用率可能会发生什么变化? 例如,规范化通常意味着从更少的表中创建更多的表,这意味着数据库现在拥有更多的表,但其中许多表非常小,从而使经常使用的表更好地适应内存. 更多的表也意味着(可能)需要更多的联接来获取被抽象出来的数据,因此人们会期望系统需要执行的更多联接产生某种影响. > 那么,规范化未规范化的数 ..
发布时间:2021-12-26 21:15:47 其他开发