data-wrangling相关内容

在R(StringR)中使用正则表达式提取用于购物篮分析的产品项目时出错

Order_id PRODUCT_NAME 1 普通-高附着力有机硅底漆-30ml,普通-天然保湿因子+HA 30ml 2 Sandal,Brown-44 3 醋酸盐正方形黑色过渡太阳镜,卡地亚-8221-边少绿色双色太阳镜,雷朋-飞行员-棕色双色-3026-钻石硬质坚硬镜片,Burberry-2A357-哈瓦那-飞行员-太阳镜,醋酸盐正方形-黑色-过渡性太阳镜,卡地亚-8221-边少绿色双 ..
发布时间:2022-08-18 15:51:10 其他开发

将完整的年龄从字符转换为R中的数字

我在R中有一个以人的完整年龄为字符串(例如,10年8个月23天)的数据集,我需要将其转换为有意义的数字变量。我正在考虑将其转换为人的年龄(这很难,因为月份有不同的天数)。因此,最佳解决方案可能是创建一个双精度变量,将年龄显示为10.6或10.8,这是一个数字变量,其中包含10年8个月5天大于10年7个月12天的信息。 以下是我拥有的当前变量的一个示例 library(tibble) ..
发布时间:2022-08-18 15:07:54 其他开发

使用 R 在流程中的连续阶段之间处理事件

我一直在尝试解决教科书中的一个练习,我面临的挑战是计算工业过程的连续阶段之间的不同事件. 过程相关信息: 一个测试对象经历了一个 3 个阶段的过程,分别是 A、B 和 C 阶段,第一个是 A、第二个 B 和最后一个 C;测试对象可能会在 A 或 B 阶段放弃该过程,然后从 A 点重新开始,每次该过程发生时,都会创建一个数据集,其中包含测试对象的 IDENTIFICATION、发生该阶段的 T ..
发布时间:2021-10-26 18:37:24 其他开发

我如何计算,在一个会话中总共有多少个项目?

我真的尽我最大的努力通过 stackoverflow 搜索解决方案,但不幸的是我找不到合适的问题.因此,我必须自己提出一个问题. 我正在处理一个包含 sessionID 和主题的数据集.想象一下它看起来像这样: sessionID 现在,我想知道某个主题的多少项目一起出现在一个会话中.最后,我想获得一个矩阵,表示特定主题与其他主题进行会话的频率.最终结果应如下所示: topics ..
发布时间:2021-09-07 19:33:37 其他开发

如何规避 table() 函数抛出的 2^31 错误?

我真的尽我最大的努力通过 stackoverflow 搜索解决方案,但不幸的是我找不到合适的问题.因此,我必须自己提出一个问题. 我正在处理一个包含 sessionID 和主题的数据集.我想知道,有多少特定主题的物品被一起购买.值得庆幸的是,堆栈溢出成员有一个好主意,它使用了 table() 函数和 crossprod() 函数的组合. topicPairs ..
发布时间:2021-09-07 19:32:36 其他开发

准备用于发布的聚合数据框

我有一个像这样的 Pandas 聚合数据框: 将pandas导入为pdagg_df = pd.DataFrame({'v1':['item', 'item', 'item', 'item', 'location', 'status', 'status'],'v2' :['床', '灯', '蜡烛', '椅子', '家', '新', '二手'],'计数':['2', '2', '2', '1', ..
发布时间:2021-06-13 20:03:37 Python

检查一个数据框的值是否以正确的顺序存在于另一数据框中

我有1个数据帧的数据和多个“参考”数据。数据框。我正在尝试自动检查数据框的值是否与参考数据框的值匹配。重要的是,这些值还必须与参考数据帧中的值具有相同的顺序。这些列很重要,但是我的真实数据集包含更多列。 下面是一个玩具数据集。 数据框 组类型值 1泰迪 1威廉 1拉斯 2 B多洛雷斯 2 B Elsie 2 C Maeve 2 C夏洛特 2 C Bernard ..
发布时间:2020-10-17 00:22:42 其他开发