categorization相关内容

使用 mutate 对数值变量进行分类

我想使用 dplyr 对我的 data.frame 对象中的数字变量进行分类(但不知道该怎么做). 如果没有 dplyr,我可能会这样做: df 它就会完成.但是,我非常喜欢在其他操作的 chain 序列中使用一些 dplyr 函数(mutate,我想)来做到这一点.执行我的data.frame. 解决方案 set.seed(123)df ..
发布时间:2021-12-23 12:14:24 其他开发

将数值变量分类为组/箱/中断

我正在尝试将数字变量(年龄)分类为由间隔定义的组,因此它不会是连续的.我有这个代码: data$agegrp(data$age >= 40 & data$age 以上代码在生存包下不起作用.它给了我: 复杂赋值中的无效函数 你能指出错误在哪里吗?data 是我正在使用的数据框. 解决方案 我会在这里使用 findInterval() : 先编一些样本数据 set.seed ..
发布时间:2021-06-30 19:48:01 其他开发

查找段是否在另一个段的距离内

我有一堆细分市场(我拥有的数据是构成细分市场[x1,y1]和[x2,y2]的2个点),并希望根据其位置对其进行分类.如果一个片段与另一个片段足够接近,那么我想将它们放在一起.如果我必须用句子来描述它:我想找到所有与该段的任意点相距5px的相邻段. 使用与绘制图片相似的规则: ..
发布时间:2021-05-10 19:14:13 Python

根据R中的日期范围进行分类

如何根据大的R数据帧(> 2百万行)中的日期范围定义,在单独的,较小得多的R数据帧(12行)中对每一行进行分类? 当通过 head(captures)调用时,我的大型数据框看起来像这样: id日期性别1 160520 2016-11-22 12 1029735 2016-11-12 13 1885200 2016-11-05 14 2058366 2015-09-26 25 205836 ..
发布时间:2021-04-29 19:26:51 其他开发

D3中轴的异常值(混合数值和分类规范)

我试图在D3中设置一些东西,其中我有一个用于收集某些数据点的轴.但是,对于数据点的异常值,我想将这些异常值放在轴上的存储桶中.有没有一种方法可以为轴指定一个“异常标记",以用作放置这些数据点的分区? 示例:[1、3、7、12、2048]* * * * *--1--2--3--4--5--6--7--8--9--10--11--12--13--14--15--O-- 以下是我当前拥有的代码.在 ..
发布时间:2021-04-28 18:43:14 其他开发

如何检查可以找到多少列字符

我有一个包含4个包含名称的列的数据集,其中名称的数量和名称的顺序在列之间有所不同。某些列还可以包含两次或更多次相同的名称。看起来如下: df x2 = c(“ Ben”,“ Paul”, “ Tim”,“ Linda”,“ Alex”,“ MJ”,“ Lisa”,“ Ken”,“ NA”), x3 = c(“ Tomas”,“ ;“ Alex”,“ Ben”,“ Paul”,“ MJ” ..
发布时间:2020-10-01 00:00:02 其他开发

Mechanical Turk-无法查看HIT,显示为空白

我正在尝试在Mechanical Turk沙箱开发人员版本上设置一些图像分类任务。当我尝试查看HIT(注释图像)时,它显示为空白。我单击了“接受命中”按钮,但仍然看不到任何东西。 为了确保特别是我的项目设置没有问题,我以工作人员身份登录,以接受其他涉及图像分类的项目的HITS。我仍然继续在他们的分类项目中看到空白图像,应该在其中显示要注释的图像。 有人可以解决这个问题吗?谢谢。 / p ..
发布时间:2020-06-07 19:23:33 其他开发

集成测试是一个笼统的术语吗?如果是,它包括什么类型的测试?

我发现“集成测试”的概念令人困惑。似乎有很多解释和范围: 功能/验收测试(例如测试用户界面)例如,使用Selenium) 将不同类/模块的软件集成在一起测试(只需将两个或多个类一起测试,而无需做任何特殊的事情,例如数据库调用和内容) 测试系统配置功能/功能独立(数据库集成有效,依赖项已正确注入,安全基类正常工作) 测试整个系统(运行使用数据库,Web服务等的服务) 等。等等。 ..

设计具有层次结构/子类别的SQL表

我有一个看起来像这样的表: ID |关键字|分类|子类别|子子类别| Sub-Sub-Sub-Category 我是否需要将其分成两个表(关键字表和具有父ID的类别表) (如果有)关键字只能属于一个类别,子类别...等。表示没有重复。 解决方案 您只需要一个表即可表示1-1映射。要表示一个或多个映射,您应该使用多个表。 如果关键字只能对应一个类别/子类别/子类别, ..
发布时间:2020-06-07 19:23:28 其他开发

使用pch =参数绘制不同形状的图形

如果我使用R绘图。如何为属于一个类别的数据点分配特定的形状(使用 plot()的 pch 参数)基于我的数据框中具有分类数据的列?将使用 as.factor()对数据进行分组,然后使用 pch 帮助吗? 解决方案 您的意思是这样的...? 情节(Sepal.Length〜Petal.Length, xlab =“花瓣长度(cm)”, ylab =“花瓣长度(cm)”, pch ..
发布时间:2020-06-07 19:23:24 其他开发

需要在NLTK和Python中设置分类的语料库阅读器,将语料库文本放在一个文件中,每行一个文本

Jacob Perkins的书“使用NLTK 2.0食谱进行Python文本处理"使我对NLTK和文本分类变得很熟悉. 我的语料库文档/文本每个都由一段文本组成,因此它们每个都在单独的文件行中,而不是在单独的文件中.这些段落/行的数量约为200万.因此,大约有200万个机器学习实例. 文件中的每一行(一段文字-域名,描述,关键字的组合)是特征提取的主题:标记化等,使其成为机器学习算法的 ..
发布时间:2020-05-18 01:20:09 其他开发

域名分类API

我需要将域分类为提供最佳使用域名的不同类别。 喜欢将“gamez.com”分类为游戏门户。 是否有任何提供域名分类的服务,如 Sedo 在做? 解决方案 我所知道的所有系统都是手动管理一个列表。 使用Web过滤代理(例如WebSense)进行灵感,您可以扫描域名中包含的关键字,或者在指定位置的Web内容/元标记中进行扫描。但是,总有一些项目似乎匹配多个类别,或者没有类别,这些需要 ..
发布时间:2017-06-09 20:38:46 Wireless/无线

在R中分类日期

我正在使用R中的一个数据集,其中主要的兴趣领域是日期。 (它与军队的小规模冲突有关,并且记录了冲突的日期)。我想检查一些季节,假期等附近是否更有可能发生,所以我希望能够看到夏季,冬季等几个日期。失去了如何做到这一点。 解决方案 一般建议:使用包 lubridate 从字符串转换如果你遇到麻烦的话。使用 cut()将日期分隔为范围,如下所示: 一些日期 ..
发布时间:2017-04-08 22:01:53 其他开发