AI人工智能

用R编写自己的KMeans算法

我正在尝试用R编写我自己的第一个KMeans算法。我在这个领域是新手,所以请不要因为我看不到明显的东西而评判我。 在当前状态下,该算法取两个向量x,y,计算每个数据点到簇中心的距离,并分配从其中心到数据点距离最小的簇。当分配没有变化,因此聚类中心没有变化时,算法停止。 # Sample data set.seed(100) xval ..
发布时间:2022-07-20 17:03:31 AI人工智能

词汇空间大小模型';en_core_web_sm';

我试着在Spacy Small模型中查看词汇量: model_name="en_core_web_sm" nlpp=spacy.load(model_name) len(list(nlpp.vocab.strings)) 它只给了我1185个单词。我还在同事的机器上试了试,得到了不同的结果(1198和1183)。 只有这么小的词汇量来训练词性标注,难道就应该是这样吗?当我在我的 ..
发布时间:2022-07-20 12:31:13 AI人工智能

支持向量机-数据是否有可指示最佳参数的属性(例如,C、伽马)

使用交叉验证来确定最佳参数似乎相当标准。当然,这通常是一个耗时的过程。有什么捷径吗?有没有其他更快的探索性分析形式,可以提供关于哪些值将是最佳的提示? 例如,以我目前对机器学习和支持向量机的理解,我可能会做一些事情,比如在C的指数为10的[10e-5,10e5]范围内执行初始网格搜索,然后从那里进行微调。但有没有一种方法可以让我快速估计出最佳的C在10e3和10e5之间,然后执行更具体的搜索? ..
发布时间:2022-07-12 18:58:44 AI人工智能

用PyTorch预测网格坐标序列

我有一个类似的开放问题here on Cross Validated(虽然不是以实现为重点的,我打算这个问题是这样的,所以我认为它们都是有效的)。 我正在进行一个项目,该项目使用传感器来监控人员的GPS位置。然后,坐标将被转换为简单的网格表示。我想尝试和做的是,在记录用户路线后,训练神经网络来预测下一个坐标,即以下面的例子为例,用户在一段时间内只重复两条路线,Home->A和Home->B。 ..

如何执行K-medoid

我花了很长时间试图弄清楚如何(在纸上)执行K-medoids算法,但我不能理解如何开始和迭代。例如: 我有6个点、k、c1和c2之间的距离矩阵。 如果有人能教我如何在这个例子上执行K-medoid算法,我会很高兴的。如何开始和迭代? 谢谢 推荐答案 更多细节: 将K设置为所需的簇数,让我们使用2。 随机选择K个实体作为中间体m_1、m_2。让我们选择X_3(让 ..
发布时间:2022-07-01 20:10:34 AI人工智能

多标签分类KERAS度量

在KERAS中,哪些指标更适合多标签分类:accuracy或categorical_accuracy?显然,在这种情况下,最后一个激活函数是sigmoid,而AS损失函数是binary_crossentropy。 推荐答案 我不会对类别不平衡的分类任务使用准确性。 尤其是对于多标签任务,您可能会认为您的大多数标签都是假的。也就是说,与所有可能的标签的基数相比,每个数据点只能有一小部分标 ..

使用RANGER计算多分类混淆矩阵或对合表时出错

我正在调用Ranger来为一个大型混合数据帧(其中一些分类变量具有超过53个级别)的多分类问题建模。训练和测试运行没有任何问题。然而,解释混淆矩阵/合同表会出现问题。 我用虹膜数据来解释我面临的困难,把物种当作分类变量, library(ranger) library(caret) # Data idx = sample(nrow(iris),100) data = iris # ..

K=4时k近邻选择类标签

在k-NN分类中,输出是类成员。对象按其邻居的多数票进行分类,对象被分配到其k个最近邻居中最常见的类(k是正整数,通常较小)。 如果k=1,则仅将该对象分配给该单个最近邻居的类。 如果k=3,且类标签为Good=2 Bad=1,则预测的类标签为Good,包含多数票。 如果k=4,并且类标签是Good=2 Bad=2,则类标签是什么? 推荐答案 有不同的方法。例如,按照文档he ..

无信息迷宫出口的优化算法

我必须确定一种让机器人走出迷宫的方法。问题是,迷宫的布局未知,出口位置也未知。机器人还会从迷宫中一个未知的位置开始。 我找到了3个解决方案,但我很难知道我应该使用哪一个,因为最终似乎这些解决方案都是纯粹随机的。 我有三个解决方案: 1)基本的“人”策略(?),你把手放在墙上,如果需要的话,穿过所有的迷宫。我还保留了一个变量“Turn Counter”,以避免机器人循环的情况。 2)深度优先搜索 ..

如何根据标签有选择地增加数据子集?

我正在开发一个回归神经网络,它使用Kera 1.2.1、TensorFlow后端和用于动态图像增强的生成器。 我希望根据与每个图像相关联的标签来增加我的随机数据集。 例如,在每个时期,我只想包括被标记为0.00的图像的25%。 另一方面,如果图像标记为-.20,我想将其旋转/翻转/完全旋转某个随机量。 问题是,我如何才能有选择地根据图像数据的标签来增加图像数据? 这可能吗? 推 ..

有没有关于Kera中默认的权重初始值设定项的解释?

我刚刚在here中读到了Kera权重初始值设定项。在文档中,只介绍了不同的初始值设定项。例如: model.add(Dense(64, kernel_initializer='random_normal')) 我想知道当我未指定kernel_initializer参数时,默认权重是多少。 有办法访问它吗? 推荐答案 每一层都有自己的初始化权重的默认值。对于大多数层,例如Den ..
发布时间:2022-06-22 20:51:32 AI人工智能

未将/IMPORT&;中的&;#39;识别为内部或外部命令、可操作程序或批处理文件

我在从SCRICKIT-LEARN导入机器学习算法时遇到了问题。 我已经安装了它,但每当我输入例如“from sklearn.naive_Bayes import GaussianNB”时,它就会显示“‘from’不被识别为内部或外部命令、可操作程序或批处理文件。 我在Windows 10上使用的是蟒蛇。是不是有兼容性问题?我是不是遗漏了什么?IDK我还是个新手,所以我觉得很迷茫。谢谢 推荐 ..

TypeError:编码器要求他们的输入是统一的字符串或数字。已获取[';int&39;,';str';]

我已经引用了帖子here、here和here。不要将其标记为重复。 我正在处理一个二进制分类问题,其中我的数据集具有类别列和数值列。 但是,有些分类列混合了数值和字符串值。然而,它们仅指示类别名称。 例如,我有一个名为biz_category的列,它的值类似于A,B,C,4,5等。 我猜下面的错误是由于类似4 and 5的值引发的。 因此,我尝试在下面将它们转换为catego ..
发布时间:2022-06-21 16:16:41 AI人工智能