classification相关内容

t-sql::列出所有表、列和透视内容

我正在使用SSMS工具Data Discovery and Classification。 该工具自动搜索列名,如%address%、%name%、%surname%、%e-mail%、%tax%、%zip%等. 并且很好地向您建议它可能是一个合理的数据。 事实是,在盎格鲁-撒克逊社会之外,列名不是英语,但可以是法语、西班牙语、意大利语等。 所以我找到了一个查询,可以帮助我根据我的语 ..
发布时间:2022-03-03 23:38:28 数据库

从分段时间序列创建 Scikit-learn 标记数据集

简介 我有一个代表不同用户(即 user1 和 user2)的分段时间序列的 Pandas DataFrame.我想用提到的 DataFrame 训练一个 scikit-learn 分类器,但我无法理解我必须创建的 scikit-learn 数据集的形状.由于我的系列是分段的,因此我的 DataFrame 有一个“segID"列,其中包含特定段的 ID.我将跳过分段的描述,因为它是由一种算法 ..
发布时间:2022-01-21 13:36:12 Python

如何对用 lucene 索引的文档进行分类

我用 Lucene 对一组文档进行了分类(字段:内容、类别).每个文档都有自己的类别,但其中一些被标记为未分类.有没有什么方法可以在java中轻松分类这些文档? 解决方案 从 Lucene 5.2.1 开始,您可以使用 索引文档以对新文档进行分类.开箱即用,Lucene 提供了一个朴素贝叶斯分类器,一个 k-最近邻分类器(基于 MoreLikeThis 类)和基于感知器的分类器. 缺 ..
发布时间:2022-01-15 13:19:07 Java开发

用 lucene 提取 tf-idf 向量

我已经使用 lucene 索引了一组文档.我还为每个文档内容存储了 DocumentTermVector.我写了一个程序,得到了每个文档的词频向量,但是如何获取每个文档的 tf-idf 向量呢? 这是我在每个文档中输出词频的代码: 目录 dir = FSDirectory.open(new File(indexDir));IndexReader ir = IndexReader.open( ..
发布时间:2022-01-15 13:09:26 Java开发

OpenCV正样本尺寸?

所以我遇到了很多关于 OpenCV 的 haartraining 和级联训练工具的教程.特别是我对使用 createsamples 工具训练汽车分类器很感兴趣,但是关于 -w 和 -h 参数的说法似乎到处都是相互矛盾的,所以我很困惑.我指的是命令: $ createsamples -info samples.dat -vec samples.vec -w 20 -h 20 我有以下三个问题: ..

如何在 TensorFlow 中为场景标签实现逐像素分类?

我正在使用 Google 的 TensorFlow 开发深度学习模型.该模型应该用于分割和标记场景. 我正在使用具有 33 语义的 SiftFlow 数据集类和256x256像素的图像. 因此,在使用卷积和反卷积的最后一层,我得到了以下张量(数组)[256, 256, 33]. 接下来我想应用 Softmax 并将结果与​​大小的语义标签进行比较[256, 256]. 问题:我应该 ..

分类分数:SVM

我使用 libsvm 进行多类分类.我如何附加分类分数,以比较分类的置信度,与给定样本的输出为: Class 1: score1第 2 类:分数 2第 3 类:分数 3第 4 类:分数 4 解决方案 您可以首先使用一种与全部方法,并通过在 libSVM 中设置决策值选项将它们视为 2class 分类.这是通过将每个类作为正类,将类的其余部分作为每个分类的负类来实现的. 然后比较结果的决 ..
发布时间:2022-01-07 23:25:59 其他开发

如何使用 pytorch 构建多任务 DNN,例如,针对 100 多个任务?

以下是使用 pytorch 为两个回归任务构建 DNN 的示例代码.forward 函数返回两个输出 (x1, x2).用于大量回归/分类任务的网络如何?例如,100 或 1000 个输出.对所有输出(例如 x1、x2、...、x100)进行硬编码绝对不是一个好主意.有没有一种简单的方法可以做到这一点?谢谢. 导入火炬从火炬进口nn导入 torch.nn.functional 作为 F类 myn ..
发布时间:2022-01-06 19:53:15 其他开发

matlab 'fitctree' 的 CART 算法考虑了属性顺序,为什么?

这是一个例子,提到matlab的fitctree考虑了特征顺序!为什么? load ionosphere % 包含 X 和 Y 变量Mdl = fitctree(X,Y)视图(MDL,'模式','图表');X1=翻转(X);Mdl1 = fitctree(X1,Y)视图(Mdl1,'模式','图形'); 不同的模型,因此即使处理相同的特征,分类精度也不相同? 解决方案 在您的示例中,X ..
发布时间:2022-01-05 18:58:12 其他开发

斯坦福-NER定制软件编程关键词分类

我是 NLP 新手,我使用斯坦福 NER 工具对一些随机文本进行分类,以提取软件编程中使用的特殊关键字. 问题是,我不知道如何更改斯坦福 NER 中的分类器和文本注释器以识别软件编程关键字.例如: 今天 Java 用于不同的操作系统(Windows、Linux、..) 分类结果应如: Java“Programming_Language"Windows“操作系统"Linux“操作系统" ..
发布时间:2022-01-02 17:51:20 Java开发

Weka 忽略未标记的数据

我正在使用 Weka 中的朴素贝叶斯分类器进行 NLP 分类项目.我打算使用半监督机器学习,因此使用未标记的数据.当我在一组独立的未标记测试数据上测试从标记训练数据中获得的模型时,Weka 会忽略所有未标记的实例.有人可以指导我如何解决这个问题吗?之前已经有人在这里问过这个问题,但没有提供任何合适的解决方案.这是一个示例测试文件: @relation 所指对象@attribute feature ..
发布时间:2022-01-02 17:37:01 其他开发

(人类)文档的语言

有没有办法(程序、库)大致知道文档是用哪种语言编写的? 我有一堆混合语言的文本文档(~500K)要导入支持 i18n 的 CMS(Drupal).. 我不需要完美匹配,只需要一些猜测. 解决方案 有一种非常简单的方法可以做到这一点,因为您拥有需要识别的所有不同语言的语料库数据.这称为 n-gram 建模.我认为 Lingua::Identify 确实如此不过,这已经是最好的选择 ..
发布时间:2022-01-02 17:35:01 其他开发

在 MATLAB 中使用神经网络分类进行 10 折交叉验证的示例

我正在寻找一个在神经网络中应用 10 倍交叉验证的例子.我需要这个问题的链接答案:MATLAB中10-fold SVM分类示例 我想对所有 3 个类进行分类,而在示例中只考虑了两个类. 编辑:这是我为 iris 示例编写的代码 load fisheriris %# 加载鸢尾花数据集k=10;cvFolds = crossvalind('Kfold', 物种, k);%# 获取 10 ..

如何为 keras 提供恒定输入

我的网络有两个时间序列输入.其中一个输入有一个固定向量,每个时间步都重复.有没有一种优雅的方法将这个固定向量加载到模型中并使用它进行计算? 解决方案 您可以使用 jdehesa 描述的张量参数创建静态输入,但是张量应该是 Keras(而不是 tensorflow)变量.您可以按如下方式创建: from keras.layers import 输入从 keras 导入后端为 K常数 = [ ..

用于电子邮件垃圾邮件检测的神经网络

假设您可以访问一个电子邮件帐户,该帐户将过去几年收到的电子邮件的历史记录(约 10k 封电子邮件)分为 2 组 真正的电子邮件 垃圾邮件 您将如何完成创建可用于垃圾邮件检测的神经网络解决方案的任务 - 基本上将任何电子邮件分类为垃圾邮件或非垃圾邮件? 假设电子邮件提取已经到位,我们只需要关注分类部分. 我希望得到回答的要点是: 选择哪些参数作为神经网络的输入,为什么 ..

为什么在 Keras 中预测需要批量大小?

在 Keras 中,为了预测数据测试的类别,使用了 predict_classes(). 例如: classes = model.predict_classes(X_test,batch_size=32) 我的问题是,我知道batch_size在训练中的用法,但是为什么它需要一个batch_size来进行预测?它是如何工作的? 解决方案 Keras 可以同时预测多个值,就像你输入 ..
发布时间:2021-12-31 16:51:51 其他开发

比使用 Tensorflow 和 Keras 训练准确度更高的验证准确度

我正在尝试使用深度学习来预测来自约会网站的 15 个自我报告属性的收入. 我们得到了相当奇怪的结果,与我们的训练数据相比,我们的验证数据获得了更高的准确性和更低的损失.这在不同大小的隐藏层中是一致的.这是我们的模型: 对于 [250, 200, 150, 100, 75, 50, 25, 15, 10, 7] 中的 hl1:定义基线模型():模型 = 顺序()model.add(密集(hl ..