machine-learning相关内容
我正在试着从心电图上读取一幅图像,并检测其中的每一个主要波(P波、QRS波和T波)。我可以读取图像并获得向量(如(4.2; 4.4; 4.9; 4.7; ...))。我需要一个算法,它可以遍历这个矢量,并检测每个波的开始和结束时间。示例: 如果它们的大小总是相同的,或者如果我事先知道ECG有多少个波,那就很容易了。给定波形: 我提取向量: [0; 0; 20; 20; 20; 1
..
我正在使用sklearn的波士顿住房数据集(506x13矩阵)进行多元线性回归。我计划使用所有数据对其进行训练,然后“插入”一个随机数据(如boston_dataset.data[39]),然后查看损失情况。但当我打印结果时,得到的只有NaN。这是我的代码。 import tensorflow as tf import numpy as np import matplotlib.pyplot
..
似乎是一个基本问题,但我需要在使用梯度下降的线性回归实现中使用特征缩放(取每个特征值,减去平均值,然后除以标准差)。在我完成之后,我想要将权重和回归线重新缩放到原始数据。我只用了一个功能,外加y-截取术语。使用缩放数据获取权重后,如何更改权重,使其应用于原始的未缩放数据? 推荐答案 假设您的回归是y = W*x + b与x缩放数据,与原始数据为 y = W/std * x0 +
..
p=(-50:50)^2 y=c(p, 2500+10*(1:99), p+1000) plot(seq_along(y), y+100*rnorm(length(y))) 假设我有一个类似上面的数据集,其中只有一部分数据是线性的。像R中的lm()这样的普通线性回归无法智能地找出适合线性拟合的区域(在本例中为100到200)。 如何找出数据的哪一部分是线性的,并仅在此数据集中执行拟合?欢迎使
..
我有一个编码器-解码器模型,可以做出很好的预测,但我正在努力保存层的隐藏状态,以便可以重用该模型。 下面的文本描述了我训练、测试、保存和加载模型所采取的每个步骤。 导入 import tensorflow as tf from tensorflow.keras.layers import LSTM, Input, TimeDistributed, Dense, Embedding
..
我在理解pytorch中LSTM的数据格式时遇到了问题。假设我有一个具有4个功能的CSV文件,一个接一个地以时间戳的形式排列(一个经典的时间序列) time1 feature1 feature2 feature3 feature4 time2 feature1 feature2 feature3 feature4 time3 feature1 feature2 feature3 featur
..
我已经通过将数据集拆分为训练和测试来训练我的股价预测模型。 我还通过比较有效数据和预测数据对预测进行了测试,模型运行良好。 但我想预测实际未来值。 我需要在下面的代码中更改哪些内容? 如何预测到实际未来的特定日期? 代码(在Jupyter笔记本中): (要运行代码,请在您拥有的类似CSV文件中试用,或使用命令pip install nsepy安装nsepy python库)
..
这只是设置相同内容的不同方式,还是它们实际上有不同的含义?这与网络配置有关吗? 在一个简单的示例中,我看不到以下各项之间的任何区别: model = Sequential() model.add(LSTM(1, batch_input_shape=(None,5,1), return_sequences=True)) model.add(LSTM(1, return_sequences
..
我用LSTM开发了一个时间序列模型。我不能用它来预测未来几天的股价。我想用它来预测明年的股票价格,然后画出来。如何用它来预测未来(明年)的股价? df=pd.read_csv('foolad.csv') df=df.set_index(pd.DatetimeIndex(df['Date'].values)) data=df.filter(['Close']) dataset=data.va
..
输入数据集如下所示: {"666": ["abc", "xyz"], "888": ["xxxo", "xxxo"], "007": ["abc"]} 我们首先使用以下函数创建词袋模型: def associate_terms_with_user(unique_term_set, all_users_terms_dict):
..
我刚刚编写了DBSCAN算法,我想知道DBSCAN算法是否允许群集中的点数少于使用的minPts参数。 我一直在使用http://people.cs.nctu.edu.tw/~rsliang/dbscan/testdatagen.html验证我的实现,它似乎工作正常,只是遇到了这个问题。 我正在对一个样本数据集运行一些模拟,我一直在使用minPts为3。DBSCAN算法通常会从数据集创
..
我正在用三个具有不同特性的时间序列数据集进行实验,其格式如下。 0.086206438,10 0.086425551,12 0.089227066,20 0.089262508,24 0.089744425,30 0.090036815,40 0.090054172,28 0.090377569,28 0.0905140
..
我正在运行以下代码来微调Google Colab中的Bert Base Case模型。有时代码第一次运行得很好,没有错误。其他时候,使用相同数据的相同代码会导致“CUDA内存不足”错误。以前,重新启动运行库或退出笔记本,返回笔记本,执行工厂运行时重新启动,然后重新运行代码即可成功运行,而不会出现错误。不过,刚才我尝试了5次重启和重试,每次都出现错误。 问题似乎不在于我正在使用的数据和代码的组
..
使用例如gensim、word2vec或类似方法训练嵌入向量时,我想知道什么是好的比率,或者嵌入维度与词汇表大小之间是否有更好的比率? 另外,随着更多数据的出现,这种情况会发生怎样的变化? 由于我仍在讨论如何在训练嵌入向量时选择合适的窗口大小? 我之所以问这个问题,是因为我没有用现实生活中的语言词典来训练我的网络,而是这些句子将描述进程和文件以及其他进程之间的关系,等等。 例如,我的文本语
..
我正在处理以下数据集: http://archive.ics.uci.edu/ml/datasets/Bank+Marketing 可以通过单击数据文件夹链接找到数据。存在两个数据集,一个训练集和一个测试集。我使用的文件包含两个集合中的组合数据。 我正在尝试应用线性判别分析(LDA)来获得两个组件,但是,当我的代码运行时,它只产生一个组件。如果设置“n_Components=3”
..
我已经生成了包含20个点的卫星数据集,并对其进行了光谱聚类。我想在Networkx的帮助下使用最近邻居=3来形成一个图。其中数据点是节点,聚类后生成的亲和度矩阵是不同节点之间的边上的权重。我还需要帮助更改两个群集的节点的颜色和形状,以便将一个群集的节点与另一个群集的节点区分开来。代码如下所示。下面给出了输出图像。我只想使用近邻=3在输出图像的节点之间绘制一个图。 import numpy a
..
假设我有以下数据框: 我检查了documentation,但它只基于单个列。 可重现代码: x = np.random.normal(100,5,100) data = pd.DataFrame(x) epsilon = 10 data.columns = ['x'] data['lower'] = x - epsilon data['upper'] = x + epsilon
..
我正在尝试根据用户行为对一些产品进行集群。我最后看到的是具有非常不同观测数量的星团。 我已检查k-Means群集参数,但找不到控制每个群集的最小(或最大)观察数的参数。 例如,此处显示了观察值数量在不同群集之间的分布方式。 cluster_id num_observations 0 6 1 4 2 1 3 3 4 29 5 5 有关于如何处理此问题
..
我刚刚开始使用Python中的GridSearchCV,但是我搞不清楚这里面到底有什么好处。我见过的某个地方 scorers = { 'precision_score': make_scorer(precision_score), 'recall_score': make_scorer(recall_score), 'accuracy_score': make_sco
..
我想在SCRKIT学习中实现自定义丢失功能。我使用以下代码片段: def my_custom_loss_func(y_true,y_pred): diff3=max((abs(y_true-y_pred))*y_true) return diff3 score=make_scorer(my_custom_loss_func,greater_ is_better=False) c
..