data-science相关内容
如何在另一列中将数据列与其自己的正则表达式匹配.这是它的样子. 数据正则表达式0 HU13568812 ^ HU [0-9] {8}1 78567899 ^否[0-9] {5}2 AT1234567 ^ HU [0-9] {7} 如果输出匹配(1)或不匹配(0),则输出将是结果的新列. 数据正则表达式匹配0 HU13568812 ^ HU [0-9] {8} 11 78567899 ^ N
..
我有汽车,城市和路线.每个城市都是一个节点.每条路线都是汽车产生的路径. 不同的汽车将具有不同的路径,有时可能会相交(这意味着不同的汽车在其路径中找到了同一座城市), 我将用所有城市和所有不同的路径绘制一个图,并用图方式绘制该图.示例: 城市列表:CityA -CityB -CityD -CityZ -CityK汽车清单:Car1,Car2路线:Car1将有一条穿过cityA-cit
..
我的数据集中有一列如下所示: 日期41245.041701.036361.0 我需要将其转换为日期格式.当我使用以下命令在Python中尝试时: df = pd.to_datetime(df ['date']) 我的结果是这样的: 1 1970-01-01 00:00:00.0000417014 1970-01-01 00:00:00.0000422265 1970-01-01
..
Pandas文档提供了以下代码,效果很好: 框架= pd.DataFrame(np.arange(12).reshape((4,3)),index = [['a','a','b','b'],[1、2、1、2]],column = [['Ohio','Ohio','Colorado'],[“绿色",“红色",“绿色"]]) 基于上述概念,我尝试了以下代码,但它不起作用: hi5 = pd.
..
我想更新以前用MLFlow完成的运行.更改/更新参数值以适应实现中的更改.典型的使用案例: 使用参数A运行日志,然后使用参数A和B进行日志记录.使用其默认值更新先前运行的参数B的值将很有用. “专业化"参数.使用布尔标志作为参数实现模型.更新实现以采用字符串代替.现在,我们需要更新先前运行的参数值,以使其与新行为保持一致. 更正先前运行中记录的错误参数值. 丢弃整个实验并不总是那么
..
如何为使用Python在网络服务器上运行的DASH应用启用HTTPS? 我已经有一个SSL证书(.key和.crt) 解决方案 如果破折号是处理路由的Web服务器(而不是Apache或Nginx),在您启动服务器的那部分的index.py文件中,放入以下代码(用证书的绝对或相对路径替换local.crt和local.key): 如果__name__ ==" __ main __&q
..
我需要提取有关物种的信息,然后编写以下代码.但是,我对某些缺少的物种有疑问.如何避免这个问题. Q
..
按照下面的多项式回归系数值代码,当我计算任意x点的回归值时.所获得的值与等效的y坐标相距甚远(特别是对于下面的坐标).任何人都可以解释为什么差异如此之大,可以将其最小化或理解上的任何缺陷.当前的要求是每点相差不超过150. 将numpy导入为npx = [0,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100]y = [0,88
..
我目前有这些数据点的日期与累计总和.我想使用python预测将来日期的累积总和.我应该使用哪种预测方法? 样条插值 指数平滑 注意:我是通过从您的地块中窃取数据来获取数据的,并将日期保存为日期,并将数据值保存为 values 将pandas导入为pd将numpy导入为np从statsmodels.tsa.holtwinters导入ExponentialSmoothing导入matp
..
#60198708 带我打开了它问题,因为我还没有找到好的解决方案. 问题 我从EURO-CORDEX集成下载了几种气候模型,用于每日降水通量.虽然某些模型可以使用标准日历,并且与Pandas datetime 兼容,但其他模型(尤其是MOHC HadGem2 ES)却可以使用360天的 CFTimeIndex . 主要问题是,如何使用这些日历有效地对月度数据进行重新采样,以使其
..
我想执行超参数搜索以选择sklearn中的预处理步骤和模型,如下所示: pipeline = Pipeline([("combiner",PolynomialFeatures()),(“暗",PCA()),(“分类器",RandomForestClassifier()))参数= [{"combiner":[无]},{"combiner":[PolynomialFeatures()],"comb
..
如何控制用于训练森林中每棵树的子样本的大小?根据scikit-learn的文档: 随机森林是适合多个决策的元估计量数据集的各种子样本上的树分类器和使用平均以提高预测准确性并控制过度拟合.子样本大小始终与原始输入样本相同大小,但如果bootstrap = True,则用替换绘制样本(默认). 因此 bootstrap 允许随机性,但找不到控制子样本数量的方法. 解决方案 Scik
..
我收到错误消息 "ValueError:预期的2D数组,取而代之的是1D数组:array = [45000.50000. 60000. 80000. 110000. 150000. 200000. 300000.500000. 1000000.].如果数据具有单个功能,则使用array.reshape(-1,1)重整数据;如果数据具有单个特征,则使用array.reshape(1,-1)重整
..
我有一个看起来像这样的数据框. id年发布的歌手数168 2015年缪斯女神1169 2015蕾哈娜3170 2015泰勒·斯威夫特2171 2016珍妮弗·洛佩兹1172 2016蕾哈娜3173 2016黑夜传说1174 2017年酷玩乐队1175 2017年Ed Sheeran 2 我想获得每年的最高人数,然后获得相应的艺术家姓名. 类似这样的东西: 年度发行歌手
..
我正在尝试建立一个包含我的投资组合的市场价值的时间序列.整个网站都建立在django框架上.因此数据集将是动态的. 我有一个名为数据集的数据集,该数据集包含股票收盘价: YAR.OL NHY.OL日期2000-01-03 NaN 18.5502002000-01-04 NaN 18.2541012000-01-05 NaN 17.8771002000-01-06 NaN 18.52330
..
我对特征选择,采样和交叉验证的顺序感到困惑,我的数据集有468行和23000列,其中269个属于I类,199个属于II类,这些数据在拆分进行训练和测试时在火车中具有[215 I类和159 II类] [在测试中为54 I类和40 II类].由于样本数量较少,我不得不对火车数据应用SMOTE过采样以减少偏差.还是我应该在此处应用欠采样,这会导致数据丢失,从而导致样本量大大减少.I)首先应用过采样,然后
..
我一直在关注此博客 http://www.quuxlabs.com/blog/2010/09/matrix-factorization-a-simple-tutorial-and-implementation-in-python/(也在此处附加矩阵)用矩阵分解进行评级预测.最初,我们有一个稀疏的用户电影矩阵R.
..
大多数库(例如请求或matplotlib)都不包含有关kwargs/args的适当文档.有时有一些示例,但大多数情况下缺少特定的用例. 我的问题: 我在哪里可以找到该分类信息. 为什么开发人员无法正确记录kwargs/args 解决方案 我只是试图在许多类似的实例中找到源.通常,如果没有记录,则将args传递给一些较低级别的函数.一旦知道了上级功能将要遵循的低级功能,该用途就
..
尝试下载运行 graphlab 所需的依赖项时遇到麻烦.我做了 import graphlab 我得到了以下内容: 需要的操作:找不到依赖项libstdc ++-6.dll和libgcc_s_seh-1.dll.1.确保用户帐户具有对C:\ Users \ DANISUAR \ AppData \ Local \ Continuum \ Miniconda2 \ envs \ gl-env \
..
我有一个pandas数据框,想摆脱"A"列为负的行.我知道两种方法可以做到这一点: df = df [df ['A']> = 0] 或 selRows = df [df ['A']
..