reproducible-research相关内容
我有一个Jupyter笔记本,我计划重复运行它。它里面有函数,代码结构是这样的: def construct_url(data): ... return url def scrape_url(url): ... # fetch url, extract data return parsed_data for i in mylist: url =
..
如何获取 Julia 会话的导入/使用包列表? Pkg.status() 列出所有已安装的软件包.我对通过 using ... 或 import ... 导入/加载的那些感兴趣 似乎 whos() 包含相关信息(名称以及是否为模块).whos() 的输出能否被捕获到变量中? 解决方案 使用 Lazy孩子(m::模块)=@>>names(m, true) map(x->m.(x))
..
我在两台不同的机器上训练同一个模型,但训练的模型并不相同.我采取了以下措施来确保重现性: # 设置随机数随机种子(0)torch.cuda.manual_seed(0)np.random.seed(0) #设置cudnntorch.backends.cudnn.benchmark=Falsetorch.backends.cudnn.deterministic=真 #设置数据加载器工作线程为0
..
更新:这个问题是针对 Tensorflow 1.x 的.我升级到 2.0 并且(至少在下面的简单代码中)重现性问题似乎已在 2.0 上解决.这样就解决了我的问题;但我仍然很好奇 1.x 上针对此问题使用了哪些“最佳实践". 在 keras/tensorflow 上训练完全相同的模型/参数/数据不会给出可重复的结果,并且每次训练模型时损失都显着不同.有很多关于此的 stackoverflow
..
我在 R 中使用以下函数进行了模拟: ## 加载包并准备多核进程图书馆(预测)图书馆(未来.申请)计划(多会话)图书馆(并行)图书馆(foreach)库(doParallel)n_cores
..
我经常使用 reprex::reprex 来创建可重现的 R 代码示例,以从其他人那里获得帮助以消除我的代码中的错误.通常,我使用 iris 或 mtcars 等数据集创建最少的示例,并且效果很好.但我总是无法使用 reprex 任何时候我需要使用我自己的 数据,因为问题太具体了,我不能依赖 datasets 库. 在这种情况下,我收到以下错误: # 加载需要的库图书馆(ggplot2)图
..
我正在尝试设置种子并配置 keras 设置,以确保我的实验可重现.当我运行以下命令时(基于 这个问题): # 导入库将 numpy 导入为 np将熊猫导入为 pd将张量流导入为 tf从 tensorflow.keras.models 导入 load_model从 tensorflow.keras.regularizers 导入 l2# 用于设置种子和配置 keras 以便实验可重现从 numpy
..
当我在插入符号中运行 2 个随机森林时,如果我设置了一个随机种子,我会得到完全相同的结果: 库(插入符号)库(doParallel)set.seed(42)myControl
..
我一直在使用 sklearn 的随机森林,并尝试比较了几个模型.然后我注意到随机森林即使使用相同的种子也会给出不同的结果.我尝试了两种方式:random.seed(1234) 以及使用内置的随机森林 random_state = 1234在这两种情况下,我都得到了不可重复的结果.我错过了什么......? # 1随机种子(1234)RandomForestClassifier(max_depth
..
作为这里的新用户,由于不可重现,我的问题没有得到完全解答.我阅读了与生成可重现代码相关的线程,但有用.特别迷失了如何使用 dput() 函数. 有人可以提供有关如何使用 dput() 使用 iris df 的分步说明,例如这将非常有帮助. 解决方案 使用 iris 数据集,它很方便地包含在 R 中,我们可以看到 dput() 有效: 数据(虹膜)头部(虹膜)萼片.长度 萼片.宽度
..
我正在尝试生成 N 组独立随机数.我有一个简单的代码,显示了 3 组 10 个随机数的问题.我注意到即使我使用 tf.set_random_seed 来设置种子,不同运行的结果看起来并不相同.非常感谢任何帮助或评论. (py3p6) bash-3.2$ cat test.py将张量流导入为 tf对于范围内的 i (3):tf.set_random_seed(1234)生成 = tf.random
..
我希望使用 caret 包并行运行随机森林,并且我希望设置可重现结果的种子,如 使用 caret 的完全可重现的并行模型.但是,我不明白从插入符号帮助中获取的以下代码中的第 9 行:为什么我们采样 22(加上第 12、23 行中的最后一个模型)整数(评估参数 k 的 12 个值)?有关信息,我希望运行 5 倍 CV 来评估 RF 参数“mtry"的 584 个值.任何帮助深表感谢.谢谢. ##
..
以下代码是针对我遇到的问题的非常简化的 MRE.我试图避免使用 R 模板包,例如 brew,而只使用 knit_expand() 来实现我的目标.问题有两个方面: 不会解析生成的块(这在我的实际代码中不会发生,但会发生在 MRE 中) 代替 LaTeX \includegraphics,knitr(或 rmarkdown,或 pandoc)生成用于插入的 RMarkdown 语法数字 (!
..
我想使用 Rmarkdown,但我读到的是,在使用 pandoc 创建参考书目时,参考文献位于文档末尾: pandoc/citeproc 问题:多个参考书目、nocite、citeonly 因此,即使我有一个名为 thesis.Rmd 的父文档,我也假设所有引用都将放在该文件的末尾. 我需要每个论文的章节或部分都必须有自己的参考文献,除了在我写的每一章中放置参考书目标题然后单独编
..
说我正在遵循针对文档): 规则名称:输入:"table.txt"输出:"plots/myplot.pdf"康达:"envs/ggplot.yaml"脚本:"scripts/plot-stuff.R"; 说 envs/ggplot.yaml 的内容如下: 渠道:-康达伪造依赖项:-r-ggplot2 完成后,ggplot环境将被保存为say(注意,snakemake自动分配的环境名称d2
..
我想获得CNN的可重复结果.我将Keras和Google Colab与GPU配合使用. 除了建议插入某些代码段(应具有可重复性)的建议之外,我还向这些层添加了种子. ###### This is the first code snipped to run ##### !pip install -U -q PyDrive from pydrive.auth import GoogleA
..
如何获取Julia会话的已导入/已使用软件包的列表? Pkg.status()列出所有已安装的软件包.我对通过using ...或import ... 导入/加载的那些感兴趣 似乎whos()包含相关信息(名称以及是否为模块). whos()的输出可以捕获到变量中吗? 解决方案 using Lazy children(m::Module) = @>> names(m, tru
..
我正在研究macOS机器,Google Colab以及使用Docker在Azure上的TensorFlow中代码的可重复性.我知道我可以设置一个图形级种子和一个操作级种子.我正在使用急切模式(因此没有并行优化),也没有GPU.我使用单位法线的100x100随机抽取,并计算其均值和标准差. 下面的测试代码验证我是否未使用GPU,我是否正在使用Tensorflow 1.12.0或TensorFl
..
我有一个简单的代码可以在Google Colab上运行(我使用CPU模式): import numpy as np import pandas as pd ## LOAD DATASET datatrain = pd.read_csv("gdrive/My Drive/iris_train.csv").values xtrain = datatrain[:,:-1] ytrain = d
..
在R中对数据进行采样/拆分的一种常用方法是对行号使用 sample 。例如: require(data.table) set.seed(1) 人口
..