reproducible-research - IT屋-程序员软件开发技术分享社区

对Jupyter笔记本中的功能进行单元测试？

我有一个Jupyter笔记本，我计划重复运行它。它里面有函数，代码结构是这样的： def construct_url(data): ... return url def scrape_url(url): ... # fetch url, extract data return parsed_data for i in mylist: url = ..

发布时间：2022-03-08 20:26:57 python unit-testing testing jupyter reproducible-research Python

Julia 中加载/导入的包列表

如何获取 Julia 会话的导入/使用包列表? Pkg.status() 列出所有已安装的软件包.我对通过 using ... 或 import ... 导入/加载的那些感兴趣似乎 whos() 包含相关信息(名称以及是否为模块).whos() 的输出能否被捕获到变量中? 解决方案使用 Lazy孩子(m::模块)=@>>names(m, true) map(x->m.(x)) ..

发布时间：2022-01-23 19:56:18 julia reproducible-research 其他开发

我在两台不同的机器上训练同一个模型，但训练的模型并不相同.我采取了以下措施来确保重现性: # 设置随机数随机种子(0)torch.cuda.manual_seed(0)np.random.seed(0) #设置cudnntorch.backends.cudnn.benchmark=Falsetorch.backends.cudnn.deterministic=真 #设置数据加载器工作线程为0 ..

发布时间：2022-01-06 19:00:36 python pytorch random-seed reproducible-research Python

如果 Keras 结果不可重复，比较模型和选择超参数的最佳实践是什么?

更新:这个问题是针对 Tensorflow 1.x 的.我升级到 2.0 并且(至少在下面的简单代码中)重现性问题似乎已在 2.0 上解决.这样就解决了我的问题；但我仍然很好奇 1.x 上针对此问题使用了哪些“最佳实践". 在 keras/tensorflow 上训练完全相同的模型/参数/数据不会给出可重复的结果，并且每次训练模型时损失都显着不同.有很多关于此的 stackoverflow ..

发布时间：2021-12-09 22:43:57 python tensorflow keras reproducible-research Python

如何在 R 中设置.Seed 进行模拟以在 Windows 操作系统上实现可重复性

我在 R 中使用以下函数进行了模拟: ## 加载包并准备多核进程图书馆(预测)图书馆(未来.申请)计划(多会话)图书馆(并行)图书馆(foreach)库(doParallel)n_cores ..

发布时间：2021-09-25 20:11:45 r windows seeding reproducible-research 其他开发

在 r 中使用 reprex 包创建可重现的示例，其中正在读取本地文件

我经常使用 reprex::reprex 来创建可重现的 R 代码示例，以从其他人那里获得帮助以消除我的代码中的错误.通常，我使用 iris 或 mtcars 等数据集创建最少的示例，并且效果很好.但我总是无法使用 reprex 任何时候我需要使用我自己的数据，因为问题太具体了，我不能依赖 datasets 库. 在这种情况下，我收到以下错误: # 加载需要的库图书馆(ggplot2)图 ..

发布时间：2021-09-07 19:39:59 r tidyverse reproducible-research reprex 其他开发

“类型错误:‘会话’对象不可调用"；错误运行 sess = tf.compat.v1.Session()(graph=tf.compat.v1.get_default_graph(), config=session_conf)

我正在尝试设置种子并配置 keras 设置，以确保我的实验可重现.当我运行以下命令时(基于这个问题): # 导入库将 numpy 导入为 np将熊猫导入为 pd将张量流导入为 tf从 tensorflow.keras.models 导入 load_model从 tensorflow.keras.regularizers 导入 l2# 用于设置种子和配置 keras 以便实验可重现从 numpy ..

发布时间：2021-09-05 20:07:45 python tensorflow keras random-seed reproducible-research Python

使用插入符号的完全可重现的并行模型

当我在插入符号中运行 2 个随机森林时，如果我设置了一个随机种子，我会得到完全相同的结果: 库(插入符号)库(doParallel)set.seed(42)myControl ..

发布时间：2021-07-03 18:32:30 r r-caret reproducible-research 其他开发

Python sklearn RandomForestClassifier 不可重现的结果

我一直在使用 sklearn 的随机森林，并尝试比较了几个模型.然后我注意到随机森林即使使用相同的种子也会给出不同的结果.我尝试了两种方式:random.seed(1234) 以及使用内置的随机森林 random_state = 1234在这两种情况下，我都得到了不可重复的结果.我错过了什么......? # 1随机种子(1234)RandomForestClassifier(max_depth ..

发布时间：2021-07-02 19:45:33 python random random-forest reproducible-research Python

使用 dput() 的示例

作为这里的新用户，由于不可重现，我的问题没有得到完全解答.我阅读了与生成可重现代码相关的线程，但有用.特别迷失了如何使用 dput() 函数. 有人可以提供有关如何使用 dput() 使用 iris df 的分步说明，例如这将非常有帮助. 解决方案使用 iris 数据集，它很方便地包含在 R 中，我们可以看到 dput() 有效: 数据(虹膜)头部(虹膜)萼片.长度萼片.宽度 ..

发布时间：2021-06-30 19:46:10 r reproducible-research 其他开发

使用 tf.set_random_seed 在 Tensorflow 中重现结果

我正在尝试生成 N 组独立随机数.我有一个简单的代码，显示了 3 组 10 个随机数的问题.我注意到即使我使用 tf.set_random_seed 来设置种子，不同运行的结果看起来并不相同.非常感谢任何帮助或评论. (py3p6) bash-3.2$ cat test.py将张量流导入为 tf对于范围内的 i (3):tf.set_random_seed(1234)生成 = tf.random ..

发布时间：2021-06-25 20:09:05 python tensorflow random-seed reproducible-research Python

在插入符号中设置种子平行随机森林以获得可重现的结果

我希望使用 caret 包并行运行随机森林，并且我希望设置可重现结果的种子，如使用 caret 的完全可重现的并行模型.但是，我不明白从插入符号帮助中获取的以下代码中的第 9 行:为什么我们采样 22(加上第 12、23 行中的最后一个模型)整数(评估参数 k 的 12 个值)?有关信息，我希望运行 5 倍 CV 来评估 RF 参数“mtry"的 584 个值.任何帮助深表感谢.谢谢. ## ..

发布时间：2021-06-14 18:52:34 parallel-processing set seed r-caret reproducible-research 其他开发

knitr 模板 - 动态块问题

以下代码是针对我遇到的问题的非常简化的 MRE.我试图避免使用 R 模板包，例如 brew，而只使用 knit_expand() 来实现我的目标.问题有两个方面: 不会解析生成的块(这在我的实际代码中不会发生，但会发生在 MRE 中) 代替 LaTeX \includegraphics，knitr(或 rmarkdown，或 pandoc)生成用于插入的 RMarkdown 语法数字 (! ..

发布时间：2021-06-14 18:39:34 r knitr pandoc r-markdown reproducible-research 其他开发

在 Rmarkdown 的每个部分创建引用

我想使用 Rmarkdown，但我读到的是，在使用 pandoc 创建参考书目时，参考文献位于文档末尾: pandoc/citeproc 问题:多个参考书目、nocite、citeonly 因此，即使我有一个名为 thesis.Rmd 的父文档，我也假设所有引用都将放在该文件的末尾. 我需要每个论文的章节或部分都必须有自己的参考文献，除了在我写的每一章中放置参考书目标题然后单独编 ..

发布时间：2021-06-14 18:38:05 r r-markdown pandoc reproducible-research 其他开发

如何在snakemake工作流程中追溯用于生成结果文件的确切软件版本

说我正在遵循针对文档): 规则名称:输入:"table.txt"输出:"plots/myplot.pdf"康达:"envs/ggplot.yaml"脚本:"scripts/plot-stuff.R"；说 envs/ggplot.yaml 的内容如下: 渠道:-康达伪造依赖项:-r-ggplot2 完成后，ggplot环境将被保存为say(注意，snakemake自动分配的环境名称d2 ..

发布时间：2021-04-23 20:44:23 conda snakemake reproducible-research 其他开发

为什么我的结果仍然无法重现?

我想获得CNN的可重复结果.我将Keras和Google Colab与GPU配合使用. 除了建议插入某些代码段(应具有可重复性)的建议之外，我还向这些层添加了种子. ###### This is the first code snipped to run ##### !pip install -U -q PyDrive from pydrive.auth import GoogleA ..

发布时间：2021-02-14 20:34:48 tensorflow keras conv-neural-network google-colaboratory reproducible-research 其他开发

Julia中已加载/导入的软件包的列表

如何获取Julia会话的已导入/已使用软件包的列表? Pkg.status()列出所有已安装的软件包.我对通过using ...或import ... 导入/加载的那些感兴趣似乎whos()包含相关信息(名称以及是否为模块). whos()的输出可以捕获到变量中吗? 解决方案 using Lazy children(m::Module) = @>> names(m, tru ..

发布时间：2021-02-14 19:14:04 julia reproducible-research 其他开发

简单TensorFlow计算在不同系统(macOS，Colab，Azure)上无法重现

我正在研究macOS机器，Google Colab以及使用Docker在Azure上的TensorFlow中代码的可重复性.我知道我可以设置一个图形级种子和一个操作级种子.我正在使用急切模式(因此没有并行优化)，也没有GPU.我使用单位法线的100x100随机抽取，并计算其均值和标准差. 下面的测试代码验证我是否未使用GPU，我是否正在使用Tensorflow 1.12.0或TensorFl ..

发布时间：2020-11-19 00:06:54 azure tensorflow google-colaboratory reproducible-research 其他开发

Google Colab上的Tensorflow-Keras可再现性问题

我有一个简单的代码可以在Google Colab上运行(我使用CPU模式): import numpy as np import pandas as pd ## LOAD DATASET datatrain = pd.read_csv("gdrive/My Drive/iris_train.csv").values xtrain = datatrain[:,:-1] ytrain = d ..

发布时间：2020-11-19 00:03:57 tensorflow google-colaboratory reproducible-research 其他开发

可复制地将数据分为R中的训练和测试

在R中对数据进行采样/拆分的一种常用方法是对行号使用 sample 。例如： require（data.table） set.seed（1）人口 ..

发布时间：2020-10-11 20:01:12 r cross-validation sampling reproducible-research robustness 其他开发

reproducible-research相关内容