openrefine相关内容

在OpenRefine中组合第x列到第n列

我有一个具有未知列数的表,并且我需要合并某个点之后的所有列。请考虑以下事项: | A | B | C | D | E | |----|----|---|---|---| | 24 | 25 | 7 | | | | 12 | 3 | 4 | | | | 5 | 5 | 5 | 5 | | A-C列是已知的,并且其中的信息是正确的。但是,D列到N列(从D开始的未 ..
发布时间:2022-05-07 15:30:57 其他开发

OpenRefining:如何使用第一个单元格中的描述值填充空白单元格?

如何使用第一个单元格中的描述值填充空单元格? A列 B列 Col C.&Quot;N; 选项1 A、B、C、D 选项1属性 选项1 选项1属性 选项1 选项1属性 选项1 选项1属性 选项2 C,D,F 选项2属性 选项2 选项2属性 选项2 选项2属性 选项3 D,J,Z 选项3属性 选项3 选项3属性 选项3 选项3属性 变为 A列 B列 Col C.&Q ..
发布时间:2022-03-01 18:32:45 其他开发

使用 refinr 包比较和细化单独列中的字符串

我的很多时间都花在合并关于国家、城市、姓名或政党列的两个数据框上.现在,它是 refinr包,OpenRefine 的 R 端口,派上用场.只是我还没有弄清楚如何比较两个“相同"的列并像我在单个向量上使用 refinr 一样命名字符串.我在 R 方面没有那么丰富的经验,所以这听起来可能有点含糊.也许我的例子让事情更清楚一些. 图书馆(tidyverse)图书馆(精炼)# 我想添加这个例子的值(和 ..
发布时间:2021-08-31 18:44:00 其他开发

以所有可能的组合耦合数据

我在这样的两列中都有数据 Id Value 1 a 2 f 1 c 1 h 2 a 并且我想基于相同的ID(例如, )以所有可能的组合方式对“值"列的数据进行耦合 (a,c) (a,h) (c,h) (f,a) 是否有R或Python或VBA代码可以完成此任务? 解决方案 要使用底数R返回具有这些组合的字符矩阵,请尝试 do.call(rbin ..
发布时间:2020-07-02 03:09:40 Python

替换功能中的特殊字符

GREL替换函数需要3个字符串,或一个字符串,一个正则表达式和一个字符串. 在用于替换的第三个字符串中,某些字符具有特殊的行为:\,\,\ t,\ n,\',\"以及其他一些组合. \不执行任何操作,否则发生错误 \被解释为\ \ t被解释为制表符 \ n被解释为换行 \"被解释为“ \'被解释为' 例如: "abab" .replace('b',"\")->“在偏移量19处解析错误:缺少数 ..
发布时间:2020-07-02 03:08:29 其他开发

OpenRefine-在单元格之间填充,但不在列表末尾

我有一些股票的股价清单.由于周末,节假日和其他可能原因,某些值丢失了. 差距不一致.有的是两天,有的还不止于此. 我想用最后一个已知值填补空白,而不是在列表的末尾. 我已经尝试在Excel中测试下面的一些单元格,如果现在为空,则进行填充.问题是由于间隙的不一致,要在所有情况下更改功能都是一项繁琐的任务. 有没有一种方法可以测试列表的结尾? 更新-添加了屏幕截图. ..
发布时间:2020-07-02 03:08:27 其他开发

OpenRefine:创建列的移位副本

我想知道OpenRefine在创建新列时是否允许您从其他行访问数据.我怀疑不是这样的(这将是一个理智的设计原则),但是围绕它可能会有一些改动. 以下是一个示例:将一列移动一行. 我有下表: ╔═════╦════════╗ ║ row ║ Model ║ ╠═════╬════════╣ ║ 1 ║ Quest ║ ║ 2 ║ DF ║ ║ 3 ║ Waw ..
发布时间:2020-07-02 03:07:23 Python

Openrefine-根据文本将行转置为列

我从图书馆目录中收到了一个数据转储,它以.txt格式显示.我已经能够将数据保存到电子表格中,但是全部都放在一栏中.我将把行换成列. 数据按以下顺序位于这一列中: 标题 文件类型 作者 日期 但是在某些情况下,目录记录按以下顺序显示: 标题 文件类型 概要 作者 日期 因此,我无法根据行数将这些记录转置为列. 每个标题前面都有单词"Description".这是整个数据集中的 ..
发布时间:2020-07-02 03:07:16 其他开发

将列导入现有的OpenRefine项目

如何将外部.csv文件中的列添加到现有项目? 我试图在线查找解决方案,但没有成功. 解决方案 使用您提供的文件,我在不到一分钟的时间内完成了此操作. 我有一个项目,其中只有一列: 如果您了解一点Python,请尝试Jython. 编辑列> 基于此列添加列,并选择 Language:Jython import csv #we are going to use DictRea ..
发布时间:2020-07-02 03:06:12 其他开发

如何在Python中的CSV上执行OpenRefine JSON?

我试图找到一种Python解决方案,该解决方案可以在不打开OpenRefine服务器的情况下以JSON执行以下OpenRefine Python命令. 我的 OpenRefine JSON在任何格式正确的CSV文件的每个字段上均包含映射和自定义Python命令,因此这不是基本的JSON读取. 一个示例OpenRefine JSON代码,其中仅使用正则表达式映射 [ { "op": ..
发布时间:2020-07-02 03:06:08 Python

尝试使用Open Refine GREL解析Json

我正在尝试解析此JSON,但确实找不到提取所需数据的方法. { "results" : [ { "address_components" : [ { "long_name" : "44", "short_name" : "44", "types" : [ "street_number" ] }, { "long_name ..
发布时间:2020-07-02 03:06:04 其他开发

打开优化-将另一个文件添加到现有项目

我已将CSV文件导入到OR(打开优化).由于我拥有的CSV文件包含超过200,000条记录,因此我决定创建单独的文件,因为上传大文件在我的计算机上无法正常工作(时间太长,甚至不确定它是否真的在导入).我能够从单个文件(大)中创建三个.csv文件. 我已经成功导入了每个.csv文件,但是现在我想将这三个.csv文件都导入到OR中的一个项目中.那有可能吗? 解决方案 将这三个文件添加到一 ..
发布时间:2020-07-02 03:06:00 其他开发

Google Refine中的Value.match()正则表达式

我正在尝试从Google Refine的一列中提取数字序列.这是我执行此操作的代码: value.match(/[\d]+/)[0] 我列中的数据格式为 abcababcabc 1234566 abcabcbacdf 结果为“空".我不知道为什么!!如果我尝试使用\w代替\d,则它也为null. 解决方案 OpenRefine不会像某些系统一样(并且可能会期望)在模式的 ..
发布时间:2020-07-02 03:04:52 其他开发

如何在R中执行近似(模糊)名称匹配

我有一个大的数据集,专门用于生物期刊,由不同的人长期编写.因此,数据不是单一格式.例如,在“作者"列中,我可以找到同一个人的约翰·史密斯,史密斯·约翰,史密斯·J等.我什至无法执行最简单的动作.例如,我不知道哪些作者写的文章最多. R中是否有任何方法可以确定不同名称中的大多数符号是否相同,将它们视为相同的元素? 解决方案 有一些可以帮助您解决此问题的软件包,其中一些已在注释中列出.但 ..
发布时间:2020-07-02 03:03:50 其他开发

如何访问OntoRefine的API?

在我们当前的项目中,我们有很多表格形式的数据要转换为RDF. OpenRefine提供了通过API创建项目或更新数据的可能性(请参阅: https://github.com/OpenRefine/OpenRefine/wiki/OpenRefine-API ). 是否可以将此API与OntoRefine一起使用,如果可以,该怎么办?还是我们最好使用OpenRefine? 一年多以前类似 ..
发布时间:2020-06-17 19:02:55 其他开发

使用OpenRefine(或R)解析复杂的大型Json文件的最佳方法

我知道如何在Openfine中解析json单元格,但这对我来说太棘手了. 我已经使用API​​提取了4730个AirBNB房间的日历,这些日历由其ID标识. 以下是一个Json文件的示例:对于从现在到2017年11月的每个ID和一年中的每一天,我想提取该房间的可用性(真或假)及其当日价格. 我不知道如何解析这些信息.我想这意味着一系列嵌套的forEach,但是我找不到使用Open ..
发布时间:2019-11-24 17:16:12 其他开发