openrefine - IT屋-程序员软件开发技术分享社区

在OpenRefine中组合第x列到第n列

我有一个具有未知列数的表，并且我需要合并某个点之后的所有列。请考虑以下事项： | A | B | C | D | E | |----|----|---|---|---| | 24 | 25 | 7 | | | | 12 | 3 | 4 | | | | 5 | 5 | 5 | 5 | | A-C列是已知的，并且其中的信息是正确的。但是，D列到N列(从D开始的未 ..

发布时间：2022-05-07 15:30:57 data-manipulation openrefine 其他开发

OpenRefining：如何使用第一个单元格中的描述值填充空白单元格？

如何使用第一个单元格中的描述值填充空单元格？ A列 B列 Col C.&Quot；N；选项1 A、B、C、D 选项1属性选项1 选项1属性选项1 选项1属性选项1 选项1属性选项2 C，D，F 选项2属性选项2 选项2属性选项2 选项2属性选项3 D，J，Z 选项3属性选项3 选项3属性选项3 选项3属性变为 A列 B列 Col C.&Q ..

发布时间：2022-03-01 18:32:45 excel bigdata data-cleaning openrefine 其他开发

我的很多时间都花在合并关于国家、城市、姓名或政党列的两个数据框上.现在，它是 refinr包，OpenRefine 的 R 端口，派上用场.只是我还没有弄清楚如何比较两个“相同"的列并像我在单个向量上使用 refinr 一样命名字符串.我在 R 方面没有那么丰富的经验，所以这听起来可能有点含糊.也许我的例子让事情更清楚一些. 图书馆(tidyverse)图书馆(精炼)# 我想添加这个例子的值(和 ..

发布时间：2021-08-31 18:44:00 r string-matching openrefine 其他开发

以所有可能的组合耦合数据

我在这样的两列中都有数据 Id Value 1 a 2 f 1 c 1 h 2 a 并且我想基于相同的ID(例如， )以所有可能的组合方式对“值"列的数据进行耦合 (a,c) (a,h) (c,h) (f,a) 是否有R或Python或VBA代码可以完成此任务? 解决方案要使用底数R返回具有这些组合的字符矩阵，请尝试 do.call(rbin ..

发布时间：2020-07-02 03:09:40 python r vba python-3.x openrefine Python

在正则表达式和Openrefine中具有/n匹配的文本

我正在尝试过滤开放精简中具有new lines的文本. 输入为: Them Spanish girls love me like I'm Aventura I'm the man, y'all don't get it, do ya? Type of money, everybody acting like they knew ya Go Uptown, New York City, ..

发布时间：2020-07-02 03:08:36 regex excel openrefine 其他开发

在单元格中从逗号分隔的列表中删除重复的字符串

我正在使用Google表格，这超出了我的简单脚本编写的范围. 我有许多包含逗号分隔值的单元格； AA, BB, CC, BBB, CCC, CCCCC, AA, BBB, BB BB, ZZ, ZZ, AA, BB, CC, BBB, CCC, CCCCC, AA, BBB, BB 我想返回: AA, BB, CC, BBB, CCC, CCCCC etc. BB, ZZ ..

发布时间：2020-07-02 03:08:33 google-sheets duplicates openrefine 其他开发

替换功能中的特殊字符

GREL替换函数需要3个字符串，或一个字符串，一个正则表达式和一个字符串. 在用于替换的第三个字符串中，某些字符具有特殊的行为:\，\，\ t，\ n，\'，\"以及其他一些组合. \不执行任何操作，否则发生错误 \被解释为\ \ t被解释为制表符 \ n被解释为换行 \"被解释为“ \'被解释为' 例如: "abab" .replace('b'，"\")->“在偏移量19处解析错误:缺少数 ..

发布时间：2020-07-02 03:08:29 openrefine 其他开发

OpenRefine-在单元格之间填充，但不在列表末尾

我有一些股票的股价清单.由于周末，节假日和其他可能原因，某些值丢失了. 差距不一致.有的是两天，有的还不止于此. 我想用最后一个已知值填补空白，而不是在列表的末尾. 我已经尝试在Excel中测试下面的一些单元格，如果现在为空，则进行填充.问题是由于间隙的不一致，要在所有情况下更改功能都是一项繁琐的任务. 有没有一种方法可以测试列表的结尾? 更新-添加了屏幕截图. ..

发布时间：2020-07-02 03:08:27 openrefine 其他开发

OpenRefine:创建列的移位副本

我想知道OpenRefine在创建新列时是否允许您从其他行访问数据.我怀疑不是这样的(这将是一个理智的设计原则)，但是围绕它可能会有一些改动. 以下是一个示例:将一列移动一行. 我有下表: ╔═════╦════════╗ ║ row ║ Model ║ ╠═════╬════════╣ ║ 1 ║ Quest ║ ║ 2 ║ DF ║ ║ 3 ║ Waw ..

发布时间：2020-07-02 03:07:23 python openrefine grel Python

OpenRefine在直接运行可执行文件时更改端口和主机

finefine.ini允许设置端口和主机，而无需重新构建，但是它显示以下内容: # NOTE: This file is not read if you run the Refine executable directly # It is only read of you use the refine shell script or refine.bat 从我的有限观察中，我注意到 ..

发布时间：2020-07-02 03:07:20 openrefine 其他开发

Openrefine-根据文本将行转置为列

我从图书馆目录中收到了一个数据转储，它以.txt格式显示.我已经能够将数据保存到电子表格中，但是全部都放在一栏中.我将把行换成列. 数据按以下顺序位于这一列中: 标题文件类型作者日期但是在某些情况下，目录记录按以下顺序显示: 标题文件类型概要作者日期因此，我无法根据行数将这些记录转置为列. 每个标题前面都有单词"Description".这是整个数据集中的 ..

发布时间：2020-07-02 03:07:16 openrefine 其他开发

将列导入现有的OpenRefine项目

如何将外部.csv文件中的列添加到现有项目? 我试图在线查找解决方案，但没有成功. 解决方案使用您提供的文件，我在不到一分钟的时间内完成了此操作. 我有一个项目，其中只有一列: 如果您了解一点Python，请尝试Jython. 编辑列> 基于此列添加列，并选择 Language:Jython import csv #we are going to use DictRea ..

发布时间：2020-07-02 03:06:12 openrefine import-from-csv 其他开发

如何在Python中的CSV上执行OpenRefine JSON?

我试图找到一种Python解决方案，该解决方案可以在不打开OpenRefine服务器的情况下以JSON执行以下OpenRefine Python命令. 我的 OpenRefine JSON在任何格式正确的CSV文件的每个字段上均包含映射和自定义Python命令，因此这不是基本的JSON读取. 一个示例OpenRefine JSON代码，其中仅使用正则表达式映射 [ { "op": ..

发布时间：2020-07-02 03:06:08 python json csv openrefine Python

尝试使用Open Refine GREL解析Json

我正在尝试解析此JSON，但确实找不到提取所需数据的方法. { "results" : [ { "address_components" : [ { "long_name" : "44", "short_name" : "44", "types" : [ "street_number" ] }, { "long_name ..

发布时间：2020-07-02 03:06:04 openrefine 其他开发

打开优化-将另一个文件添加到现有项目

我已将CSV文件导入到OR(打开优化).由于我拥有的CSV文件包含超过200,000条记录，因此我决定创建单独的文件，因为上传大文件在我的计算机上无法正常工作(时间太长，甚至不确定它是否真的在导入).我能够从单个文件(大)中创建三个.csv文件. 我已经成功导入了每个.csv文件，但是现在我想将这三个.csv文件都导入到OR中的一个项目中.那有可能吗? 解决方案将这三个文件添加到一 ..

发布时间：2020-07-02 03:06:00 csv openrefine 其他开发

Google Refine中的Value.match()正则表达式

我正在尝试从Google Refine的一列中提取数字序列.这是我执行此操作的代码: value.match(/[\d]+/)[0] 我列中的数据格式为 abcababcabc 1234566 abcabcbacdf 结果为“空".我不知道为什么！！如果我尝试使用\w代替\d，则它也为null. 解决方案 OpenRefine不会像某些系统一样(并且可能会期望)在模式的 ..

发布时间：2020-07-02 03:04:52 regex openrefine 其他开发

如何在R中执行近似(模糊)名称匹配

我有一个大的数据集，专门用于生物期刊，由不同的人长期编写.因此，数据不是单一格式.例如，在“作者"列中，我可以找到同一个人的约翰·史密斯，史密斯·约翰，史密斯·J等.我什至无法执行最简单的动作.例如，我不知道哪些作者写的文章最多. R中是否有任何方法可以确定不同名称中的大多数符号是否相同，将它们视为相同的元素? 解决方案有一些可以帮助您解决此问题的软件包，其中一些已在注释中列出.但 ..

发布时间：2020-07-02 03:03:50 r analytics openrefine 其他开发

如何在OpenRefine中合并行

如何根据某些ID字段合并行? Original Table New Table ID | Field1 | Field2 ID | Field1 | Field2 -----|------- |-------- -------|--------|------- A 5 ..

发布时间：2020-07-02 03:03:46 openrefine grel 其他开发

如何访问OntoRefine的API?

在我们当前的项目中，我们有很多表格形式的数据要转换为RDF. OpenRefine提供了通过API创建项目或更新数据的可能性(请参阅: https://github.com/OpenRefine/OpenRefine/wiki/OpenRefine-API ). 是否可以将此API与OntoRefine一起使用，如果可以，该怎么办?还是我们最好使用OpenRefine? 一年多以前类似 ..

发布时间：2020-06-17 19:02:55 openrefine graphdb 其他开发

使用OpenRefine(或R)解析复杂的大型Json文件的最佳方法

我知道如何在Openfine中解析json单元格，但这对我来说太棘手了. 我已经使用API提取了4730个AirBNB房间的日历，这些日历由其ID标识. 以下是一个Json文件的示例:对于从现在到2017年11月的每个ID和一年中的每一天，我想提取该房间的可用性(真或假)及其当日价格. 我不知道如何解析这些信息.我想这意味着一系列嵌套的forEach，但是我找不到使用Open ..

发布时间：2019-11-24 17:16:12 json r openrefine 其他开发

openrefine相关内容