data-extraction - IT屋-程序员软件开发技术分享社区

使用python从文本文件中仅获取XML数据

Don't forget me this weekend! ..

发布时间：2022-07-03 21:51:29 python xml xml-parsing etl data-extraction Python

将名称提取为Python中的名字和姓氏

我有一个文本文件，行如下： Acosta, Christina, M.D. is a heart doctor Alissa Russo, M.D. is a heart doctor 有没有办法换算到以下行： Acosta, Christina, M.D. is a heart doctor 至 Christina Acosta, M.D. is a heart do ..

发布时间：2022-05-15 22:58:18 regex python-3.x spacy data-extraction 其他开发

是否将Google Docs注释与突出显示的文本一起导出到Google Sheet？

有没有办法从Google Docs中导出评论，以便评论显示在Google Sheets文档的一栏中，而Google Docc中突出显示的文本显示在它旁边的一栏中？我知道可以通过API访问文件注释： https://developers.google.com/drive/v3/reference/comments#methods 但我们是否可以使用它来提取文档的注释和突出显示的文 ..

发布时间：2022-05-08 10:55:30 google-apps-script google-sheets google-docs data-extraction 其他开发

PostgreSQL 查询到 Excel 表

我需要将一些数据从 PostgreSQL 导出到 Excel(客户希望快速)，上次 Excel 在打开或导入我的 COPYd csv 文件(行结尾、utf-8 编码等)时遇到严重问题，我花了最多一个小时. 有人知道生成真正 Excel 文件的快速、优雅的解决方案吗?像一个小shell脚本之类的? 我希望在我的 Linux 机器(Debian 5.0 Lenny)或 Windows(XP ..

发布时间：2022-01-24 22:55:40 sql excel postgresql debian data-extraction 其他开发

如何从字符串中提取浮点数

我有许多类似于 Current Level: 13.4 db. 的字符串，我只想提取浮点数.我说浮动而不是十进制，因为它有时是完整的.RegEx 可以这样做还是有更好的方法? 解决方案如果你的浮点数总是用十进制表示法表示 >>>进口重新>>>re.findall("\d+\.\d+", "当前级别:13.4 db.")['13.4'] 可能就足够了. 更强大的版本是: > ..

发布时间：2021-12-02 23:25:47 python regex floating-point data-extraction Python

如何使用 NiFi 从 CSV 文件中提取子集

我有一个包含 100 多列的 csv 文件，我只想提取特定的 60 列作为子集(列名 + 其值).我知道我们可以使用提取文本处理器.谁能告诉我写什么正则表达式?例如，假设从给定的快照中，我只希望 NiFi 提取“BMS_sw_micro"、“BMU_Dbc_Dbg_Micro"、“BMU_Dbc_Fia_Micro"列，即仅提取“F、L、O"列. 非常感谢任何帮助！解决方案查看我 ..

发布时间：2021-11-12 03:52:17 regex etl apache-nifi data-extraction 其他开发

使用 Python 从多个网页中提取日期

我想提取新闻文章在网站上发布的日期.对于某些网站，我有确切的 html 元素，其中日期/时间是 (div, p, time) 但在某些网站上我没有: 这些是一些网站(德国网站)的链接: (2020 年 11 月 3 日)http://www.linden.ch/de/aktuelles/aktuellesinformationen/?action=showinfo&info_id=10 ..

发布时间：2021-09-24 18:57:48 python datetime web-scraping data-extraction Python

通过 Google Playstore 在 R 中抓取网页

我想从 Google Play 商店中抓取我想要的几个应用评论的数据. 姓名字段他们得到了多少星星评论他们写的这是senerio的快照 #加载rvest包图书馆('rvest')#指定要报废的网站的url网址 ..

发布时间：2021-07-14 18:34:06 r web-scraping rvest data-extraction 其他开发

Python - 从字符串解析 IPv4 地址(即使经过审查)

目标:编写 Python 2.7 代码以从字符串中提取 IPv4 地址. 字符串内容示例: 以下是 IP 地址:192.168.1.1、8.8.8.8、101.099.098.000.这些也可以显示为 192.168.1[.]1 或 192.168.1(.)1 或 192.168.1[dot]1 或 192.168.1(dot)1 或 192 .168 .1 .1 或 192.168. ..

发布时间：2021-06-26 19:02:48 python regex python-2.7 ipv4 data-extraction Python

我想在大约 30 000 个 SpatialLines 类对象的 10 公里缓冲区中提取空间数据，并计算缓冲线周围每种土地覆盖类型的比例.我第一次使用函数 crop 来裁剪我的栅格.然后，我使用函数extract(封装栅格)计算了10 种土地覆盖类型的比例.这是我的代码: lapply(1:nrow(tab_lines), FUN=function(k){ 第一步:围绕线路建立10公里的缓冲区 ..

发布时间：2021-06-15 19:32:07 r performance spatial data-extraction r-raster 其他开发

如何从.h5文件中提取数据并将其正确保存到.txt或.csv中?

经过大量搜索后，我找不到一种简单的方法来从 .h5 中提取数据，然后由 Numpy 将其传递给 data.Frame .code>或 Pandas ，以便保存在 .txt 或 .csv 文件中. import h5py将numpy导入为np将熊猫作为pd导入文件名='D:\ data.h5'f = h5py.File(文件名，'r')#列出所有组print(“键:％s"％f.keys())a_ ..

发布时间：2021-05-13 20:51:42 python pandas numpy hdf5 data-extraction Python

如何在谷歌地图中提取图钉的经度/纬度?

我想提取一组Google地图网页中约50-100个图钉的纬度和经度.我不会控制页面，也不需要一次以上的操作，因此我正在寻找快速而又肮脏的东西.我有带 FireBug 的FireFox，还有Chrome，我需要的是比重新输入所有数字更容易的方法. 解决方案只需单击地图上的链接快捷方式即可检索带有图钉的地图URL. 接下来，在此网址的末尾添加& output = kml ，并使用该 ..

发布时间：2021-05-12 20:20:58 google-maps data-extraction 其他开发

如何通过GCS作为json文件将GA360表从Big查询导出到雪花，而不会丢失数据?

我正在使用bq cli命令将GA360表从Big查询导出为雪花，作为json格式.当我将其加载为雪花表时，我丢失了一些字段.我使用copy命令将雪花中的GCS外部阶段的json数据加载到雪花表中.但是，我缺少嵌套数组一部分的某些字段.导出到gcs时，我什至尝试压缩文件，但仍然丢失数据.有人可以建议我该怎么做.我不想在bigquery中弄平表并将其转移.我的每日表格大小最小为1.5GB，最大为4GB ..

发布时间：2021-05-11 20:12:46 json google-analytics google-bigquery snowflake-cloud-data-platform data-extraction 其他开发

来自chess.com的实时统计chess960?

交叉发布的 chess se ，但是什么也没有. > lichess 和Chess.com均具有播放变体但是，我不太喜欢这个问题，就像这样: 我如何获得通知SE是否发了我的问题?->在这里，您可能会争辩说我是在就se本身进行询问，因此应该允许它.我问过chess.com的人，但他们没有回复我，所以我在这里. 何时定价可以通过负概率或其他方法进行套利->我的意思是那个家伙是用勺子 ..

发布时间：2021-05-06 19:56:26 extract chess data-extraction information-extraction lichess 其他开发

如何将PGN中的数据转换/解析/提取为电子表格/Google表格/Excel文件?

此问题的续集:来自chess.com的实时统计chess960? 所以假设我喜欢 https://api.chess.com/pub/player/gmwso/games/2020/12 或 https://api.chess.com/pub/player/gmwso/games/2020/12/pgn 会有很多这样的东西 [UTCDate"2018.01.03" ..

发布时间：2021-05-06 19:55:56 extract chess data-extraction information-extraction lichess 其他开发

python请求429响应.有什么办法可以绕过?

我正在尝试从该网站上抓取数据: https://www.realestate.com.au/find-agent/victoria-park-wa-6100?page=1&source=结果但是当我向该链接发送请求时，它将返回429响应.请任何人都可以帮助我解决这个问题我的代码: 导入请求标头= {'authority':'www.realestate.com.au'，'met ..

发布时间：2021-04-29 18:42:24 python web-scraping python-requests data-mining data-extraction AI人工智能

如何发送带有头和有效负载的Post请求

我正在尝试向Graph API发送发布请求，但我成功了，但是我想在scrapy中发送相同的请求，但是我不知道如何在带有标题和有效负载的scrapy中发送发布请求./p> 这是我的代码导入请求url ='https://www.kickstarter.com/graph'标头= {'authority':'www.kickstarter.com'，'method':'POST'，'路径':'/ ..

发布时间：2021-04-29 18:42:06 python web-scraping scrapy data-mining data-extraction AI人工智能

在恶劣的照明环境下通过衣服的颜色识别人的问题

我对使用真实机器人的人类感兴趣. 我想将衣服的颜色用作关键特征，以识别机器人前面的目标人员来跟随他/她，但由于它的功能很弱，并且照明变化非常简单，因此我感到很痛苦.因此，我需要将此算法更改为另一种算法，或者实时在线更新RGB值，但是我对图像处理的经验不足. 这是我用于颜色检测的完整代码: import cv2 import numpy as np from imutils.video ..

发布时间：2020-11-27 02:50:51 image-processing data-extraction hsv color-tracking 其他开发

如何使用Python将热图图像数字化(从中提取数据)?

有几种软件包可用于对折线图进行数字化处理，例如 GetData图形数字化仪. 但是，对于热图的数字化，我找不到任何程序包或程序. 我想使用Python数字化热图(来自png或jpg格式的图像).怎么做? 我需要从头开始编写整个代码吗? 还是有可用的软件包? 解决方案有多种实现方法，许多机器学习库提供了自定义可视化功能……更加轻松或更困难. 您需要将问题分成两半. ..

发布时间：2020-11-22 21:18:25 python heatmap data-extraction Python

使用ffmpeg提取特定帧的列表

我正在尝试在视频上使用ffmpeg提取特定帧的列表，并以其帧号表示.因此，可以说我只想从"test_video.mp4"中提取一帧，确切地说是帧号150.我可以使用以下命令 ffmpeg -i test_video.mp4 -vf "select=gte(n\, 150)" -vframes 1 ~/test_image.jpg 但是，如果我想精确显示帧列表，例如[100, 110, ..

发布时间：2020-11-04 02:03:47 shell ffmpeg video-processing data-extraction 其他开发

data-extraction相关内容