xml2 - IT屋-程序员软件开发技术分享社区

R能读懂html编码的表情符号吗？

问题我的问题解释如下：如何使用R来读取包含��这样的HTML表情代码的字符串？我想： (1)在解析后的字符串中表示表情符号(例如，作为Unicode符号：🤗)，或 (2)将其转换为对应的文本(“:hugging face:”) 背景我有一个文本消息的XML数据集(来自Android/iOS应用程序Signal)，我正在为一个文本挖 ..

发布时间：2022-09-21 19:18:15 r xml emoji html-encode xml2 其他开发

名称不符合XML命名空间

我正在尝试阅读此网站上的表格： http://spacefem.com/pregnant/due.php?use=EDD&m=09&d=10&y=16 我使用rvest，但很快就收到错误： library(rvest) read_html("http://spacefem.com/pregnant/due.php?use=EDD&m=09&d=10&y=16") 错误：名称扰 ..

发布时间：2022-09-02 18:04:20 r rvest xml2 其他开发

R rvest错误：DOC_NAMESPACE(DOC)中出错：外部指针无效&Quot；

我的问题类似于this one，但后者没有收到我可以处理的答案。我正在用xml2::read_html抓取数千个URL。这个很好用。但是，当我尝试使用purrr::map_df和html_nodes解析得到的html文档时，我得到以下错误： Error in doc_namespaces(doc) : external pointer is not valid 由于某些原因，我无法使用示 ..

发布时间：2022-06-09 12:41:23 r error-handling rvest purrr xml2 其他开发

将大型复杂的 XML 文件解析为 data.frame

所以，我有包含大量报告的大型 XML 文件.我在下面创建了数据示例以大致显示 xml 的大小及其结构: x ..

发布时间：2022-01-10 20:39:06 r xml performance xml-parsing xml2 其他开发

我有一个需求，将一个xml文档拆分成多个节点；然后将每个节点分别拆分为更多的子节点.我在 XML 包中使用 xpathSApply/getNodeSet 函数.但似乎一旦 xml 文档被拆分为节点，每个节点现在都被视为类“内部节点"，因此除非我们使用 saveXML() 将其保存为 xml，否则无法对其执行 spath 操作.关于如何在无需执行 SAVEXML 的情况下解决此问题的任何想法?例如， ..

发布时间：2021-10-02 19:47:30 r xml xpath xml2 其他开发

为什么是“链接"?比“//link"快在 XPath 中?

鉴于此 XML，库(xml2)文本 = paste0('',粘贴(代表('', 100),折叠 = "\n"),'')x = xml_children(read_xml(text)) 我可以使用 "link" 或 "//link" 选择所有链接节点 ..

发布时间：2021-10-01 20:41:05 r xml xpath xml2 其他开发

xml2 包 (R) 中的 xml_find_all 函数未找到相关节点

我在 R 中使用 xml2 包来访问 xml 数据，发现它在不同的 xml_documents 上表现不同. 关于这个宠物的例子库(xml2)doc ..

发布时间：2021-10-01 20:11:50 r xml xml2 其他开发

安装 xml2 R 包时的错误信息

在我的 Windows 机器上更新到 R 4.0.0 后，我无法安装一些软件包，例如 xml2(foreign 和 nnet 也是如此).当我尝试安装时收到此错误消息: * 安装 *source* 包 'foreign' ...** 包 'foreign' 成功解包并检查 MD5 总和** 使用分阶段安装** 库*** 拱门 - i386"c:/rtools40/mingw32/bin/"gcc ..

发布时间：2021-09-07 19:34:41 r tidyverse failed-installation xml2 r-4.0 其他开发

页面项目不能用 rvest 抓取

我正在使用 R 进行网络抓取，最近一直在做一些练习.我目前正在浏览本地 ebay 列表，在那里我能够抓取有关单个列表的文本信息.但是，我尝试了不同的选项来减少列表的查看次数.但没有什么能告诉我页面上显示的数字. 页面链接是这个 https://www.ebay-kleinanzeigen.de/s-anzeige/zahnpflege-fuer-hunde-und-katzen-ext ..

发布时间：2021-07-14 18:39:40 web-scraping rvest xml2 其他开发

在 R 中的高尔夫网站上抓取排行榜表

PGA 巡回赛的网站有一个排行榜页面页面，我正在尝试抓取主要内容项目网站上的表格. 库(dplyr)leaderboard_table %html_nodes('table') %>%html_table() 然而，它不是拉表，而是返回这个奇怪的输出...... ..

发布时间：2021-07-14 18:33:32 r selenium rvest xml2 其他开发

高效地将 XML 转换为数据框

我需要将一些 vanilla xml 转换为数据框.XML 是矩形数据的简单表示(参见下面的示例).我可以在 R 中使用 xml2 和几个 for 循环非常简单地实现这一点.但是，我确定有更好/更快的方法(purrr?).我最终将使用的 XML 非常大，因此更有效的方法是首选.我将不胜感激来自社区的任何建议. library(tidyverse)图书馆(xml2)demo_xml ..

发布时间：2021-06-23 19:10:46 r xml purrr xml2 其他开发

如何获取某个类之前的HTML元素?

我正在抓取并遇到麻烦，使"th"标记的元素出现在另一个包含"type2"类的"th"元素之前.我更喜欢通过在类"type2"的"th"之前确定它是"th"元素，因为我的HTML有很多"th"，这是我在表之间发现的唯一区别. 使用rvest或xml2(或其他R包)，我可以得到这个父对象吗?我想要的内容是"text_that_I_want". 谢谢！ ..

发布时间：2021-05-14 20:28:50 html r web-scraping rvest xml2 前端开发

对于不接受向量的函数，我该怎么办?错误:`x`必须是长度为1的字符串

我正在尝试使用xml2包来读取许多播客feed.我希望能够计算一系列播客中每个播客持续时间的第75个百分位数，以及许多类似的指标(例如，插播频率).我经常使用data.table.我想继续使用它.每次我调用read_xml参数以读取列中的url时，都会出现此错误: 错误:`x`必须是长度为1的字符串如果我只处理一行，那会达到目的. 让我给你一个简单的例子.这只是我的统计播客列表，但在 ..

发布时间：2021-04-28 19:44:42 r xml data.table podcast xml2 其他开发

R中的xml2:从父级提取子级属性(所有名称都相同)

我有以下xml，其中节点可以具有相同的名称，但它们的属性可能不同. ..

发布时间：2020-07-15 02:32:14 r xml2 其他开发

R中的短xPath与RSelenium一起使用

在页面上将xc的findElement()和findElement()一起使用时，我遇到问题元素的xPath表达式很长，即该元素嵌套很深(我将firefox用于远程驱动程序).如果我使用从中获取的简短xPath表达式，则findElement()在页面上可以正常工作检查元素，例如在Google Chrome浏览器中.但是，在R中(据我所知)，我只能使用例如xml_path()从程序包xml2中检索 ..

发布时间：2020-07-15 02:32:10 r rselenium xml2 其他开发

在R中进行Web抓取，"...在当前工作目录中不存在"错误

我正在尝试使用XML2包从ESPN.com抓取一些表.举个例子，我想将第7周的幻想四分卫排名拖入R，URL为: http://www.espn.com/fantasy/football/story/_/page/16ranksWeek7QB/fantasy-football-week-7-quarterback-rankings 我正在尝试使用"read_html()"函数执行此操作， ..

发布时间：2020-07-15 02:32:06 r web-scraping xml2 其他开发

将大型XML解析为R中的数据框

我有大型XML文件，我想将其转换为数据框，以便在R和其他程序中进行进一步处理.这些都是在macOS中完成的. 每个月的XML大小约为1gb，有15万条记录和191个不同的变量.最后，我可能不需要全部191个变量，但我想保留它们并稍后决定. 可以在此处访问XML文件(滚动到每月拉链的底部，如果未压缩，则应查看"dming" XML) 我已经取得了一些进步，但是处理较大文件的时间太长 ..

发布时间：2020-07-15 02:32:04 r xml xml2 其他开发

向文本元素添加空格

有没有一种方法可以将空格添加到每个包含文本的元素中? 对于此示例: movie % html_structure() [[1]] ..

发布时间：2020-07-15 02:31:02 r rvest xml2 其他开发

如何使用默认的Web代理设置在R中配置curl程序包?

我在商业环境中使用R，外部连接全部通过Web代理进行，因此我们需要指定代理服务器地址，并确保使用Windows身份验证连接到该服务器. 我已经有一些代码，可以将RCurl和httr软件包配置为默认使用这些设置-即 httr::set_config(config( proxy = "my.proxy.address", proxyuserpwd = ":", proxya ..

发布时间：2020-07-15 02:31:00 r curl http-proxy xml2 其他开发

为什么xpath再次找到排除的节点?

考虑此页面: 1 bold 2 如果我首先使用class="a"选择第一个n1，则应该排除第二个n1，的确如此: library(rvest) b_nodes = read_html('1 bold ..

发布时间：2020-07-15 02:30:58 r xpath rvest xml2 其他开发

xml2相关内容