xml2相关内容

R能读懂html编码的表情符号吗?

问题 我的问题解释如下: 如何使用R来读取包含��这样的HTML表情代码的字符串? 我想: (1)在解析后的字符串中表示表情符号(例如,作为Unicode符号:🤗),或 (2)将其转换为对应的文本(“:hugging face:”) 背景 我有一个文本消息的XML数据集(来自Android/iOS应用程序Signal),我正在为一个文本挖 ..
发布时间:2022-09-21 19:18:15 其他开发

名称不符合XML命名空间

我正在尝试阅读此网站上的表格: http://spacefem.com/pregnant/due.php?use=EDD&m=09&d=10&y=16 我使用rvest,但很快就收到错误: library(rvest) read_html("http://spacefem.com/pregnant/due.php?use=EDD&m=09&d=10&y=16") 错误:名称扰 ..
发布时间:2022-09-02 18:04:20 其他开发

R rvest错误:DOC_NAMESPACE(DOC)中出错:外部指针无效&Quot;

我的问题类似于this one,但后者没有收到我可以处理的答案。我正在用xml2::read_html抓取数千个URL。这个很好用。但是,当我尝试使用purrr::map_df和html_nodes解析得到的html文档时,我得到以下错误: Error in doc_namespaces(doc) : external pointer is not valid 由于某些原因,我无法使用示 ..
发布时间:2022-06-09 12:41:23 其他开发

如何遍历R中的xml节点

我有一个需求,将一个xml文档拆分成多个节点;然后将每个节点分别拆分为更多的子节点.我在 XML 包中使用 xpathSApply/getNodeSet 函数.但似乎一旦 xml 文档被拆分为节点,每个节点现在都被视为类“内部节点",因此除非我们使用 saveXML() 将其保存为 xml,否则无法对其执行 spath 操作.关于如何在无需执行 SAVEXML 的情况下解决此问题的任何想法?例如, ..
发布时间:2021-10-02 19:47:30 其他开发

安装 xml2 R 包时的错误信息

在我的 Windows 机器上更新到 R 4.0.0 后,我无法安装一些软件包,例如 xml2(foreign 和 nnet 也是如此).当我尝试安装时收到此错误消息: * 安装 *source* 包 'foreign' ...** 包 'foreign' 成功解包并检查 MD5 总和** 使用分阶段安装** 库*** 拱门 - i386"c:/rtools40/mingw32/bin/"gcc ..
发布时间:2021-09-07 19:34:41 其他开发

页面项目不能用 rvest 抓取

我正在使用 R 进行网络抓取,最近一直在做一些练习.我目前正在浏览本地 ebay 列表,在那里我能够抓取有关单个列表的文本信息.但是,我尝试了不同的选项来减少列表的查看次数.但没有什么能告诉我页面上显示的数字. 页面链接是这个 https://www.ebay-kleinanzeigen.de/s-anzeige/zahnpflege-fuer-hunde-und-katzen-ext ..
发布时间:2021-07-14 18:39:40 其他开发

高效地将 XML 转换为数据框

我需要将一些 vanilla xml 转换为数据框.XML 是矩形数据的简单表示(参见下面的示例).我可以在 R 中使用 xml2 和几个 for 循环非常简单地实现这一点.但是,我确定有更好/更快的方法(purrr?).我最终将使用的 XML 非常大,因此更有效的方法是首选.我将不胜感激来自社区的任何建议. library(tidyverse)图书馆(xml2)demo_xml ..
发布时间:2021-06-23 19:10:46 其他开发

如何获取某个类之前的HTML元素?

我正在抓取并遇到麻烦,使"th"标记的元素出现在另一个包含"type2"类的"th"元素之前.我更喜欢通过在类"type2"的"th"之前确定它是"th"元素,因为我的HTML有很多"th",这是我在表之间发现的唯一区别. 使用rvest或xml2(或其他R包),我可以得到这个父对象吗?我想要的内容是"text_that_I_want". 谢谢! ..
发布时间:2021-05-14 20:28:50 前端开发

对于不接受向量的函数,我该怎么办?错误:`x`必须是长度为1的字符串

我正在尝试使用xml2包来读取许多播客feed.我希望能够计算一系列播客中每个播客持续时间的第75个百分位数,以及许多类似的指标(例如,插播频率).我经常使用data.table.我想继续使用它.每次我调用read_xml参数以读取列中的url时,都会出现此错误: 错误:`x`必须是长度为1的字符串 如果我只处理一行,那会达到目的. 让我给你一个简单的例子.这只是我的统计播客列表,但在 ..
发布时间:2021-04-28 19:44:42 其他开发

R中的短xPath与RSelenium一起使用

在页面上将xc的findElement()和findElement()一起使用时,我遇到问题元素的xPath表达式很长,即该元素嵌套很深(我将firefox用于远程驱动程序).如果我使用从中获取的简短xPath表达式,则findElement()在页面上可以正常工作检查元素,例如在Google Chrome浏览器中.但是,在R中(据我所知),我只能使用例如xml_path()从程序包xml2中检索 ..
发布时间:2020-07-15 02:32:10 其他开发

将大型XML解析为R中的数据框

我有大型XML文件,我想将其转换为数据框,以便在R和其他程序中进行进一步处理.这些都是在macOS中完成的. 每个月的XML大小约为1gb,有15万条记录和191个不同的变量.最后,我可能不需要全部191个变量,但我想保留它们并稍后决定. 可以在此处访问XML文件(滚动到每月拉链的底部,如果未压缩,则应查看"dming" XML) 我已经取得了一些进步,但是处理较大文件的时间太长 ..
发布时间:2020-07-15 02:32:04 其他开发

如何使用默认的Web代理设置在R中配置curl程序包?

我在商业环境中使用R,外部连接全部通过Web代理进行,因此我们需要指定代理服务器地址,并确保使用Windows身份验证连接到该服务器. 我已经有一些代码,可以将RCurl和httr软件包配置为默认使用这些设置-即 httr::set_config(config( proxy = "my.proxy.address", proxyuserpwd = ":", proxya ..
发布时间:2020-07-15 02:31:00 其他开发