domxpath相关内容

无法从网站抓取内容

我试图从网站上删除一些内容,但下面的代码不起作用(未显示任何输出).这是代码 $url="some url";$otherHeaders="";//这里我使用了其他一些标题,如内容类型、用户代理等一些卷曲来获取网页.....curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);$content=curl_exec($ch);curl_close($ch);$page ..
发布时间:2021-12-17 13:40:34 PHP

带有 DOMXpath 查询/评估的太长 xpath 不返回任何内容

我正在使用 PHP 来检索给定 URL 和 XPATH 的内容.我使用 DOMDocument/DOMXPath(带有查询或评估). 对于小 xpath,我得到了正确的结果,但对于较长的 xpath,它不起作用.(这个 xpath 看起来不错(我用 Xpather(firefox 插件)获得它们并用 YQL 重新测试它们). 你对这个奇怪的问题有什么建议吗? 代码示例: $do ..
发布时间:2021-10-02 19:46:35 PHP

DOMXpath |选择最里面的div

我正在寻找一种用 PHP 选择最内层 div 的方法 例如: —— —— 将在 NodeList 中选择包含 - 的 DIV 我使用 DOMDocument 和 DOMXpath 来抛出 html、这里和我的方法之一的示例,以便您可以看到我的类的创建方式. 公共函数getkeywords(){foreach($this->Xpath ..
发布时间:2021-10-02 19:36:17 PHP

xpath:使用 xpath 从节点中提取数据

我只想提取销售排名(在本例中为 5) 亚马逊畅销书排名: #5书籍(见图书前 100 名) 来自网页:http://www.amazon.com/Mockingjay-Hunger-Games-Book-3/dp/0439023513/ref=tmm_hrd_title_0 到目前为止,我已经解决了这个问题,它选择了“Amazon Best Sellers Rank:": // ..
发布时间:2021-10-02 19:34:59 PHP

从部分获取完整的 XPath

我在 perl 中使用 selenium 并在页面上有标签,要访问此标签,我有以下 xpath://*[text()='some here'] ,需要的问题要获得此元素的完整 xpath,例如 /html/body/table/tr/..../any other/and other/ ,是否有任何 selenium 方法或 perl 函数?寻找 perl 解决方案或任何其他有效的东西. 谢谢 ..
发布时间:2021-10-02 19:32:55 其他开发

Xpath php 获取链接

我正在使用此示例从网站获取链接: http://www.merchantos.com/makebeta/php/scraping-links-with-php/ $xpath = new DOMXPath($dom);$hrefs = $xpath->evaluate("/html/body//a");for ($i = 0; $i length; $i++) {$href = $href ..
发布时间:2021-10-02 19:26:58 PHP

在 XPath 中使用 OR 运算符

我在 XPath 表达式中使用 OR 运算符(不止一次)以在遇到特定字符串之前提取我需要的内容,例如“参考"、“更多信息"等.这些术语应该返回相同的结果,但它们的顺序可能不同.例如,“参考"可能不是第一个,也可能根本不在内容中,其中一个匹配项使用了“关于数据"表.在这些字符串中的任何一个出现之前,我想要所有内容. 任何帮助将不胜感激. $expression ="//p[开始(标准化空间( ..
发布时间:2021-10-02 18:45:05 PHP

具有DOMDocument的DomXPath以获取< img>类别网址

我正在编写一个小的抓取脚本,该脚本将查找具有特定类名的图像URL。我知道我的cURL和DOMDocument可以正常运行,甚至DomXPath都可以正常运行(据我所知,没有错误),但是我正在努力研究如何获取xpath查询结果的URL。 到目前为止我的代码: $ dom = new DOMDocument(); @ $ dom-> loadHTML($ x); $ xpat ..
发布时间:2020-10-25 22:06:50 PHP

表中的Xpath表

我在用DOMXpath刮擦大量表格的页面时遇到了一个问题。 布局确实很丑陋,这意味着我试图从表格中获取内容表格中的表格。 使用Firebug FirePath我正在为table元素获取以下路径: html / body / table / tbody / tr [3] / td / table [1] / tbody / tr [2] / td [1] / table [1] / ..
发布时间:2020-10-25 22:05:40 PHP

省略DOMXPath对象值

我读了很多stackoverflow问题,我正在使用此代码,但是我不知道为什么这行不通。 这是代码。 $ url ='http://m.cricbuzz.com/cricket-schedule'; $ source = file_get_contents($ url); $ doc =新的DOMDocument; @ $ doc-> loadHTML($ sourc ..
发布时间:2020-10-25 21:50:59 PHP

似乎没有从DOMNodeList中删除DOMElement

请帮忙! 需要删除从 DOMNodeList $ myDivs 中的第一个元素,但实际删除没有发生-元素保留。 $ dom = new DOMDocument(); $ dom-> loadHTML($ file); $ xpath =新的DOMXPath($ dom); $ myDivs = $ xpath-> query(’// div [@ data-name | ..
发布时间:2020-10-25 21:50:41 PHP

用文本替换HTML中的所有图像

我正在尝试用适当的文本替换某些HTML中满足特定要求的所有图像。具体要求是它们属于“ replaceMe”类,图像src文件名位于$ myArray中。在寻找解决方案时,似乎某种PHP DOM技术是合适的,但是,我对此很陌生。例如,给定$ html,我希望返回$ desired_html。这篇文章的底部是我尝试的实施,目前无法正常运行。谢谢 $ myArray = array( 'good ..
发布时间:2020-10-25 21:48:11 PHP

PHP + Wikipedia:从Wikipedia文章的第一段中获取内容?

我正在尝试使用Wikipedia的API(api.php)来获取由链接提供的Wikipedia文章的内容(例如: http://en.wikipedia.org/wiki/Stackoverflow )。 我想要的是获得第一段(在Stackoverflow Wiki文章的示例中为: Stack Overflow是Stack Exchange网络[2] [3]的网站部分,具有问题和解答[4] [5 ..
发布时间:2020-10-25 21:37:54 其他开发

具有默认名称空间绑定的XML上的PHP xpath查询

我对这个问题有一个解决方案,但这是一个hack,我想知道是否有更好的方法可以做到这一点. 下面是一个示例XML文件和一个PHP CLI脚本,该脚本执行作为参数给出的xpath查询.对于此测试用例,命令行为: ./xpeg "//MainType[@ID=123]" 最奇怪的是这条线,没有这条线我的方法将行不通: $result->loadXML($result->saveXM ..
发布时间:2020-07-03 08:48:48 PHP

长时间的命令行处理过程中DOMDocument/Xpath会泄漏内存-可以通过任何方式解构此类

我正在构建一个使用XPath来分析HTML的命令行php抓取应用程序-问题是,每次在循环中加载新的DOMXPath类实例时,我得到的内存损失大约等于正在加载XML.该脚本会不断运行,逐渐增加内存使用量,直到达到极限并退出. 我尝试使用 gc_collect_cycles() 强制进行垃圾回收,并且PHP仍然无法从旧版本中回收内存Xpath请求.确实,DOMXPath类的定义似乎甚至没有包含析 ..
发布时间:2020-07-03 02:25:06 PHP