Java - 读取 XML 并留下所有实体 [英] Java - Read XML and leave all entities alone

查看：79 发布时间：2021/7/15 18:33:05 java xml sax entities stax

本文介绍了Java - 读取 XML 并留下所有实体的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我想使用 SAX 或 StAX 读取 XHTML 文件，无论哪种效果最好.但我不希望实体被解析、替换或类似的事情.理想情况下，它们应该保持原样.我不想使用 DTD.

I want to read XHTML files using SAX or StAX, whatever works best. But I don't want entities to be resolved, replaced or anything like that. Ideally they should just remain as they are. I don't want to use DTDs.

这是一个(可执行文件，使用 Scala 2.8.x)示例:

Here's an (executable, using Scala 2.8.x) example:

import javax.xml.stream._
import javax.xml.stream.events._
import java.io._

println("StAX Test - "+args(0)+"\n")
val factory = XMLInputFactory.newInstance
factory.setProperty(XMLInputFactory.SUPPORT_DTD, false)
factory.setProperty(XMLInputFactory.IS_REPLACING_ENTITY_REFERENCES, false)

println("------")
val xer = factory.createXMLEventReader(new FileReader(args(0)))
val entities = new collection.mutable.ArrayBuffer[String]
while (xer.hasNext) {
    val event = xer.nextEvent
    if (event.isCharacters) {
        print(event.asCharacters.getData)
    } else if (event.getEventType == XMLStreamConstants.ENTITY_REFERENCE) {
        entities += event.asInstanceOf[EntityReference].getName
    }
}
println("------")
println("Entities: " + entities.mkString(", "))

给定以下 xhtml 文件...

Given the following xhtml file ...

<html>
    <head>
        <title>StAX Test</title>
    </head>
    <body>
        <h1>Hallo StAX</h1>
        <p id="html">
            &lt;div class=&quot;header&quot;&gt;
        </p>
        <p id="stuff">
            &Uuml;berdies sollte das hier auch als Copyright sichtbar sein: &#169;
        </p>
        Das war's!
    </body>
</html>

... 运行 scala stax-test.scala stax-test.xhtml 将导致:

... running scala stax-test.scala stax-test.xhtml will result in:

StAX Test - stax-test.xhtml

------


    StAX Test


    Hallo StAX

      <div class="header">


      berdies sollte das hier auch als Copyright sichtbar sein: ?

    Das war's!

------
Entities: Uuml

因此，所有实体或多或少都已成功替换.不过，我所期望的和我想要的是:

So all entities have been replaced more or less sucessfully. What I would have expected and what I want is this, though:

StAX Test - stax-test.xhtml

------


    StAX Test


    Hallo StAX

      &lt;div class=&quot;header&quot;&gt;


      &Uuml;berdies sollte das hier auch als Copyright sichtbar sein: &#169;

    Das war's!

------
Entities: // well, or no entities above and instead:
// Entities: lt, quot, quot, gt, Uuml, #169

这甚至可能吗?我想解析 XHTML，做一些修改，然后再次将它输出为 XHTML.所以我真的希望实体保留在结果中.

Is this even possible? I want to parse XHTML, do some modifications and then output it like that as XHTML again. So I really want the entities to remain in the result.

我也不明白为什么 Uuml 被报告为 EntityReference 事件，而其余的则不是.

Also I don't get why Uuml is reported as an EntityReference event while the rest aren't.

Java - 读取 XML 并留下所有实体 [英] Java - Read XML and leave all entities alone

问题描述

推荐答案

相关文章

Java开发最新文章

热门教程

热门工具

登录关闭

Java - 读取 XML 并留下所有实体 [英] Java - Read XML and leave all entities alone

问题描述

推荐答案

相关文章

Java开发最新文章

热门教程

热门工具

登录 关闭

登录关闭