解析\加载非常大的 xml 文件时出现内存错误 [英] memory error while parsing\loading very large xml file
问题描述
我在一个 xml 文件中有一个大型数据库,我需要处理其中的数据(使用 python).
我尝试使用 xml.dom.minidom
和(在另一个脚本中)xml.etree.ElementTree
和 xml
库解析它然后逐个标签获取深度标签,直到标签
,然后遍历我需要的标签(
)以检索相关数据.>
我的问题是文件非常大 (217 MB),我无法解析或加载它.我不断收到内存错误,甚至没有加载.
文件的结构是这样的:
<头>...头部><身体><s id=s1"><图表><终端><t id="s1_1";ex=bla"ex2=bla2"/><t id="s1_2";ex=bla"ex2=bla2"/><t id="s1_3";ex=bla"ex2=bla2"/></终端>图></s><s id=s2"><图表><终端><t id="s2_1";ex=bla"ex2=bla2"/><t id="s2_2";ex=bla"ex2=bla2"/><t id="s12_3";ex=bla"ex2=bla2"/></终端>图></s>.... # 超过 50K <s>标签和近 100 万个 <t>标签