Java子串打破编码 [英] Java substring broken encoding

查看：126 发布时间：2019/1/2 15:51:04 java utf-8 substring

本文介绍了Java子串打破编码的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我以UTF-8编码从流中读取一些数据

I read some data from stream in UTF-8 encoding

String line = new String(byteArray, "UTF-8");

然后尝试查找一些子序列

then try to find some subsequence

int startPos = line.indexOf(tag) + tag.length();
int endPos   = line.indexOf("/", startPos);

并减少它

String name = line.substring(startPos, endPos);

在大多数情况下，它工作正常，但有时候结果会被破坏。例如，对于输入名称，如гордунни我得到的值类似于горд нни，горду ни，г рдунни等等。
似乎代理对被随机破坏由于某些原因。我从1000中得到了4次。

In most cases it works fine, but some times result is broken. For example, for input name like "гордунни" I got values like "горд��нни", "горду��ни", "г��рдунни" etc. It seems like surrogate pairs are randomly broken for some reason. I got it 4 times out of 1000.

如何解决？我是否需要使用其他String方法而不是indexOf（）+ substring（）或在我的结果上使用一些编码/解码魔法？

How to fix it? Do I need to use other String methods instead of indexOf()+substring() or to use some encoding/decoding magic on my result?

Java子串打破编码 [英] Java substring broken encoding

问题描述

推荐答案

相关文章

Java开发最新文章

热门教程

热门工具

登录关闭

Java子串打破编码 [英] Java substring broken encoding

问题描述

推荐答案

相关文章

Java开发最新文章

热门教程

热门工具

登录 关闭

登录关闭