从java中的字符串中删除无效的XML字符
嗨 我想从字符串中删除所有无效的XML字符。 我想用string.replace方法使用正则表达式。从java中的字符串中删除无效的XML字符
像
line.replace(regExp,"");
什么是使用权的正则表达式?
无效的XML字符是一切,是不是这样的:
[#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
感谢。
Java's regex supports supplementary characters,所以你可以用两个UTF-16编码字符来指定那些高范围。
这里是用于去除在XML 1.0都是非法字符模式:
// XML 1.0
// #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
String xml10pattern = "[^"
+ "\u0009\r\n"
+ "\u0020-\uD7FF"
+ "\uE000-\uFFFD"
+ "\ud800\udc00-\udbff\udfff"
+ "]";
大多数人都希望XML 1.0版。
这里是用于去除在XML 1.1都是非法字符模式:
// XML 1.1
// [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
String xml11pattern = "[^"
+ "\u0001-\uD7FF"
+ "\uE000-\uFFFD"
+ "\ud800\udc00-\udbff\udfff"
+ "]+";
您将需要使用String.replaceAll(...)
而不是String.replace(...)
。
String illegal = "Hello, World!\0";
String legal = illegal.replaceAll(pattern, "");
链接被破坏,正确的一个似乎是:http://www.oracle.com/technetwork/articles/javase/supplementary-142654.html – evgenyl 2013-04-22 10:00:08
可能由我错了,但这个范围不会删除像\ b(\ u0008)等等。但是这个字符也会打破xml编组。你还可以提一下关于你对麦克拉伦的博客的评论吗?谢谢! – evgenyl 2013-04-22 10:02:59
@evgenyl U + 0008在“\ u0001- \ uD7FF”范围内,不会被替换 - 它在XML中的使用是合法的。如果要删除[限制或劝阻范围]中的文本(http://www.w3.org/TR/2006/REC-xml11-20060816/#charsets),则必须修改正则表达式。 Renaud回答的问题是它检查字符值而不是Unicode码点。 Jun的答案显示了UTF-16代码单元到代码点 – McDowell 2013-04-22 10:28:53
我相信以下文章可能对您有所帮助。
http://commons.apache.org/lang/api-2.1/org/apache/commons/lang/StringEscapeUtils.html http://www.javapractices.com/topic/TopicAction.do?Id=96
不久,尝试使用StringEscapeUtils从Jakarta项目。
I没有看到这对原始海报有什么帮助 - 问题是存在一系列不能用XML编码的字符。在尝试对字符数据进行编码之前,必须先处理这些内容。 – McDowell 2010-11-21 13:02:13
/**
* This method ensures that the output String has only
* valid XML unicode characters as specified by the
* XML 1.0 standard. For reference, please see
* <a href="http://www.w3.org/TR/2000/REC-xml-20001006#NT-Char">the
* standard</a>. This method will return an empty
* String if the input is null or empty.
*
* @param in The String whose non-valid characters we want to remove.
* @return The in String, stripped of non-valid characters.
*/
public static String stripNonValidXMLCharacters(String in) {
StringBuffer out = new StringBuffer(); // Used to hold the output.
char current; // Used to reference the current character.
if (in == null || ("".equals(in))) return ""; // vacancy test.
for (int i = 0; i < in.length(); i++) {
current = in.charAt(i); // NOTE: No IndexOutOfBoundsException caught here; it should not happen.
if ((current == 0x9) ||
(current == 0xA) ||
(current == 0xD) ||
((current >= 0x20) && (current <= 0xD7FF)) ||
((current >= 0xE000) && (current <= 0xFFFD)) ||
((current >= 0x10000) && (current <= 0x10FFFF)))
out.append(current);
}
return out.toString();
}
-1这只适用于基本的多语言平面。 – McDowell 2013-01-07 22:36:37
@McDowell能否详细说明未涵盖的内容,为什么?这与Jun的回答基本上是一样的,这并没有被你降低。 – 2014-02-03 13:25:20
@ŁukaszL。此代码测试UTF-16代码单元。 Jun的代码转换并测试32位代码点。例如,代码点U + 1D50A位于支持的范围0x10000-0x10FFFF中。它必须以UTF-16中的代理对来表示 - 例如字面意思是''\ uD835 \ uDD0A''。上述算法会错误地删除由代理对代表的任何内容。请参阅[Character](http://docs.oracle.com/javase/7/docs/api/java/lang/Character.html)类型上的代码点方法。 – McDowell 2014-02-04 12:49:52
我们应该考虑替代字符?否则'(当前> = 0x10000)& &(当前< = 0x10FFFF)'永远不会成立。
还测试了正则表达式似乎比以下循环慢。
if (null == text || text.isEmpty()) {
return text;
}
final int len = text.length();
char current = 0;
int codePoint = 0;
StringBuilder sb = new StringBuilder();
for (int i = 0; i < len; i++) {
current = text.charAt(i);
boolean surrogate = false;
if (Character.isHighSurrogate(current)
&& i + 1 < len && Character.isLowSurrogate(text.charAt(i + 1))) {
surrogate = true;
codePoint = text.codePointAt(i++);
} else {
codePoint = current;
}
if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD)
|| ((codePoint >= 0x20) && (codePoint <= 0xD7FF))
|| ((codePoint >= 0xE000) && (codePoint <= 0xFFFD))
|| ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) {
sb.append(current);
if (surrogate) {
sb.append(text.charAt(i));
}
}
}
与接受的答案相比,这非常复杂。 – 2012-10-10 20:26:50
君的解决方案,简化。使用StringBuffer#appendCodePoint(int)
,我不需要char current
或String#charAt(int)
。我可以通过检查codePoint
是否大于0xFFFF
来告诉代理对。 (这是没有必要做的i ++,因为低代理不会通过过滤器,但然后一个代码将重新使用不同的代码点,它会失败。我更喜欢编程黑客。)
StringBuilder sb = new StringBuilder();
for (int i = 0; i < text.length(); i++) {
int codePoint = text.codePointAt(i);
if (codePoint > 0xFFFF) {
i++;
}
if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD)
|| ((codePoint >= 0x20) && (codePoint <= 0xD7FF))
|| ((codePoint >= 0xE000) && (codePoint <= 0xFFFD))
|| ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) {
sb.appendCodePoint(codePoint);
}
}
我显然是沮丧的。我想知道为什么。这可能只是有人在拖我,但如果算法有问题,我想知道。 – Vlasec 2016-10-03 17:07:53
从Best way to encode text data for XML in Java?
String xmlEscapeText(String t) {
StringBuilder sb = new StringBuilder();
for(int i = 0; i < t.length(); i++){
char c = t.charAt(i);
switch(c){
case '<': sb.append("<"); break;
case '>': sb.append(">"); break;
case '\"': sb.append("""); break;
case '&': sb.append("&"); break;
case '\'': sb.append("'"); break;
default:
if(c>0x7e) {
sb.append("&#"+((int)c)+";");
}else
sb.append(c);
}
}
return sb.toString();
}
不可以。一个国家怎么能一一列举字符作为我不明白的最好方式。 – jediz 2017-04-06 10:11:45
没有办法一一检查它们。如果你使用其他方法,那么方法必须做到 - 有人必须这样做。如果另一种方法效率较低,则可能会产生额外的开销。在应用程序中编写较少的行与创建运行效率最高的代码不同。 – 2017-04-07 12:58:49
如果你想存储在类似XML的形式禁字符的文本元素,你可以使用XPL代替。 dev-kit为XML和XML处理提供了并发XPL,这意味着从XPL到XML的转换没有时间成本。或者,如果您不需要XML的全部功能(名称空间),则可以使用XPL。
所有这些问题的答案至今只替换字符本身。但是有时候XML文档会有无效的XML实体序列导致错误。例如,如果在xml中有
,则java xml解析器将抛出Illegal character entity: expansion character (code 0x2 at ...
。
这是一个简单的java程序,可以替换那些无效的实体序列。
public final Pattern XML_ENTITY_PATTERN = Pattern.compile("\\&\\#(?:x([0-9a-fA-F]+)|([0-9]+))\\;");
/**
* Remove problematic xml entities from the xml string so that you can parse it with java DOM/SAX libraries.
*/
String getCleanedXml(String xmlString) {
Matcher m = XML_ENTITY_PATTERN.matcher(xmlString);
Set<String> replaceSet = new HashSet<>();
while (m.find()) {
String group = m.group(1);
int val;
if (group != null) {
val = Integer.parseInt(group, 16);
if (isInvalidXmlChar(val)) {
replaceSet.add("&#x" + group + ";");
}
} else if ((group = m.group(2)) != null) {
val = Integer.parseInt(group);
if (isInvalidXmlChar(val)) {
replaceSet.add("&#" + group + ";");
}
}
}
String cleanedXmlString = xmlString;
for (String replacer : replaceSet) {
cleanedXmlString = cleanedXmlString.replaceAll(replacer, "");
}
return cleanedXmlString;
}
private boolean isInvalidXmlChar(int val) {
if (val == 0x9 || val == 0xA || val == 0xD ||
val >= 0x20 && val <= 0xD7FF ||
val >= 0x10000 && val <= 0x10FFFF) {
return false;
}
return true;
}
String xmlData = xmlData.codePoints().filter(c -> isValidXMLChar(c)).collect(StringBuilder::new,
StringBuilder::appendCodePoint, StringBuilder::append).toString();
private boolean isValidXMLChar(int c) {
if((c == 0x9) ||
(c == 0xA) ||
(c == 0xD) ||
((c >= 0x20) && (c <= 0xD7FF)) ||
((c >= 0xE000) && (c <= 0xFFFD)) ||
((c >= 0x10000) && (c <= 0x10FFFF)))
{
return true;
}
return false;
}
这取决于你想替换一下。什么是“无效的XML字符”? – khachik 2010-11-21 11:39:46
您是对的我已添加信息 – yossi 2010-11-21 11:48:45
您为什么认为该范围内的字符对XML无效?您可以使用'[^ \ u0001- \ uD7FF \ uE000- \ uFFFD]'来匹配超出范围的2字节unicode字符(需要检查,我不确定语法)。对24位字符不了解,抱歉。 – khachik 2010-11-21 12:03:24