Java正则表达式——满足包含逗号的需求



我正在尝试分割逗号分隔的对字符串,但无法解决如何满足包含逗号的需求。

这是我的测试用例-

private void stringSplit() {
   String value = "{aaa=1111,bbb=2222,ccc=3333}";
   String regEx = "[^,]+=[^,]+";
   String separator = "=";
   final Pattern pattern = Pattern.compile(regEx);
   final Matcher matcher = pattern.matcher(value);
   while (matcher.find()) {
      final String group = matcher.group();
      final String key = group.substring(0, group.indexOf(separator));
      final String val =
         group.substring(
            group.indexOf( separator ) + separator.length(),
            group.length());
      System.out.println("key [" + key + "], val [" + val + "]");
   }
}

这是我的结果-

key [{aaa], val [1111]
key [bbb], val [2222]
key [ccc], val [3333}]

一切顺利…

但是数值中可以有逗号,例如

"{aaa=11,11,bbb=2222,ccc=333,3}";

我想要的结果是-

key [{aaa], val [11,11]
key [bbb], val [2222]
key [ccc], val [333,3}]

哪位正则表达式大师能帮我一下吗?

谢谢!

编辑

继续@bmorris591的评论

好,我有一个最后的查询-这是一个确定的列表,这个疯狂的正则表达式(+一点java代码)需要处理。

这是我的代码-

private void stringSplit() {
    String value = "{1="1, one", 22="+t,w,o", 333="three, "3", -33,,333,", 4444="four. '4-4, (44),  -44"}, 555="", "666"=6666, "777"="7777"}";
    String regex = "[^\{,]+=([[\w]\(\)\-\+\."'\s,]+)[,}]";
    String separator = "=";
    final Pattern pattern = Pattern.compile(regex);
    final Matcher matcher = pattern.matcher(value);
    while (matcher.find()) {
        final String group = matcher.group();
        showKeyAndValue(group, separator);
    }
}
private void showKeyAndValue(final String group, final String keyValueSeparator) {
    System.out.println("group [" + group + "]");
    final String key = removeQuotesFromString(group.substring(0,
            group.indexOf(keyValueSeparator)));
    final String val = removeQuotesFromString(group.substring(
            group.indexOf(keyValueSeparator)
                    + keyValueSeparator.length(), group.length()));
    System.out.println("key [" + key + "], val [" + val + "]");
}
private String removeQuotesFromString(final String str) {
    String returnString = str.trim();
    if (returnString.startsWith(""")) {
        returnString = returnString.substring(
                returnString.indexOf(""") + 1, returnString
                        .lastIndexOf("""));
    }
    return returnString;
}

结果如下-

group [1="1, one",]
key [1], val [1, one]
group [ 22="+t,w,o",]
key [22], val [+t,w,o]
group [ 333="three, "3", -33,,333,",]
key [333], val [three, "3", -33,,333,]
group [ 4444="four. '4-4, (44),  -44"}]
key [4444], val [four. '4-4, (44),  -44]
group [ 555="",]
key [555], val []
group [ "666"=6666,]
key [666], val [6666,]
group [ "777"="7777"}]
key [777], val [7777]

所有的结果都是正确的除了从关键666。如你所见,后面有一个逗号。现在我可以将其剥离(对于,即而不是封装在引号中(基本上是一个数字)),但我想知道这是否可以在正则表达式中实现,因为这将是一个"更干净"的解决方案…

如果你能想到什么,非常非常感谢

您可以使用负向前看的魔力,在逗号上分割字符串,而不是在后面跟着数字使用

public static void main(String[] args) {
    final String s = "{aaa=11,11,bbb=2222,ccc=333,3}";
    final String[] ss = s.substring(1, s.length() -1).split(",(?!\d)");
    for(final String str : ss) {
        System.out.println(str);
    }
}

输出
aaa=11,11
bbb=2222
ccc=333,3

您可以轻松地将其扩展为直接拉拽键=值对

public static void main(String[] args) {
    final String s = "{aaa=11,11,bbb=2222,ccc=333,3}";
    final Pattern p = Pattern.compile("([A-Za-z]++)=([\d,]+)(?!\d)[,}]");
    final Matcher matcher = p.matcher(s);
    while (matcher.find()) {
        System.out.println(matcher.group(1));
        System.out.println(matcher.group(2));
        System.out.println("DONE");
    }
}

输出
aaa
11,11
DONE
bbb
2222
DONE
ccc
333,3
DONE

编辑

在OP的评论之后:

对的值部分是字母数字(包括,+-*/=()),并且值总是封装在引号中,,+-*/=()也可能多次出现…

我已经修改了表达式:

public static void main(String[] args) {
    final String s = "{1="1, one", 22="+t,w,o", 333="three, 3, -33,,333", 4444="four. 4-4, (44), -44"}";
    System.out.println("String is: " + s);
    final Pattern p = Pattern.compile("([^{=,\s]++)="([^"]++)"");
    final Matcher matcher = p.matcher(s);
    while (matcher.find()) {
        System.out.println(matcher.group(1));
        System.out.println(matcher.group(2));
        System.out.println("DONE");
    }
输出:

String is: {1="1, one", 22="+t,w,o", 333="three, 3, -33,,333", 4444="four. 4-4, (44), -44"}
1
1, one
DONE
22
+t,w,o
DONE
333
three, 3, -33,,333
DONE
4444
four. 4-4, (44), -44
DONE

模式现在将匹配任何不是=,{或空格后跟=,然后后跟任何不包含"封装在"中的模式。这有帮助吗?

bmorris591

谢谢你的回复。

对不起,但是回头看看我原来的帖子有点太简单了。

部分是字母数字(包括",+-*/=()"),值总是封装在引号中,也可以是多次出现的",+-*/=()"…

"{1="1 one", 22="two", 333="three 3"}"
"{1="1, one", 22="+t,w,o", 333="three, 3, -33,,333", 4444="four. 4-4, (44), -44"}"

由于这个的复杂性,我认为最简单的解决方案是在构建对字符串之前用一些标记字符替换逗号的所有出现,做正则表达式,然后重新将逗号应用于值…

感谢您对我最初帖子的回复,尽管它对我最初问题的解决方案…

最新更新