如何优化检查正则表达式的边界?



我正在编写一种编程语言并创建自己的正则表达式实现。我想拿BaseChar块,它有一堆范围:

BaseChar       ::=      [#x0041-#x005A] | [#x0061-#x007A] | [#x00C0-#x00D6] | [#x00D8-#x00F6] | [#x00F8-#x00FF] | [#x0100-#x0131] | [#x0134-#x013E] | [#x0141-#x0148] | [#x014A-#x017E] | [#x0180-#x01C3] | [#x01CD-#x01F0] | [#x01F4-#x01F5] | [#x01FA-#x0217] | [#x0250-#x02A8] | [#x02BB-#x02C1] | #x0386 | [#x0388-#x038A] | #x038C | [#x038E-#x03A1] | [#x03A3-#x03CE] | [#x03D0-#x03D6] | #x03DA | #x03DC | #x03DE | #x03E0 | [#x03E2-#x03F3] | [#x0401-#x040C] | [#x040E-#x044F] | [#x0451-#x045C] | [#x045E-#x0481] | [#x0490-#x04C4] | [#x04C7-#x04C8] | [#x04CB-#x04CC] | [#x04D0-#x04EB] | [#x04EE-#x04F5] | [#x04F8-#x04F9] | [#x0531-#x0556] | #x0559 | [#x0561-#x0586] | [#x05D0-#x05EA] | [#x05F0-#x05F2] | [#x0621-#x063A] | [#x0641-#x064A] | [#x0671-#x06B7] | [#x06BA-#x06BE] | [#x06C0-#x06CE] | [#x06D0-#x06D3] | #x06D5 | [#x06E5-#x06E6] | [#x0905-#x0939] | #x093D | [#x0958-#x0961] | [#x0985-#x098C] | [#x098F-#x0990] | [#x0993-#x09A8] | [#x09AA-#x09B0] | #x09B2 | [#x09B6-#x09B9] | [#x09DC-#x09DD] | [#x09DF-#x09E1] | [#x09F0-#x09F1] | [#x0A05-#x0A0A] | [#x0A0F-#x0A10] | [#x0A13-#x0A28] | [#x0A2A-#x0A30] | [#x0A32-#x0A33] | [#x0A35-#x0A36] | [#x0A38-#x0A39] | [#x0A59-#x0A5C] | #x0A5E | [#x0A72-#x0A74] | [#x0A85-#x0A8B] | #x0A8D | [#x0A8F-#x0A91] | [#x0A93-#x0AA8] | [#x0AAA-#x0AB0] | [#x0AB2-#x0AB3] | [#x0AB5-#x0AB9] | #x0ABD | #x0AE0 | [#x0B05-#x0B0C] | [#x0B0F-#x0B10] | [#x0B13-#x0B28] | [#x0B2A-#x0B30] | [#x0B32-#x0B33] | [#x0B36-#x0B39] | #x0B3D | [#x0B5C-#x0B5D] | [#x0B5F-#x0B61] | [#x0B85-#x0B8A] | [#x0B8E-#x0B90] | [#x0B92-#x0B95] | [#x0B99-#x0B9A] | #x0B9C | [#x0B9E-#x0B9F] | [#x0BA3-#x0BA4] | [#x0BA8-#x0BAA] | [#x0BAE-#x0BB5] | [#x0BB7-#x0BB9] | [#x0C05-#x0C0C] | [#x0C0E-#x0C10] | [#x0C12-#x0C28] | [#x0C2A-#x0C33] | [#x0C35-#x0C39] | [#x0C60-#x0C61] | [#x0C85-#x0C8C] | [#x0C8E-#x0C90] | [#x0C92-#x0CA8] | [#x0CAA-#x0CB3] | [#x0CB5-#x0CB9] | #x0CDE | [#x0CE0-#x0CE1] | [#x0D05-#x0D0C] | [#x0D0E-#x0D10] | [#x0D12-#x0D28] | [#x0D2A-#x0D39] | [#x0D60-#x0D61] | [#x0E01-#x0E2E] | #x0E30 | [#x0E32-#x0E33] | [#x0E40-#x0E45] | [#x0E81-#x0E82] | #x0E84 | [#x0E87-#x0E88] | #x0E8A | #x0E8D | [#x0E94-#x0E97] | [#x0E99-#x0E9F] | [#x0EA1-#x0EA3] | #x0EA5 | #x0EA7 | [#x0EAA-#x0EAB] | [#x0EAD-#x0EAE] | #x0EB0 | [#x0EB2-#x0EB3] | #x0EBD | [#x0EC0-#x0EC4] | [#x0F40-#x0F47] | [#x0F49-#x0F69] | [#x10A0-#x10C5] | [#x10D0-#x10F6] | #x1100 | [#x1102-#x1103] | [#x1105-#x1107] | #x1109 | [#x110B-#x110C] | [#x110E-#x1112] | #x113C | #x113E | #x1140 | #x114C | #x114E | #x1150 | [#x1154-#x1155] | #x1159 | [#x115F-#x1161] | #x1163 | #x1165 | #x1167 | #x1169 | [#x116D-#x116E] | [#x1172-#x1173] | #x1175 | #x119E | #x11A8 | #x11AB | [#x11AE-#x11AF] | [#x11B7-#x11B8] | #x11BA | [#x11BC-#x11C2] | #x11EB | #x11F0 | #x11F9 | [#x1E00-#x1E9B] | [#x1EA0-#x1EF9] | [#x1F00-#x1F15] | [#x1F18-#x1F1D] | [#x1F20-#x1F45] | [#x1F48-#x1F4D] | [#x1F50-#x1F57] | #x1F59 | #x1F5B | #x1F5D | [#x1F5F-#x1F7D] | [#x1F80-#x1FB4] | [#x1FB6-#x1FBC] | #x1FBE | [#x1FC2-#x1FC4] | [#x1FC6-#x1FCC] | [#x1FD0-#x1FD3] | [#x1FD6-#x1FDB] | [#x1FE0-#x1FEC] | [#x1FF2-#x1FF4] | [#x1FF6-#x1FFC] | #x2126 | [#x212A-#x212B] | #x212E | [#x2180-#x2182] | [#x3041-#x3094] | [#x30A1-#x30FA] | [#x3105-#x312C] | [#xAC00-#xD7A3]
并将其转化为最优条件分支。现在,它好像是这样做的:
if (x > 10 && x < 20) {
return true
}
if (x > 30 && x < 40) {
return true
}
if (x > 50 && x < 60) {
return true
}
// 100 more range checks...
return false

我应该为每个范围做if/then吗,或者有一些魔法技巧使它更优化,所以如果我们有一个值匹配范围列表中的最后一项,它不必检查它前面的所有内容?这里有什么特殊的优化技术吗?

这个范围BaseChar是每个字符,所以如果我们的字符匹配模式中的最后一个项目,我们有一个10000个项目的字符串,它将执行100 * 10000个条件(假设有100个模式),而不仅仅是1 * 10000。

用这样的条件检查结果效率不高,特别是当有很多范围需要检查时。当处理器无法预测时,状态是缓慢的。随机/数据依赖行为)或者当它们太多时(CPU预测器有一个缓存来记住一个条件是否经常成功/失败,但这个缓存相当小)。平均而言,如果所取分支的概率分布是均匀的,则执行一半的条件,或者如果范围选择得很仔细,则可能执行得少一些(必须先出现频率较高的那个以切断计算)。

一个加速的解决方案是使用查找表(附近地区)。如果查找表是在循环中完成的,那么查找表对于提高该计算的吞吐量非常有用,但是当代码很少执行时,查找表也会带来高延迟开销。其思想是为表示x值的每个单元格预先计算一个布尔值数组。第一个简单的尝试是创建一个大小为0x10000的布尔数组。结果代码将仅为return lut[x];,其中例如lut[0] == false,lut[10] == false,lut[11] == true等。

LUT必须保持较小。实际上,LUT越大,计算就越慢(由于将LUT保存在缓存中以及可能从RAM加载它、生成它等等的额外开销)。第一个优化是生成大小为0x2200(小8倍)的LUT,并仅在x < 0x2000(覆盖95%的测试范围)时检查它,这应该是非常频繁的。否则,使用初始慢速方法测试剩余的5%范围。结果代码如下所示:

if(x < 0x2000)
return lut[x];
return x == 0x2126 || x > x212A && x < 0x212B || ...;
另一个可能的优化是使用位打包压缩LUT. 这个想法是为每个字节打包8个布尔值,这样LUT只占用1 KB(在主流平台上)。如果你的目标语言是c++,请注意std::vector<bool>已经实现了这个功能。否则,必须修改LUT的生成,并将lut[x]替换为(lut[x >> 3] >> (x & 0x07)) & 0x01。对于用例,这可能更快,也可能更快。 最后,SIMD指令可以用来大大加快计算速度。实际上,几乎x86-64处理器提供的SSE指令集能够计算每条指令16字节或8个16位值。最新的x86-64处理器上可用的较新的AVX/AVX2指令集能够计算每条指令两倍的数据量。最近的AVX-512指令集仅在最近的x86-64处理器上可用,与AVX/AVX2相比,它能够计算每条指令两倍的数据量(因此比SSE多4倍)。如果您知道大多数字符位于特定范围内,此策略特别好:例如,如果大多数字符是ASCII字符,那么您可以非常快速地检查16/32/64字符是否为ASCII字符,并在ASCII范围内完全执行范围检查,否则您可以退回到更昂贵的计算(可能使用LUT或仍然使用SIMD指令)。

我认为在您的情况下使用(可能压缩的)LUT是最好的策略,因为该方法相对简单(与使用SIMD指令相比),并且应该已经比原始解决方案快得多。

最新更新