Stata中字符串变量中单词的可能组合(变体)



我有一个包含学校名称的字符串变量,我需要在Stata中找到此字符串变量中每个单词的所有可能组合:

例如,单词"学院"的变体是:

学院,学院,acdamey,aacdemy,DMCAAMY,我,等等。

我需要这个标准化学校名称的原始数据,由于数据输入问题,该名称的原始数据具有许多单词,例如上面给出的"学院"。

取决于您的数据是否已经在excel表中还是文件中,您可以使用正则判断性试图匹配所有可能的组合(并且可能在发现时修复它们),也可以先在之前先解析字符串将它们带入Excel。无论哪种情况,您都可以制作一个包括所有常见错别字的文件(或Excel list/table/afear/etc。),并在与实际输入进行比较时选择每个错别字作为正则匹配。

制作实际上所有可能的情况几乎是不可能的,尤其是在某些情况下存在非常相似(但正确)的学校名称的情况下。在任何情况下,直接的Regexps都是非常混乱且复杂的,因此我建议您通过首先找到正确的表单,排除该数据,然后使用(贪婪的)搜索/正则搜索以查找错字版本来解析数据。然后,您可以将错别字保存以将其用作过滤器/匹配/模式。

要获得某种开始的想法,请检查以下链接:

REGEX:搜索动词根

读取文本文件,然后使用Regex

将字符串提取到Excel表中

p.s您应该保留所有字符串/学校名称的计数,并最终获取所有不匹配正确表格或任何REGEXP过滤器的名称的列表,因此您可以手动插入/纠正它们。

最新更新