Stata中字符串变量中单词的可能组合(变体)

我有一个包含学校名称的字符串变量，我需要在Stata中找到此字符串变量中每个单词的所有可能组合：

例如，单词"学院"的变体是：

学院，学院，acdamey，aacdemy，DMCAAMY，我，等等。

我需要这个标准化学校名称的原始数据，由于数据输入问题，该名称的原始数据具有许多单词，例如上面给出的"学院"。

取决于您的数据是否已经在excel表中还是文件中，您可以使用正则判断性试图匹配所有可能的组合（并且可能在发现时修复它们），也可以先在之前先解析字符串将它们带入Excel。无论哪种情况，您都可以制作一个包括所有常见错别字的文件（或Excel list/table/afear/etc。），并在与实际输入进行比较时选择每个错别字作为正则匹配。

制作实际上所有可能的情况几乎是不可能的，尤其是在某些情况下存在非常相似（但正确）的学校名称的情况下。在任何情况下，直接的Regexps都是非常混乱且复杂的，因此我建议您通过首先找到正确的表单，排除该数据，然后使用（贪婪的）搜索/正则搜索以查找错字版本来解析数据。然后，您可以将错别字保存以将其用作过滤器/匹配/模式。

要获得某种开始的想法，请检查以下链接：

REGEX：搜索动词根

读取文本文件，然后使用Regex

将字符串提取到Excel表中

p.s您应该保留所有字符串/学校名称的计数，并最终获取所有不匹配正确表格或任何REGEXP过滤器的名称的列表，因此您可以手动插入/纠正它们。

相关内容

最新更新

热门标签：