由于我们需要大量数据(比如1000行(来训练某个标签,当这个集合被限制为50个状态时,我如何训练来找到US状态的出现。
我认为这取决于您在这里试图解决的任务。您是否需要区分某些两个字母的组合是否为美国州名称?仅仅一组简单的名字就行吗?或者你正试图建立某种简单的NER(https://en.wikipedia.org/wiki/Named-entity_recognition)州名称?通过这种方式,您也可以从regex的简单匹配开始,但如果您想稍后训练一些模型,您有50多个示例。你的数据集将不仅仅是"这两个字母是否代表州",而是许多句子,其中有州名,或者根本没有。