我正在寻找一种方式来经过一个句子,看看是否撇号是报价或收缩,所以我可以从字符串中删除标点,然后规范所有单词。搞清楚,如果一个单引号是报价或收缩
我的测试一句话是:don't frazzel the horses. 'she said wow'.
在我的努力我已经分裂句成词的部分tokonizing上字和非词,像这样:
contractionEndings = ["d", "l", "ll", "m", "re", "s", "t", "ve"]
sentence = "don't frazzel the horses. 'she said wow'.".split(/(\w+)|(\W+)/i).reject! { |word| word.empty? }
这将返回["don", "'", "t", " ", "frazzel", " ", "the", " ", "horses", ". '", "she", " ", "said", " ", "wow", "'."]
下一页我希望能够遍历句子寻找撇号'
,当找到一个时,比较下一个元素,看它是否包含在contractionEndings
数组中。如果包含我想加入前缀,撇号'
,并将后缀加入一个索引,否则删除撇号。
在这个例子中,don
,'
,和t
将被连接成don't
作为一个单一的索引,但. '
和'.
将被移除。
之后,我可以运行一个正则表达式从句子删除其他标点符号,这样我可以将它传递到我的词干正常化输入。
最终输出我后don't frazzel the horses she said wow
中,所有的标点将除了撇号宫缩被删除。
如果任何人有任何建议,使这项工作或者有关于如何解决这个问题,我想知道一个更好的主意。
总的来说,我想从句子中删除所有的标点,除了收缩。
谢谢
什么导致你想到最后? – Ilya
@Ilya'不frazzel她说wow' –
为什么要急于选择一个答案?为什么不等待至少UNT马那些处理答案的人有机会发布? –