我使用Text::Ngrams
来确定字符串中的单词组合。但是,我需要保留有数字的单词。我确定$o->{tokenrex}
是我需要修改的,但我无法确定它的正确的正则表达式。使用正则表达式匹配包含数字的单词
原来是qr/([a-zA-Z]+|(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?)/;
但我想我需要沿此线的东西更多:
qr/([a-zA-Z]+|(?<=\w)(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?(?=\w)|(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?)/;
哪些应该,如果我读正确的正则表达式,匹配任意数量的字母字符,或在其前后具有单词字符的“数字”或“数字”。除了它将我的“单词”分解为单独的标记。我正在使用的示例词是“A1X”。
任何协助将是伟大的。
学习如何使用并喜欢'x'正则表达式修饰符,它允许您在正则表达式中使用空格(空格,制表符,换行符)来格式化 – 2011-03-10 16:45:40
@Eric Strom我完全打算;我想在尝试解释它做什么之前先让它工作:) – 2011-03-10 18:05:01
这就是要点。如果你能看到它的功能,它更容易工作! – ridgerunner 2011-04-03 02:07:06