我正在开发辅助和替代通信(AAC)程序。我目前的目标是存储输入/说出文本的历史记录,并搜索常用短语片段或单词n-gram。我正在使用基于lzw压缩算法的实现,如CodeProject - N-gram and Fast Pattern Extraction Algorithm所述。尽管生成n-gram,但这种方法并不按照需要运行。正则表达式使用正则表达式
比方说,我多次进入“在山上和树林中”。我期望的输出将是整个短语“在山上和树林中”。使用我目前的实现,该短语被分解为三元组,并且在每个重复条目上添加一个词。因此,在第一个入口我得到“过山”。在第二项“过山”等
假设我们有以下文字:
这是一个测试
这是另一个测试
这也是考验
紧急广播系统的测试中断了我最喜欢的歌曲
我的目标是,如果“这是对紧急广播系统的测试”进入下一个我可以让我们e在正则表达式内返回“这是一个测试”和“紧急广播系统的测试”。这是可能通过正则表达式或我走错了路吗?我感谢任何帮助。
正则表达式是错误的工具。 – 2010-01-24 21:26:19