1
我需要分析一个文档并编译统计每个单词序列使用的次数(因此分析不是单个单词而是一批重复出现的单词)。我读过压缩算法做了类似于我想要的 - 使用一段报告其频率的信息创建文本块的字典。 它应该是类似于http://www.codeproject.com/KB/recipes/Patterns.aspx 你有什么用C#写的吗?句子分析和标记化的算法
我需要分析一个文档并编译统计每个单词序列使用的次数(因此分析不是单个单词而是一批重复出现的单词)。我读过压缩算法做了类似于我想要的 - 使用一段报告其频率的信息创建文本块的字典。 它应该是类似于http://www.codeproject.com/KB/recipes/Patterns.aspx 你有什么用C#写的吗?句子分析和标记化的算法
这很容易实现。
使用Split(字符串类的成员函数)将字符串拆分为单词。 (你可以在codeproject url中使用分隔符)。
循环列举所有n-gram并使用Dictionary<string, int>
来计数。