我正在寻找用于生成随机但真实文本的工具。我自己实现了一个马尔可夫链文本生成器,虽然结果很有希望,但是我尝试改进它们并没有取得任何成功。用于生成随机但真实文本的库或工具
我很喜欢那些使用语料库或基于上下文敏感或上下文无关语法的工具。我希望该工具适合纳入另一个项目。 我最近的大部分工作都是在Java中进行的,所以我最喜欢使用该语言的工具,但是我可以使用C#,C,C++甚至JavaScript。
这与question类似,但范围较大。
我正在寻找用于生成随机但真实文本的工具。我自己实现了一个马尔可夫链文本生成器,虽然结果很有希望,但是我尝试改进它们并没有取得任何成功。用于生成随机但真实文本的库或工具
我很喜欢那些使用语料库或基于上下文敏感或上下文无关语法的工具。我希望该工具适合纳入另一个项目。 我最近的大部分工作都是在Java中进行的,所以我最喜欢使用该语言的工具,但是我可以使用C#,C,C++甚至JavaScript。
这与question类似,但范围较大。
如果你想要“随机”文本,扩展你自己的马尔可夫链生成器可能是你最好的选择。生成具有上下文的东西是一个开放的研究问题。
尝试(如果你还没有):
或者,你可以分两次使用WordNet与语料库:
这种方法也存在很多问题:例如,您需要从周围的单词中获取上下文以了解选择哪个同音词。在wordnet中查找“快速”会产生关于快速的东西,而且还会产生指甲的一点点。
我知道这并不能解决您对图书馆或工具的需求,但可能会给你一些想法。
我最近发现了wordnet,同时寻找类似于这个的解决方案 – 2012-02-25 06:35:07
类似this Lorem ipsum generator?还有几个API的链接。
非常相似,但我正在寻找一种可以消耗文本语料库并生成随机但类似文本的文件。我道歉,我应该在问题上更清楚。 – 2009-11-03 23:45:14
我为此使用了许多数据集,包括wikinews文章。
我已经提取使用这个工具从他们的文字: http://alas.matf.bg.ac.rs/~mr04069/WikiExtractor.py
在参考下面的评论 - 什么是你的寻找与原文的参数?字长?人物概率?句子长度?在字符或单词中?也许如果你在你的需求中得到更多具体的东西,可以找到一些东西。 – 2009-11-03 23:52:03