2017-08-08 50 views

回答

2

的算法中没有一个基于提取摘要单一的算法。有几种不同的算法可供选择。你应该选择一个适合你的具体需求。

有萃取基于汇总两种方法:

  • 监督学习 - 你用自己的关键字给节目大量的实例文档在一起。该程序了解什么是关键字。然后你给它一个新的文档,这次没有任何关键字,程序根据它在训练阶段学到的内容提取这个文档的关键字。有大量的监督学习技巧。仅举几例,有神经网络,决策树,随机森林和支持向量机。

  • 无指导的学习 - 你simly给该程序文件并创建关键字列表,而不依赖于任何过去的经验。基于摘要的流行无监督算法是TextRank。

0

首先,我认为你应该学习如何找到论文和研究。如果你没有找到任何东西,这是绝对不可能的。在任何情况下,一些基于提取文本summarziation是:

  1. 易于基于词频
  2. 贝叶斯方法
  3. 基于图形的方法,例如TextRank/LexRank是一个良好的开端实现方法。
  4. 聚类
  5. 进行汇总
  6. 基于神经网络的系统
  7. 我已经基于优化算法
    我建议谷歌上搜索这些方法,看看你会得到什么方法看到模糊系统。这些有很多变化,我不能确定哪种方法是最好的。请记住找到适当的预处理工具。
    祝你好运。