2014-09-01 33 views
1

给出任何文档,根据文档对文档的重要性来排列其中每个句子的算法是什么?一个重要的句子是一个被删除的文件,这个文件的意思会大大地改变文件的意思,而一个不重要的句子的删除不会对文档产生太大的影响(或根本不影响文档)。基于对文档重要性的句子排名算法

算法应该独立于域 - 它可能是新闻文章,期刊出版物,电影评论等。

如果没有具体的算法来解决这样的问题,那么为了能够提出这样的算法,应该学习哪些关键概念?应该从哪里开始解决这个问题?

到目前为止,我已经读过这两篇研究论文:

Graph Based ranking

Word clusters based ranking

不过,我想这个问题的根源入手,并可能试图找到一个新的解决方案解决问题。因此,我想探索更多算法并理解基本概念,以更好地理解如何处理它。

+1

到目前为止你做了哪些研究,你发现了什么? – 2014-09-01 17:49:51

+0

@BobBrown:更新了问题。 – 2014-09-01 17:54:33

+0

很好。查看这些论文的参考书目,并通过引用作品的参考书目后退工作。这应该引导您了解基本概念。无论如何,除非您完成了全面的文献审查,否则您无法确定您提出的解决方案是否是新的。 – 2014-09-01 17:57:49

回答

2

查看您找到的文献的参考书目,并通过引用作品的参考书目向后工作。这应该引导您了解基本概念。无论如何,除非您完成了全面的文献审查,否则您无法确定您提出的解决方案是否是新的。 (我之前发表过这篇评论;经过反思,我认为这是对问题的回应)。

编辑补充:您可以通过检查CiteSeer(http://citeseerx.ist.psu.edu),Google学术搜索引擎,科学引文索引,看看谁已经引用了你已经知道的论文。然后你按照他们的书目等,直到你非常确定你已经涵盖了关于你的主题的工作。有在这里进行了文献综述一组提示:http://www.writing.utoronto.ca/advice/specific-types-of-writing/literature-review

您还可能要发布此问题的修订版本上https://academia.stackexchange.com/

3

著名的算法用于此目的是LexRank。虽然有点老了,但它一直被大量引用,并被认为是一个强有力的基准。