2009-11-25 70 views
1

假设我给你一个网址......你能分析这些文字并吐出该网页的“关键词”吗? (除了使用元标签)有什么好的网页摘要?

是否有良好的开源摘要? (最好的Python)

回答

2

一个简单的文本摘要装置:http://pythonwise.blogspot.com/2008/01/simple-text-summarizer.html

算法:

1. For each word, calculate it's frequency in the document 
2. For each sentence in the document 
     score(sentence) = sum([freq(word) for word in sentence]) 
3. Print X top sentences such that their size < MAX_SUMMARY_SIZE 
+0

这样做的问题是,像“它”,“和”等常用词会得到优先考虑。一个更好的想法是使用相对频率的概念,在这个概念中,你得到一个单词的频率,并用一个表示常规文本出现频率的值来划分它。 – 2009-12-04 00:09:38