1
A
回答
1
频数会得到你一些的方式,但自然语言处理将提供更好的结果,因为它使用的语言技巧提供更高的精度。
Topia.termextract使用零件的词性(POS)标注算法,并可以从PyPI将http://pypi.python.org/pypi/topia.termextract/
2
一个简单的文本摘要装置:http://pythonwise.blogspot.com/2008/01/simple-text-summarizer.html
算法:
1. For each word, calculate it's frequency in the document
2. For each sentence in the document
score(sentence) = sum([freq(word) for word in sentence])
3. Print X top sentences such that their size < MAX_SUMMARY_SIZE
相关问题
- 1. 重构Ruby on Rails的网页摘要
- 2. 总结网页的简短摘要?
- 3. 得到一个网页的“摘要”
- 4. Qt的 - 什么是我们这些代码的含义是网页摘要
- 5. 主页上有多个丰富网页摘要?
- 6. 有抱负的网页设计师有什么好的资源?
- 7. 搜索引擎网页摘要
- 8. 返回网页摘要使用Solr
- 9. 丰富网页摘要嵌套问题
- 10. 所有网站页面上的购物车摘要
- 11. 什么是itunes上的“Territory”连接版本摘要页面
- 12. 每页报告的摘要
- 13. Git包文件名 - 什么是摘要?
- 14. 我为什么要使用摘要,我能从这些摘要中得到什么?
- 15. 通过网页检查更新有什么好策略?
- 16. 有没有一个很好的CSS摘要资源?
- 17. 预览/摘要页面
- 18. 好的方法去做页面摘录
- 19. 创建更高级,动态和用户友好的网页需要什么?
- 20. 摘要CharBuffer和包专用HeapCharBuffer:有什么意义?
- 21. lml,dplyr和摘要 - 我有什么东西吗?
- 22. 制作课堂摘要的主要优势是什么
- 23. 有没有来确定网页的“实际内容宽度”什么好办法?
- 24. 有用的Visual Studio 2010的C#代码智能感知列表网页摘要
- 25. 丰富网页摘要和JavaScript生成的标记
- 26. 从网页中提取的标题和摘要
- 27. 如何设计丰富网页摘要的元素?
- 28. 我们能在任何的丰富网页摘要类型
- 29. 谷歌搜索结果中的丰富网页摘要
- 30. 谷歌的丰富网页摘要警告,使用hCard
这样做的问题是,像“它”,“和”等常用词会得到优先考虑。一个更好的想法是使用相对频率的概念,在这个概念中,你得到一个单词的频率,并用一个表示常规文本出现频率的值来划分它。 – 2009-12-04 00:09:38