我需要创建PDF的内容。创建PDF的内容
Q
创建PDF的内容
-2
A
回答
0
您可以使用collections.Counter
跟踪字数。我将使用正则表达式来捕获页面上的所有单词,将每个单词添加到计数器,然后转到下一页。您可以为每个单词同时保留查找索引,然后过滤常用单词(counter[word] > threshold
),或者可以再次运行文档,仅构建常用单词的索引。
a)这将会有点慢 b)你必须处理像'a','','和'等单词,以确保这些不被计数。
1
如果你所有的文本都是Python中的字符串(我假设你是因为你的相关文章而做的),那么你可以使用Python的Natural Language Toolkit。你可以下载它from here。
实施例:
import nltk, re, pprint
from nltk import FreqDist
tokens = nltk.word_tokenize(pdf_text)
text = nltk.Text(tokens)
fdist = FreqDist(text)
vocabulary = fdist.keys()
print vocabulary[:50] # Print the 50 most common words
1
使用
pdftotext
(随xpdf
)转储PDF文件到一个文本文件。您可以使用subprocess.call
通过Python脚本来调用它。使用
collections.Counter.most_common
或ntlk
找到最常用的词:import collections keywords = collections.Counter(open(<...>).read()).most_common(20)
相关问题
- 1. iOS - 从HTML内容创建多页PDF
- 2. 从RecyclerView完整内容创建PDF?
- 3. Joomla 3.0+从HTML内容创建PDF
- 4. PDF内容不足以重建PDF?
- 5. 防止用dompdf创建的pdf中复制内容
- 6. 使用iTextSharp在创建的PDF中不显示任何内容?
- 7. 输出PDF文件的内容,而无需创建文件
- 8. 用数据库中的内容创建PDF文件
- 9. 创建内容块?
- 10. 创建输出的内容
- 11. 发送Html内容到服务器创建PDF Angular 2
- 12. 如何使用eclipse在pdf中创建波斯语内容
- 13. iText5:创建PDF时,标题内容将出现两次
- 14. 如何在android中创建PDF并添加内容usnig iText库...?
- 15. 如何从PDF创建可重排内容?
- 16. 创建PDF应用程式内的iPad
- 17. JavaFX - IText - 创建PDF时创建PDF
- 18. PDF内容和SEO
- 19. 从PApplet内容创建BufferedImage
- 20. ViewBinder创建随机内容
- 21. 创建2sxc内容模板
- 22. 创建文本内容(JavaScript)
- 23. 动态创建DOM内容
- 24. SQL创建基于内容
- 25. 在drupal7中创建内容
- 26. 动态创建SCORM内容
- 27. 创建脚本PDF创建
- 28. jsPDF:查看PDF的内容
- 29. Php显示内容的pdf
- 30. Pdf创建建议
对我来说,这仍然看起来像http://stackoverflow.com/questions/6822884/how-do-i-index-pdf-files-and-search-for-keywords的副本。它有什么不同? – katrielalex