我必须将PDF文件中的数据放入特定的数据库结构中。这要求我能够从PDF文件中获取某些数据。由于pdf没有任何标签等......我想知道是否有可能获得基于颜色的文本。举例来说,我想要所有的红色文本。或者我想要文档中的所有斜体文字。这在C#中可能吗?或者是否有其他方法可以轻松过滤PDF文档中的数据?如何从pdf中获取某种颜色的文本c#
3
A
回答
0
我采取了不同的方法。我将pdf转换为excel文件。这是很容易搜索彩色文本
0
通过使用这个库http://www.codeproject.com/KB/files/xpdf_csharp.aspx?msg=3154408 你必须每一个字风格的访问(字体,颜色...)
this.pdfDoc.Pages[4].WordList.ElementAt(143).ForeColor
0
的iText的PdfTextExtractor(以及所有它依赖于代码)不不跟踪当前的颜色。哎哟。这不会是所有是难以增加,所以你可以自己修改的iText:
- 添加笔触和填充颜色成员对GraphicState类(适当地更新各种构造函数)。你可能需要为'g','G','rg','RG','K'和'k'添加
ContentOperator
类(也可能是CS,cs,SC,sc,SCN,scn ),修改笔触和填充颜色。 - 将方法添加到TextRenderInfo以获取当前描边和填充颜色。
0
尝试PdfLibTET http://www.pdflib.com/products/tet/
它应该能够获得有关的文字信息。
相关问题
- 1. 如何获取PDF文件的文本背景颜色(RGB值)?
- 2. 如何获取文本的颜色?
- 3. 获取PDF文件中特定文本的背景颜色
- 4. 如何从C#中的硒webdriver中的颜色调色板中获取颜色#
- 5. 从ruby-ncurses中获取256种颜色
- 6. C#算法为某种颜色着色
- 7. 如何从c#中的文本文件中获取某些行?
- 8. 如何恰当地获取文本的文本和颜色以在4种颜色之间切换/更改?
- 9. 将自动文本颜色替换为选中的某种显式颜色
- 10. 如何从RTF文件获取文本大小和颜色?
- 11. 如何从C#精简框架中的颜色名称获取颜色?
- 12. 如何从PDF页面获取文本?
- 13. 在PHP中获取PDF颜色
- 14. 如何从Rich Text Box中删除第二种颜色的文本c#
- 15. 从.png文件中获取颜色的HTML颜色代码?
- 16. 如何获取wpf中control.background的某个点的颜色
- 17. 从PDF文档中提取文本 - C#
- 18. 获取文本框的背景颜色
- 19. 从PDF文件中获取纯文本
- 20. 从TextView Android中提取多种颜色
- 21. 如何从GradientDrawable获取颜色?
- 22. 如何从像素获取颜色? OpenGL
- 23. 如何在Android中获取当前Button文本颜色?
- 24. 如何从Swift中的PDF中获取所有文本?
- 25. 如何在pdf文件中的特定坐标处获取颜色
- 26. ASP.NET:如何更改gridview中某些文本的颜色?
- 27. 从pdf中提取文本到c#
- 28. 用Poppler(C++)从PDF中提取文本
- 29. 使用PDFBox获取文本颜色
- 30. GEB获取背景和文本颜色
您使用的是什么PDF库? – Oded 2011-05-03 15:43:34
iText pdf,但还没有找到我要找的功能。所以我对任何有关图书馆的建议都是开放的 – Ojtwist 2011-05-03 15:45:00