extraction

    0热度

    1回答

    我正在做PDF电子书上的主题建模,并且需要逐段提取文本。为此,我使用apache pdfBox,它可以有效地从pdf中提取文本。 PDFParser解析器; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText(pdDoc); 但我不能单独提取段落。此工具提供了设置段落开始/结束标识符的方法,但我需要知道此段落中断标识符。 有

    3热度

    1回答

    我需要从多行字符串(我从电子邮件的文本正文中读取)中提取一些值。我希望能够将模式提供给解析器,以便稍后可以自定义不同的电子邮件。我想出了以下情况: #!/usr/bin/env ruby text1 = <<-eos Lorem ipsum dolor sit amet, Name: Pepe Manuel Periquita Email: [email protected]

    15热度

    2回答

    我最近发现的笔划宽度变换,作为记录在以下研究报告: Detecting Text in Natural Scenes with Stroke Width Transform。鲍里斯Epshtein,Yonathan Wexler和Eyal Ofek。 IEEE International Conference on Computer Vision and Pattern Recognition,2

    3热度

    1回答

    是否可以使用Apache Mahout进行术语提取?该术语可以是单词或短语。

    1热度

    1回答

    我正在重构我现有的代码。我从现有的类中提取了接口。我创建了一个独立的类库,其中包含所有这些接口。 我的问题是我有一些结构和枚举的类。这些类也有一些方法返回这些结构和枚举。 我想从这些类中提取接口。但我现在担心的结构和枚举。我不能在我的界面中提取这些结构和枚举,因此返回结构和枚举的方法在提取时不易反映。 我该如何克服这种情况,我希望在提取的界面中具有结构和枚举?我是否需要打破结构,并将其用作界面的成

    1热度

    1回答

    我正在实施一个古老的硬币识别系统。我使用轮廓检测​​来提取硬币的特征。我想用SVM来训练图像。 我的问题是如何将这些功能提供给SVM?我知道我必须将这些功能保存到一个文件中,然后该文件应该输入到SVM中。但是,我不知道如何将功能保存到文件中。 将要素保存到文件意味着保存图像中轮廓的数量,每个轮廓的x,y,宽度和高度是否正确? 有人可以帮我吗?我在这里呆了两个月。不过,我找不到解决方案。 将功能保存

    0热度

    2回答

    我正在为搜索引擎组织一个数据库查询,您可以指定该行是否应该有图像字符串在结果中。在数据库中,如果没有图像,该字段将为空,或者它将具有随机图像名称(,例如1238791.jpg)。当我构建查询字符串时,我会检查每个字段并将字符串添加到搜索中请求的内容中。 例如,如果填写了“用户名”字段,则会将"AND username LIKE '%$searchUsername%'"添加到字符串中作为示例。但是,

    1热度

    3回答

    在我的数据库中,我有一个设置生日的字段(例如1989.08.10(YYYY.MM.DD))。我也有将这个信息以正确的年份(例如17,22,30年)的功能。在搜索引擎我正在做我有从被用户所需要的各种投入建立一个查询,而其中两个是年龄,MIN和MAX。例如,选择18-25之间的青睐。 我的问题是,我不知道我应该如何得到完成的结果,因为我无法想象如何将它添加到查询。我相信我会得把两个WHILE循环某种程

    0热度

    1回答

    我试图提取和解密23个的.tar文件命名为每如下: dev_flash_000.tar.aa.2010_07_29_170013 有其中23个,每个需要在提取之前使用名为dePKG的应用程序进行解密。 我想这个bash脚本: for i in `ls dev_flash*`; do ./depkg $i $i.tar ; tar -xvf ./$i.tar ; rm $i.tar; done

    0热度

    1回答

    我想从favicon.ico文件中提取不同的大小(如果可用),并使用PHP将每个大小保存为单独的.png文件(例如favicon16.png,favicon32.png等)。如何实现这一目标?