data-extraction

    0热度

    2回答

    我真诚地道歉,如果这不是讨论这个问题的合适论坛,但我不确定要去哪里或什么是最好的选择。 基本上,我试图找到一个数据库友好的老牌医院名单。我已经能够找到最接近的是www.va.gov/ofcadmin/docs/CATB.pdf,因为它拥有所有我在寻找的信息: 地区 地址 市中单独列单独的列 邮编 国家 设施#(也称为的stationID) VISN 符号 我已经尝试将该PDF导出到CSV中,但这是

    1热度

    1回答

    我需要使用Java库或代码从ODT文档的内容中提取字段标签。我知道odt是某种压缩文件,它的内容在一个content.xml文件中。当然,我可以提取文件,打开content.xml并解析它,但我相信存在一些更高级别的代码。举个例子,内容如下所示: <text:p text:style-name="Standard">Hi ${name}!</text:p> <text:p text:style

    0热度

    3回答

    因此,我在使用Android Java中的HTTP Post Requests登录到一个网站,然后提取整个HTML代码。之后,我使用Pattern/Matcher(正则表达式)在从HTML数据中提取它们之前查找所需的所有元素,并删除不必要的所有内容。例如,当我提取此: String extractions = <td>Good day sir</td> 然后我用: extractions.re

    1热度

    1回答

    我每周收到几封电子邮件,详细介绍源自我所涉及的网络的滥用行为。这些通常包含以下任一项: a)URL被认为是被入侵的。 或 b)被认为是垃圾邮件的电子邮件的副本。 其中大多数是自动化的,并且通常不会很好地遵循ARF。 我需要的是自动化数据提取,但是我正在绞尽脑汁,因为当电子邮件的结构发生变化和不可预测时,我不确定如何去做。 我所寻找的那一刻,提取的是: 一),这是在大多数进出口/ qmail的显示为

    1热度

    3回答

    我有一个数据集,其中我想提取列1-3,7-9,13-15,一直到矩阵的末尾 作为一个例子,我已经使用了标准魔术函数来创建矩阵 A =魔法(10) A = 92 99 1 8 15 67 74 51 58 40 98 80 7 14 16 73 55 57 64 41 4 81 88 20 22 54 56 63 70 47 85 87 19 21 3 60 62 69 71 28

    0热度

    1回答

    对不起,如果问题听起来太模糊。我会根据您的反馈进行改进。 我设法准备了一个问题域的UML模型。这本质上是一个描述类属性和类之间聚合关系的类图。现在的意图是填写数据。 例如,A类聚合了B类的N个实例。我想创建一个数据模型,其中包含一个A类实例和5个B类实例的数据。 基本上,与这个元模型有关的数据可以在文档中找到(例如xls,framemaker),应该可以读取数据源并填充数据模型。 有工具可以让我创

    0热度

    1回答

    我正在构建一个交易聚合器,所以我需要一个履带,将从一些网站提取数据:价格,折扣,图像,坐标和交易的源头名称。 你知道任何教程,电子书或什么东西会帮助我吗?对于图像和坐标和折扣我有一个解决办法和模式: 图片:最大的图像始终是交易的主要图像 折扣:折扣始终是50和99,并始终之间的数字有一个“% “符号 坐标:总是在十进制数,所以我用正则表达式 如何获得以下项目怎么做呢? 交易名称? 价格? 你知道任

    0热度

    1回答

    我想使用iMacros检查一个html网站,如果它包含某些数字。如果是这样,那么我想根据已找到的数字来分配一个变量。 一样,如果HTML中包含112233然后竟被我喜欢assing VAR1是123 如果HTML包含223344那么我想VAR1是645 什么是做到这一点的呢? 谢谢!

    1热度

    1回答

    我想要从网页中的表格获取数据,这似乎是使用“Excel发布为网页向导”发布的。我知道有很多抓取工具(看起来对于这样的任务很先进),并且知道我可以编写一个脚本,但是我想指出一些非常简单的事情,特别是数据是使用自动发布的工具。 我更喜欢有导轨解决方案。 该数据为统计健康数据,here are links to some samples。

    1热度

    4回答

    我想创建一个项目,我需要从imdb中提取数据。我见过一些PHP提取器,但我需要一个Java程序。 我需要提取类似的信息: 电影的名字和年份 小块 评级 类型 演员 数据低于从中我需要提取数据: { "Title": "Brave", "Year": "2012", "Rated": "PG", "Released": "22 Jun 2012",