text-parsing

    0热度

    1回答

    using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; using java.io; using edu.stanford.nlp.process; using edu.stanford.nlp.ling;

    1热度

    1回答

    我在文本格式提取BLOB字段出来的MySQL表: CAST(orders AS CHAR(10000) CHARACTER SET utf8) 现在每场看起来是这样的: a:2:{s:4:"Cart";a:5:{s:4:"cart";a:2:{i:398;a:7:{s:2:"id";s:3:"398";s:4:"name";s:14:"Some product 1";s:5:"price";i

    2热度

    1回答

    我试图从R!上获取HTTP/FTP服务器上的文件列表,以便下一步我将能够下载它们(或选择一些符合要求的文件我的标准下载)。 我知道可以在网页浏览器(下载管理器)中使用外部程序,这将允许我从当前网页/ ftp中选择要下载的文件。但是,我希望将所有内容都编写成脚本,以便我可以更容易地重现。 我想过从R调用Python! (因为它看起来好多了),但我试图在R中完全做到这一点! 我写了下面几行 requi

    0热度

    2回答

    我需要解析一堆巨大的文本文件,每个文件都是100MB +。它们是CSV格式的格式不佳的日志文件,但每条记录都是多行,所以我不能只读取每行并用分隔符分隔它们。它也不是一个固定的行数,因为如果有空白值,那么有时会跳过这行,或者某些行溢出到下一行。另外,记录分隔符可以在同一文件中的变化,从“”到“*****”,有时有这样一行“的日志#” 样品日志末尾: "Date:","6/23/2015","","L

    0热度

    1回答

    当使用正则表达式从文本中提取单词时,任何人都知道处理撇号的方式吗? >>> import re >>> s = re.compile(r"\b[A-Za-z0-9_\-]+\b") >>> s.findall("I don't know Sally's 'special' friend.") ['I', 'don', 't', 'know', 'Sally', 's', 'special',

    8热度

    3回答

    给的输入句子,具有BIO chunk tags: [( '什么', 'B-NP'),( '是', 'B-VP'),( '的',' ('','B-NP'),('空速', 'I-NP'),('','B-PP'),('an','B-NP'),('unladen','I -NP '), (' 吞”, 'I-NP'),( '?', 'O')] 我需要提取相关的短语进行,例如如果我想提取'NP',我需要提取包

    0热度

    1回答

    尝试获取此PowerShell脚本以检查域中所有PC上的文件中的特定条目,并将具有指定OLD服务器名称的文件写入文件,然后运行替换只有具有找到价值的电脑。我可以通过这样做到每台PC,因为我知道这只适用于具有匹配数据的那些数据,但是我必须运行停止服务,然后在每台PC上启动服务,并在其中进行更改,但我不想在域中的每台PC上停止/启动服务。我已经尽可能将所有PC输出到一个文件,但不知道如何将它结合到IF

    1热度

    2回答

    我有我想比较平等的字符两个字符串,字符串必须包含确切的字符,但是可以mychars有多余的字符。 mychars="abcdefg" testone="abcdefgh" # false h is not in mychars testtwo="abcddabc" # true all char in testtwo are in mychars function test() {

    0热度

    1回答

    我有一个脚本可以从SEC的EDGAR数据库下载文本块数据。数据被精确提取。但是,文本包含多个连续空格(x20)和CRLF(x0A xOD)。 我需要能够删除逗号和多余的CRLF和空格,然后将整个文本内容写入CSV文件供以后分析。 我不是一个python程序员,但我使用python来执行此任务,因为XBRL解析程序有一个python接口。 我需要为大约6,000个个人观察完成这项任务,所以它不是我想

    2热度

    2回答

    我正在制作一个将角色扮演风格的消息转换为更通用的应用程序。用户必须指定自己的喜好的能力,如: Moves - /me <move> - *<move>* Speech - <speech> - "<speech>" Out-of-Character - [<ooc>] - ((ooc)) - //ooc 我需要解析这样的消息: /me eats food "This is *