punctuation

    1热度

    1回答

    我有两个数据库a和b与他们科学论文的标题。我想将这些数据库合并到一个单一的数据库c。 有可能a包含不在b中的标题,反之亦然。 标题可能位于数据库a和b中。 字母和标点符号的情况可能不匹配: “这是标题”。 VS. “这是一个标题” “这是 - 又一个 - 标题。” VS. “这是又一个标题” “基于bla的k均值算法”。 VS“其K值是指基于BLA算法” 首先我想使用MySQL的内部编辑距离的功能

    0热度

    3回答

    我试图清理ajax请求中使用的后字符串(在数据库查询之前进行清理)以仅允许字母数字字符,空格(每个字1个,不是多个) ,可以包含“ - ”和拉丁字母如“ç”和“é”没有成功,任何人都可以帮助或指引我正确的方向吗? 这是我使用至今的正则表达式: $string = preg_replace('/^[a-z0-9 àáâãäåçèéêëìíîïðñòóôõöøùúû-]+$/', '', mb_str

    1热度

    1回答

    是的,我知道有一个类似的问题,但我想要一个不同的东西。 我想正常化标点,空格,引号,连字符等,但在字母不能碰。 有很多关于双引号,单引号,空格等字符不同的我想用默认的字符来代替所有的可能性。 目前,我正在使用正则表达式,但我聚会,我发现所有的可能性,并增加了手动正则表达式。我想知道是否有可以做到这一点的lib,但不要将字母替换为非重音字母。 编辑: 下面是一些例子: text.replaceAll

    7热度

    3回答

    我想解析UTF-8字符串到“一口大小”段。例如,我想将文本分解为“句子”。 是否有与所有语言的句子结尾对应的字符(或正则表达式)的全面集合?我正在寻找能够捕捉到拉丁时代的东西,惊叹号和审问标记,中国和日本的句号等。 类似上面的问题,但对于逗号也是一样。

    2热度

    1回答

    更新:正确地初始化字符串char string[sizeof buffer - 1]已解决崩溃问题,但我仍然好奇多少标点符号必须处理它! 我想从“某些文本”形式的文件中读取一个字符串。到目前为止,使用sscanf和\"%[^\"]\"这个模式对我来说是完美的,但是一旦我开始为字符串添加标点符号,程序就开始崩溃。 似乎只有使用多个标点符号时才会出现错误,无论标点符号是什么或标记的位置如何。它也会出现

    2热度

    2回答

    目前,我正在尝试将Zend_Translate应用于正在处理的项目。普通文本完美无瑕,但我遇到了表单翻译的问题。 翻译适配器在Zend_Registry中注册,使用Zend_Translate作为键。这在大多数情况下都能正常工作,除了在显示表单之前翻译应该发生时。 代码例如: $subformBusiness->setLegend(_('Bedrijfsgegevens') . ':'); $s

    5热度

    2回答

    不知怎的,这是行不通的,据我应该是这样的:? public void Splash(){ Timer timer= new Timer(); timer.schedule(new TimerTask(){ MexGame.this.runOnUiThread(new Runnable() { public void run(){ Spla

    0热度

    2回答

    在PHP中处理表单一直让我头疼。主要格式化;处理表单输入中的标点符号,处理数据库插入的字符串,从数据库检索时剥离等。 是否有一个简单的替代strip_slashes和所有垃圾?我不想要一个像表单向导这样的工具来为你做所有事情 - 我仍然想要高级别的自定义。虽然有一个工具说“我希望这个文本字段连接到这个数据库字段”,但它会处理所有那些单调乏味的工作。

    0热度

    1回答

    需要与此帖子类似的解决方案(Find and replace a particular term in multiple files),但需要在每个分隔的标签文本文件的第一列中标点符号替换。 例子: file1.txt afile2.txt 3file.txt ... 所有其它的文件名与txt文件的.txt 格式端有一个 “标签” 列之间,看起来像: aaaa:bbb second_co

    0热度

    1回答

    我试图通过正则表达式将单词串分割成单词列表。我仍然是一个有正则表达式的初学者。 我正在使用nltk.regex_tokenize,这是产生的结果是接近,但不是我想要的。 这是我到目前为止有: >>> import re, codecs, nltk >>> sentence = "détesté Rochard ! m'étais à... 'C'est hyper-cool.' :) :P"