punctuation

    0热度

    1回答

    Solr的StandardTokenizer存在问题。 如果我在寻找: text_field:lastname 它会发现一些 如果我在寻找: text_field:last*ame 它会找到soething 如果我在寻找用于: text_field:lastname; 但是如果我搜索: text_field:last*ame; 搜索不返回任何东西。为什么? StandardToke

    1热度

    2回答

    我是新来的正则表达式,我正在尝试编写一个函数来将字符串分解为它的收缩和标点符号。 例如:I'm feeling sad today. 应该返回一个列表:["I","'m","feeling","sad","today","."]。 到目前为止,我只能过滤与([a-zA-Z])\w*的字母,我不知道如何过滤这包括标点符号。

    -4热度

    2回答

    我想用re模块从文本中提取所有标点符号。我怎样才能做到这一点?

    0热度

    1回答

    我需要处理少量文本(即python中的字符串)。 我想删除某些标点符号 (如'.', ',', ':', ';',) ,但保持标点符号表示像('...', '?', '??','???', '!', '!!', '!!!') 也有七情六欲的,我想删除无信息的词作为'a', 'an', 'the'。 此外,到目前为止最大的挑战是如何解析“我有”或“我们有”最终得到“我有”和“我们有”?撇号使我感到困

    1热度

    2回答

    我有一列数据后,让我们说,它看起来是这样的: This is text: part 2 This is text This is also text: part 3 我需要删除一切后:使所有三行数据将显示: This is text This is text This is also text 有没有人知道如何做到这一点在SAS?我通常会删除标点,等等......但还没有需要删除一

    3热度

    4回答

    这是我的数据的一个样本: case time (especially it's purse), read manual care, follow care instructions make stays waterproof -- example, inspect rubber seals doors (especially battery/memory card door open time)

    0热度

    1回答

    我想要计算特定单词在这种情况下的名称出现在列中的次数。但是,该列中每个单元格中可能有任意数量的名称,我只对每个单元格中的第一个名称感兴趣。 如果单元格中有多个名称,每个名称都用逗号分隔,我希望以某种方式使用它来忽略不需要的名称。这很像this question,唯一的区别就是放弃逗号后的所有内容。 有没有办法在表格中做到这一点?

    2热度

    2回答

    我有一个很大的数据框,我正在识别字符串中的模式,然后提取它们。我提供了一小部分来说明我的任务。我通过创建具有多个单词的TermDocumentMatrix来生成我的模式。我将这些模式与来自stringi和stringr软件包的stri_extract和str_replace一起在'punct_prob'数据框中搜索。 我的问题是,我需要在'punct_prob $ description'内保持标

    2热度

    2回答

    比方说,我有文本中的一部分这样的文件: "Other segment comprised of our active pharmaceutical ingredient (API) business,which..." 我想删除“(API)”,它需要 corpus <- tm_map(corpus, removePunctuation) 之前完成取出后“(API)”,它应该是这个样子如下:

    0热度

    5回答

    说我有“10,5,3”我怎样才能摆脱逗号所以字符串就是“10 5 3”的字符串?我应该使用strtok吗?