punctuation

0热度

1回答

Solr的StandardTokenizer存在问题。如果我在寻找： text_field:lastname 它会发现一些如果我在寻找： text_field:last*ame 它会找到soething 如果我在寻找用于： text_field:lastname; 但是如果我搜索： text_field:last*ame; 搜索不返回任何东西。为什么？ StandardToke

1热度

2回答

正则表达式捕获标点符号和收缩

我是新来的正则表达式，我正在尝试编写一个函数来将字符串分解为它的收缩和标点符号。例如：I'm feeling sad today. 应该返回一个列表：["I","'m","feeling","sad","today","."]。到目前为止，我只能过滤与([a-zA-Z])\w*的字母，我不知道如何过滤这包括标点符号。

-4热度

2回答

如何在Python中使用Re模块提取所有标点符号？

我想用re模块从文本中提取所有标点符号。我怎样才能做到这一点？

0热度

1回答

如何在解析python字符串时保留重复标点符号？

我需要处理少量文本（即python中的字符串）。我想删除某些标点符号（如'.', ',', ':', ';',），但保持标点符号表示像（'...', '?', '??','???', '!', '!!', '!!!'）也有七情六欲的，我想删除无信息的词作为'a', 'an', 'the'。此外，到目前为止最大的挑战是如何解析“我有”或“我们有”最终得到“我有”和“我们有”？撇号使我感到困

1热度

2回答

SAS：删除所有文字字符

我有一列数据后，让我们说，它看起来是这样的： This is text: part 2 This is text This is also text: part 3 我需要删除一切后：使所有三行数据将显示： This is text This is text This is also text 有没有人知道如何做到这一点在SAS？我通常会删除标点，等等......但还没有需要删除一

3热度

4回答

删除标点符号格式的文本 - 星火

这是我的数据的一个样本： case time (especially it's purse), read manual care, follow care instructions make stays waterproof -- example, inspect rubber seals doors (especially battery/memory card door open time)

0热度

1回答

Google表格 - 计数单词前逗号的次数

我想要计算特定单词在这种情况下的名称出现在列中的次数。但是，该列中每个单元格中可能有任意数量的名称，我只对每个单元格中的第一个名称感兴趣。如果单元格中有多个名称，每个名称都用逗号分隔，我希望以某种方式使用它来忽略不需要的名称。这很像this question，唯一的区别就是放弃逗号后的所有内容。有没有办法在表格中做到这一点？

2热度

2回答

R我如何使用TermDocumentMatrix保留标点符号（）

我有一个很大的数据框，我正在识别字符串中的模式，然后提取它们。我提供了一小部分来说明我的任务。我通过创建具有多个单词的TermDocumentMatrix来生成我的模式。我将这些模式与来自stringi和stringr软件包的stri_extract和str_replace一起在'punct_prob'数据框中搜索。我的问题是，我需要在'punct_prob $ description'内保持标

2热度

2回答

如何通过tm包删除单词中的括号？

比方说，我有文本中的一部分这样的文件： "Other segment comprised of our active pharmaceutical ingredient (API) business,which..." 我想删除“（API）”，它需要 corpus <- tm_map(corpus, removePunctuation) 之前完成取出后“（API）”，它应该是这个样子如下：

0热度

5回答

如何从一个字符串中删除逗号用C

说我有“10，5，3”我怎样才能摆脱逗号所以字符串就是“10 5 3”的字符串？我应该使用strtok吗？