punctuation

0热度

2回答

我有一个Solr 4.7.0实例，索引中有200 000个文档（文件系统上每个文件有一个文档），由多个用户使用。文档由关键字标识，索引并存储在一个名为“signature_1”的字段中。在索引期间，我删除了用空格替换的所有类型的标点符号（感谢ScriptUpdateProcessor），因此我的关键字用空格分隔，都位于字段signature_1（字段类型签名）的索引和存储部分中。 <fieldT

0热度

1回答

将输入文字读入单词列表中并去除标点符号

这是我在互联网上找到的这个巨型代码。它是一个程序，可以在文件中找到n个最常用的单词并将其打印出来。下面的程序读取给定的文本文件，但我想自己写输入文本，所以我可能会将这些单词存储在数组中。我该怎么做才能让程序读取随机长度的文本，下面的程序仍然可以工作？而且，如果输入文本中有标点符号，我将不得不摆脱它们，因此文本不会仅包含从'a'到'z'的字母。我甚至需要MAX_CHARS常数吗？ #include

4热度

2回答

tm自定义删除标点符号，除了＃标签

我有一个来自twitter的推文语料库。我清理这个语料库（removeWords，tolower，删除URls），最后还想删除标点符号。这里是我的代码： tweetCorpus <- tm_map(tweetCorpus, removePunctuation, preserve_intra_word_dashes = TRUE) 现在的问题是，如果这样做我也失去了包括hashtag（＃）。有

0热度

2回答

用正则表达式查找两个连续的单词/字符串java（包括标点符号）

我想检查一个字符串是否包含两个以特定顺序直接出现的单词/字符串。标点符号也应该包含在单词/字符串中。（即“单词”和“单词”。应该被编为不同单词）。举个例子： String word1 = "is"; String word1 = "a"; String text = "This is a sample"; Pattern p = Pattern.compile

3热度

1回答

添加标点符号到列表中？

我有点小问题。我的任务是检查文本中是否有任何重复的单词，如果列表中有任何重复的单词，我的工作是使用.upper（）突出显示它们。文本示例：我喜欢苹果，苹果是我所知道的最好的东西。所以我把原始文本，从标点条纹，将所有单词转换为小写，然后拆分列表。通过for循环，我将列表中的每个单词与对方进行了比较，并且我找到了所有重复的单词，所有这些都放在了一个新列表中。例子（使用for循环后）：我喜欢苹

0热度

4回答

如何从两个列表中删除公共元素？

我有两个列表，如下面的例子（实际上，a更长），我想删除所有常见元素，在这种情况下，列表punctuation中给出的标点符号。 a = [['A', 'man,', 'view,', 'becomes', 'mankind', ';', 'mankind', 'member', 'comical', 'family', 'Intelligences', '.'],['Jeans', 'length

1热度

2回答

将文本限制为一定数量的字符，但在最后的20个字符内找到句点时停止

因此，我有此功能可以生成大量文本的摘录。 function excerpt($string, $max_chars = 160, $more = '...') { if (strlen($string) > $max_chars) { $cut = substr($string, 0, $max_chars); $string = substr($cut,

0热度

1回答

在python字符串中删除奇怪的双引号（来自excel文件）

我使用xlrd将一个excel文件加载到python3中。它们基本上是电子表格中的文本行。在这些行中有一些是引号。例如，一条线可以是：她说：“我的名字是詹妮弗。” 当我将它们读入python并将它们变成字符串时，双引号会被读入为一个奇怪的双引号字符，它看起来像斜体的双引号。我假设在某个地方，由于某些编码问题或某些事情，python会将字符读作某些外来字符，而不是实际的双引号。所以在上面的例子中，

-2热度

1回答

在字符串前后摆脱标点的正则表达式

有没有一种方法可以摆脱字符串前端和末尾的标记？例如， "hello," -> "hello" "hello;" -> "hello" 换句话说，删除所有标点后，之前，或者一个字内，除单引号和单短线，如果他们后面更多的字母。更多的例子， "lies,", "'This", "all-eating" and "deserv'd." 将成为 "lies", "this", "all-eat

1热度

3回答

正则表达式，摆脱所有在一个字符串的顶部和末尾的标点

我想拿出一个正则表达式，摆脱所有的标点符号（如果有一个或多个）在顶部和一个字符串的结尾。我现在使用正则表达式如下：（字是我要转换的字符串） word = word.replaceAll("['?:!.,;]*([a-z]+)['?:!.,;]*", "$1").toLowerCase(); 但是，我仍然得到一些奇怪的案件。例如，'Amen'转到'amen'，''tis转到'tis。任何人都可