2015-12-21 59 views
1

我使用RegexTokenizerStopWordsRemovertokenize我的数据集为模型大厦。在同一时间,我想删除少于3个字母的单词。还有httphttps。我怎样才能做到这一点?这里是我的代码: `Spark DataFrame转换 - 删除少于3个字母的单词

val trainDF = sqlContext.read.jdbc(url, table, prop) 

// Tokenize 
val tokenizer = new RegexTokenizer() 
    .setGaps(false) 
    .setPattern("\\p{L}+") 
    .setInputCol("posttext") 
    .setOutputCol("words") 
val tokenizedDF = tokenizer.transform(trainDF) 

val filterer = new StopWordsRemover() 
    .setCaseSensitive(false) 
    .setInputCol("words") 
    .setOutputCol("tokens") 

val filteredDF = filterer.transform(tokenizedDF)` 

回答

0

找到setMinTokenLength(3)在RegexTokenizer

相关问题