Spark DataFrame转换 - 删除少于3个字母的单词

我使用RegexTokenizer和StopWordsRemover到tokenize我的数据集为模型大厦。在同一时间，我想删除少于3个字母的单词。还有http和https。我怎样才能做到这一点？这里是我的代码： `Spark DataFrame转换 - 删除少于3个字母的单词

val trainDF = sqlContext.read.jdbc(url, table, prop) 

// Tokenize 
val tokenizer = new RegexTokenizer() 
    .setGaps(false) 
    .setPattern("\\p{L}+") 
    .setInputCol("posttext") 
    .setOutputCol("words") 
val tokenizedDF = tokenizer.transform(trainDF) 

val filterer = new StopWordsRemover() 
    .setCaseSensitive(false) 
    .setInputCol("words") 
    .setOutputCol("tokens") 

val filteredDF = filterer.transform(tokenizedDF)`

来源

2015-12-21 Igor K.

找到setMinTokenLength（3）在RegexTokenizer

来源

2015-12-22 00:11:02

Spark DataFrame转换 - 删除少于3个字母的单词

回答

相关问题