text-classification

    0热度

    1回答

    我正在尝试基于文本挖掘进行预测模型。我很困惑我应该在模型中设置多少功能。我的分析中有1000个文件(因此语料库需要大约700个文件)。语料库中的术语数量约为20 000个,因此它超过文档数量(P >> N)。有这么多的功能有什么意义? HashingTF方法中的特征数量应该高于语料库中的术语总数?或者我应该让它更小(像512个功能?) 我有点困惑。

    0热度

    1回答

    var x = "SomeText <a href=\"http://g.com\">http://g.com</a>"; var y = x.replace(/<a href="([^"]+)">([^<]+)<\/a>/igm, ('$2' == '$1')?"t":"f"); 比较返回false。而现在y是“SomeText   f”。 如何比较并得到“SomeText  

    1热度

    2回答

    之间的日期,数据库中记录的日期格式YYYY-MM-DD,下面是表: - 的第一个表是第二个是资金历史,正如你可以看到LibraIncomeExtra Fund有相同的日期,但它仍然显示明星。 下面是我的编码: - <?php $result = mysql_query("SELECT * FROM funds"); $numrows = mysql_num_rows($result); $

    0热度

    1回答

    我需要在需要验证的URL上调用GET请求。我可以做一个卷曲时来解决这个问题,只需在值传递的记得我和jSession饼干这样的... curl -v -b "mysite_remember_me=MToxNDU5MzcwODg1MDU1Ojk0YmYwMjI1NDI5MTZZkMGM2NzRkMzkx;JSESSIONID=2FDB2480CD28D99147C281.app1" "www.mysi

    0热度

    2回答

    所以你们都可能会笑,但我是一个新手想成为一个有问题的编码器。是的,我知道可能是蹩脚的,明显的答案,但在这里。 #include <iostream> #include <cstdlib> using namespace std; int main(int argc, char *argv[]) { for(int i=argc; i<=argc; i--){ cout

    11热度

    3回答

    最近阅读了JCIP注释,它们看起来很酷。去了网站,看看源代码。唯一的问题是,src jar只包含注释...我没有看到我在哪里可以找到注释处理器,实际上做什么!我只是在错误的地方寻找,还是这些不是真正的Java注释(意思是说,当它用于标记类时,是否没有办法强制执行@Immutable)? @Immutable @GuardedBy

    0热度

    2回答

    所以我想知道是否会有一种方法来使用NLP/Machine Learing标记/标记电视或电影文件。 我知道有很多正则表达式的方法已经做到了这一点,但不应该有可能通过NLP /机器学习来完成这个任务吗? 例子: The.Heart.Guy.S01E07.Die.Belastungsprobe.German.DL.720p.HDTV.x264-GDR 应该是这样的: The Heart Guy SHO

    1热度

    1回答

    是否建议为“训练话语”和“最终用户输入话语”执行以下文本预处理任务? 替换为“root”同义词。例如。用“根”同义词常规代替普通/典型。这类似于LUIS短语列表,但我可以定义我自己的应用程序的内部列表,该列表不限于10个短语列表。 词干:将折射(或有时衍生)的单词减少到它们的根形式。例如,“连接”,“连接”,“连接”,“连接”,“连接”等词将被映射到“连接”。 ...我错过了其他文本预处理任务吗?

    2热度

    2回答

    我有一个包含数千个属于某个主题的句子的数据集。我想知道什么是最好创建一个分类器,根据他们是否谈论该主题,将预测文本为“真”或“假”。 我一直在使用的解决方案与Weka的(基本分类)和Tensorflow(神经网络方法)。 我用字符串向量来预处理数据。 由于没有负样本,我处理一个类。我试过一类分类器(Weka中的libSVM),但是误报的数量非常高,我不能使用它。 我也尝试添加阴性样品但当文本来预测

    0热度

    1回答

    文字,我想使用的文字“描述”和“类” 下面我使用的脚本历史数据类新文档的预测,但对于新的文件,我想预测我没有越来越好的准确性,任何人都可以帮助我了解哪种算法可以用来提高准确性。请指教。 library(plyr) library(tm) library(e1071) setwd("C:/Data") past <- read.csv("Past - Copy.csv",header=T