text-classification

0热度

1回答

我正在尝试基于文本挖掘进行预测模型。我很困惑我应该在模型中设置多少功能。我的分析中有1000个文件（因此语料库需要大约700个文件）。语料库中的术语数量约为20 000个，因此它超过文档数量（P >> N）。有这么多的功能有什么意义？ HashingTF方法中的特征数量应该高于语料库中的术语总数？或者我应该让它更小（像512个功能？）我有点困惑。

0热度

1回答

javascript正则表达式中的反向引用的比较

var x = "SomeText <a href=\"http://g.com\">http://g.com</a>"; var y = x.replace(/<a href="([^"]+)">([^<]+)<\/a>/igm, ('$2' == '$1')?"t":"f"); 比较返回false。而现在y是“SomeText f”。如何比较并得到“SomeText

1热度

2回答

比较我面对我猜的错误MySQL和PHP

之间的日期，数据库中记录的日期格式YYYY-MM-DD，下面是表： - 的第一个表是第二个是资金历史，正如你可以看到LibraIncomeExtra Fund有相同的日期，但它仍然显示明星。下面是我的编码： - <?php $result = mysql_query("SELECT * FROM funds"); $numrows = mysql_num_rows($result); $

0热度

1回答

如何将安全Cookie传递到HttpClient获取请求（Apache Commons）

我需要在需要验证的URL上调用GET请求。我可以做一个卷曲时来解决这个问题，只需在值传递的记得我和jSession饼干这样的... curl -v -b "mysite_remember_me=MToxNDU5MzcwODg1MDU1Ojk0YmYwMjI1NDI5MTZZkMGM2NzRkMzkx;JSESSIONID=2FDB2480CD28D99147C281.app1" "www.mysi

0热度

2回答

命令行参数向后？

所以你们都可能会笑，但我是一个新手想成为一个有问题的编码器。是的，我知道可能是蹩脚的，明显的答案，但在这里。 #include <iostream> #include <cstdlib> using namespace std; int main(int argc, char *argv[]) { for(int i=argc; i<=argc; i--){ cout

11热度

3回答

如何使用JCIP（Java Concurrency in Practice）编码

最近阅读了JCIP注释，它们看起来很酷。去了网站，看看源代码。唯一的问题是，src jar只包含注释...我没有看到我在哪里可以找到注释处理器，实际上做什么！我只是在错误的地方寻找，还是这些不是真正的Java注释（意思是说，当它用于标记类时，是否没有办法强制执行@Immutable）？ @Immutable @GuardedBy

0热度

2回答

将电视和电影文件名与NLP /机器学习相匹配？

所以我想知道是否会有一种方法来使用NLP/Machine Learing标记/标记电视或电影文件。我知道有很多正则表达式的方法已经做到了这一点，但不应该有可能通过NLP /机器学习来完成这个任务吗？例子： The.Heart.Guy.S01E07.Die.Belastungsprobe.German.DL.720p.HDTV.x264-GDR 应该是这样的： The Heart Guy SHO

1热度

1回答

推荐用于LUIS-bot-app的文本预处理？

是否建议为“训练话语”和“最终用户输入话语”执行以下文本预处理任务？替换为“root”同义词。例如。用“根”同义词常规代替普通/典型。这类似于LUIS短语列表，但我可以定义我自己的应用程序的内部列表，该列表不限于10个短语列表。词干：将折射（或有时衍生）的单词减少到它们的根形式。例如，“连接”，“连接”，“连接”，“连接”，“连接”等词将被映射到“连接”。 ...我错过了其他文本预处理任务吗？

2热度

2回答

机器学习 - 巨大只有正面文本数据集

我有一个包含数千个属于某个主题的句子的数据集。我想知道什么是最好创建一个分类器，根据他们是否谈论该主题，将预测文本为“真”或“假”。我一直在使用的解决方案与Weka的（基本分类）和Tensorflow（神经网络方法）。我用字符串向量来预处理数据。由于没有负样本，我处理一个类。我试过一类分类器（Weka中的libSVM），但是误报的数量非常高，我不能使用它。我也尝试添加阴性样品但当文本来预测

0热度

1回答

分类算法，使用R

文字，我想使用的文字“描述”和“类” 下面我使用的脚本历史数据类新文档的预测，但对于新的文件，我想预测我没有越来越好的准确性，任何人都可以帮助我了解哪种算法可以用来提高准确性。请指教。 library(plyr) library(tm) library(e1071) setwd("C:/Data") past <- read.csv("Past - Copy.csv",header=T