supervised-learning

-1热度

1回答

我有大约数千名存放在8个不同的文件夹TXT文本文件被标记为主题类别（实际上，他们是1,2,3类...）。我还有另外80个尚未分类的txt文档。我试图找到将它们分类的最佳方法。我已经完成了文本分割并删除了英文字母（因为他们是中国人文本）。什么我要做什么？我可以得到具有最高TF-IDF值的单词，但不知道下一步该怎么做。似乎我应该将这些文本转换为矢量并训练一个分类器，但我不知道如何。

0热度

2回答

将数据分解为SOM中的培训/测试的原因是什么？

我正在研究和阅读一些使用SOM算法的论文。我不明白人们将他们的数据集分解为SOM的训练/测试集的逻辑。我的意思是，例如，当使用C4.5决策树时，经过训练的结构包括一些新的数据集（测试）来分类数据时应用的规则。但是，系统通过SOM进行培训后会生成什么样的规则或类似的规则？如果我将100％的数据应用于SOM系统，而不是30％先进行培训，然后再使用70％进行测试，那将会有什么不同呢？提前感谢您的回答。

1热度

1回答

如何识别电影或传记等文档类别

我目前正在运行将某些文档分类为某些预定义类集的任务。为此，我依赖Multinomial朴素贝叶斯，它适用于大多数类别，如棒球，运动或太空。但是，如何找出某些人的电影或传记等类别的文章？ MNB主要运用一揽子文字行话的方式。这就是为什么很容易检测到棒球文章，因为它们将包含大量的棒球术语。但是，电影或传记文章包含非常少的行话。电影文件只会描述电影，或对其进行审查，并仅针对该电影特定的文字。因此，关于

6热度

2回答

计算多类的sklearn.roc_auc_score

我想计算我的分类器的AUC，精度和准确度。我正在监督学习：这是我的工作代码。此代码适用于二进制类，但不适用于多类。请假设你有一个二进制类一个数据帧： sample_features_dataframe = self._get_sample_features_dataframe() labeled_sample_features_dataframe = retrieve_labeled_s

2热度

1回答

（查询，文档相关性）免费数据集构建信息检索系统

我很想找到一个数据集，如“英语相关性判断文件列表”： http://trec.nist.gov/data/qrels_eng 此数据集包含一个标记，对查询和文件。然而，它依赖于非自由文集，名为“数据 - 英文文档”： http://trec.nist.gov/data/docs_eng.html 你知道任何免费的数据集（S）类似的这一个？旁注：该数据集将用于建立基于神经网络的信息检索系统的研究

0热度

1回答

R中训练隐马尔可夫模型

训练R中隐马尔可夫模型是否可能？我有一组观察及其相应的标签。我需要训练HMM以获得马尔可夫参数（即转换概率矩阵，发射概率矩阵和初始分布）。所以，我可以预测未来的观察结果。换句话说，我需要与Forward_Backward算法相反。

-1热度

1回答

如何使用Standford分类器打印到文件

我正在为我的项目使用Standford Classifier。这个项目需要训练数据来调整算法，然后测试数据以将文本输入分类为类别。所以测试和训练数据的格式是制表符分隔的文本，这意味着预测器-TAB- input text 该软件打印输出到stdout（命令行）。无论如何输出到一个文本文件？我搜查了javadoc的项目网站，我发现this one http://image.prntscr.c

0热度

1回答

在循环中访问与smbinning.gen（）列表中的列表

基本上我试图自动化评分建模工作流程，并遇到输入从循环产生的结果从smbinning()的问题，因此记录在名单。结果本身就是一个列表，所以我列出了一堆列表。当我尝试将结果（连续变量的存储区）添加到数据框中时出现问题。我发现无法提供进入列表级别所需的语法。我尝试通过引用列号来解决此问题，并试图从循环中传递相应的列表名称。我得到的错误是： [.data.frame（df，，col_id）中的错误：选择了

0热度

1回答

的BP神经网络

我喜与神经网络，现在玩。我做了那种本教程的重新实现的： http://www.ai-junkie.com/ann/evolved/nnt5.html，但随着鱼类和食品也有不同的编程语言。但重点是一样的。我有一堆鱼（20）和一堆foos（40）。每条鱼都有大脑（神经网络（我将从现在开始使用ANN））。目前，神经网络不使用backprop，并通过遗传alghoritm进行训练。它工作正常。我想通过使

-1热度

1回答

想知道下面的百分比，我们可以说班级不平衡？

我确定在这里有人经历过类似这样的事情......我有一个包含4个类的数据集，其中一个是3％的表示，我认为它是代表不足，所以我做了一些重采样方法，但你猜怎么了？它的分类精度没有改变，除了在没有重采样方法的情况下，分类精度最多只有1或2％！因此，我想知道数据中3％的班级代表是否可以被视为代表性不足？