2011-03-01 95 views
0
  1. 我想知道,有什么直接的就是数据挖掘模型?任何人都可以解释吗?什么是数据挖掘模型?

  2. 当我使用Weka的,我把我的数据,选择方法,并通过点击开始按钮生成模型。任何人都可以解释这个模型背后的内容,以及模型在生成后的工作原理。它使用我选择的方法来分类示例?

请问有人能解释这些东西吗?

回答

3

该模型只是简单描述了试图处理新数据时使用的信息。在简单的垃圾邮件检测情况下,该算法可确定哪些词似乎指向垃圾邮件,哪些不会查看带注释的电子邮件。然后单词列表形成你的模型。

当收到新的电子邮件就不会与其他真正的电子邮件对它们进行比较,而不是你会考虑新的电子邮件的话,检查你的模型(字表)是否似乎表明垃圾邮件或没有。你会发现,你变得独立于你的训练数据,相反你有一个知识,试图模型整个“垃圾邮件与非垃圾邮件”的现实。

0

假设只有以下与音乐有关的变量:吉他独奏(有/没有),突然的音调变化(有/没有),声乐(有/没有,男性/女性),鼓(有/没有,正规/电子)。

现在,让我们假设你欣赏音乐时,它的吉他独奏,有突然变调,有女主唱,和电子鼓。另一方面,我喜欢音乐,当它有吉他独奏,突然变调,没有声音,并且有规律的鼓声)。

这些偏好可以被认为是我们欣赏音乐的模式。

现在,假设有其中有吉他独奏,突然变调,女主唱,和电子鼓一首歌曲。如果我们要告诉你是否喜欢这首歌曲,答案是肯定的,那是100%的匹配。但是我呢?那么,我欣赏这首歌的5个特点中的3个,所以我很可能喜欢它。

我们上面提供了关于升值与否歌曲的回答可以看作是在机器学习classification任务。现在,如果我们必须根据音乐偏好和上面的音乐特征将所有人分组,那么我们就是clustering音乐听众,等等。

我们如何建立一个模型的东西?当然,从数据。当您与Weka一起工作时,您的.arff文件包含您的训练数据,Weka用这些数据来了解这些数据所描绘的内容(在我们的例子中,它会学习我们的音乐偏好)。

学习过程会生成一个模型,用于对新数据进行分类,对它们进行分组等。例如,如果我们为Weka提供音乐偏好并指示其使用贝叶斯分类器学习模型,那么当我们提供它具有给定歌曲的特征,它将能够分辨出我们是否喜欢那首歌,并且以什么概率出现。