如何评估预测概率的算法的有效性？

我需要评估预测事件发生概率的算法的有效性。如何评估预测概率的算法的有效性？

我目前的做法是使用“均方根误差”，即。误差平均值的平方根，如果事件发生，错误为1.0预测，或者如果事件未发生，则预测。

这些算法没有具体的应用，但常见的一种方法是预测每种选项发生的事件，然后选择最大化该选项的选项。我们的收益与具有最高预测概率的期权之间发生期望事件的比率成正比。

有人建议，RMSE可能不是最好的选择，我对其他人的意见很感兴趣。

来源

2010-01-31 sanity

用它来押马吗？这与编程一样重要，因为您的问题。 – 2010-01-31 22:32:44

甲chi-square test是一种广泛使用的分布健身测试：

Σ（O _我 - 电子_我）/E _我

其中ö_我是观察到的结果的频率i和E _i是预期的频率。该卡方检验要求最小样本量（约5或10，取决于分布，特别是分布的degrees of freedom）针对每个可能的结果。如果样品尺寸不符合要求，则需要申请耶茨修正：

Σ（| O _我 - 电子_我 | - 0.5）/E _我

免责声明：我不是统计员。上面可能会忽略一些较好的观点。我知道有一个很好的理由使用卡方比RMSE，但我不记得它是什么。

寻找讨论hypothesis testing的网页。

来源

2010-02-01 00:21:41 outis

我不确定我是否理解你的问题，所以这个答案可能对你没有用。

问题：
如何能一个测试是否用于计算系统在给定的状态下与实际概率被测试为的概率的算法。

推测这是一个系统，其中有一个或多个概率初始状态相互作用以产生最终状态，并且初始状态的分布是已知的。

这是一个问题，当试图估计科学计算的计算错误时会出现。

答：解决这个问题
一种方法是使用所谓的Monte Carlo simulation。

要做到这一点，您可以根据初始概率分布选择大量初始状态分布。对于每个初始状态，计算系统的最终状态。通过查看最终状态的分布，可以确定具有特定值的最终状态的可能性。

您现在可以比较模拟结果和算法结果。

尽管上面的描述听起来可能是技术性的，但在实践中这些描述相当容易编写。你可以在网上找到许多教程，尽管大多数人使用蒙特卡罗技术来解决一个稍微不同的问题。

例子：

假设你正在寻找在那里被扔一个硬币数量的系统。你想知道总硬币中有两个被翻转的可能性都是最终抬头。

你可以编写一个算法来预测这种可能性，其中的选项就是投掷硬币的数量。（当然，这个概率确切的计算。）

要做模拟，你首先要设置大量的初始状态。在每种初始状态下，您随机选择每枚硬币是头还是尾。你现在计算两枚硬币头高的结果数量，并将其与你的预测进行比较。

来源

2010-01-31 23:14:22 amicitas

问题是我有一堆数据，我知道发生了什么，我知道我预测会发生什么。我如何将它变成某种可用于评估相对于其他算法的“分数”？ – sanity 2010-01-31 23:39:12

啊。我使用的标准度量是误差的平方和。这与均方根误差相似，但解释更简单。我认为这通常是一种很好的度量标准，可以在适当的时候对错误进行加权。你有一个具体的例子吗？ – amicitas 2010-02-01 00:03:34

看一看ROC curves aka Receiver operating characteristics。

为了从维基百科页引证：

在信号检测理论，接收机操作特征（ROC），或简单地 ROC曲线，是一个曲线图的灵敏度比（1 - 特异性）为二元分类器系统作为其歧视阈值是不同的。 ROC也可以通过将真阳性分数（TPR = 真阳性率）与假阳性分数（FPR =假阳性率）分数等效表示。也称为相对工作特性曲线，因为它是比较两个工作特性（TPR & FPR）作为标准的变化。

ROC分析提供工具来选择可能最佳模型和从独立地欠佳者丢弃（并指定之前）的成本上下文或类分布。 ROC 分析与诊断决策的成本/收益分析直接相关，并且与诊断决策的成本/效益分析相关。中华民国曲线首先是由二战期间电气工程师和雷达工程师开发了检测在战斗中敌人的对象领域，也被称为信号检测理论，并很快心理学引入占的感性信号检测。 ROC分析自此之后已经在医学，放射学和其他地区使用几十年了，它已经在其他领域比如最近被引入像机器学习和数据挖掘。

它实际上比听起来容易，使比较容易 - '更好'的方法将直观地支配劣等方法的ROC曲线。

R有一些这方面的软件包。

来源

2010-02-01 16:29:58

这听起来像你预测的东西，取值为0或1的结果，对吗？如果是这样，你可以看看关于离散选择建模的讨论。 “选择”一词不应该字面意思。虽然大多数离散选择模型都是围绕人们解释人们每天做出的选择而设计的 - 购买这种产品或那种产品，乘坐火车或驾驶，采取一条路线上班或另一种路线 - 相同的模型已成功应用于赛狗和赛马。

关于这个问题的关键文本是由本 - 阿基瓦& Lerman和肯尼思列车。关于指定和拟合这些统计模型的信息，请查看“Logit模型”。

来源

2010-02-12 16:46:59 Grembo

如何评估预测概率的算法的有效性？

回答

相关问题