2017-05-09 50 views
-3

我目前正在研究我的一项工作,我正在考虑一些特定的想法和新的方法来解决它,所以我真的希望我可以得到来自该领域专家的帮助:-)。想要应用机器学习算法来分析复杂数据

我目前正在对历史数据的复杂数据集进行分析,这些数据集表示构建海上平台的成本与当前领域的发现资源之间的关系(或者可以使用年产量的平均值)。每个数据点都有一组参数,如地理来源,主要碳氢化合物类型,水深,到最近基础设施的距离,平台类型等(共10个参数)。 这个想法是构建一个趋势线,可以用来预测未来领域的成本,因为后者的生产/资源总是被报告。

总的趋势是,如果资源/产量增加,成本就会增加。因此,在模型中可以很容易地观察到一些线性,但是在这种情况下,由于我们在数据集中给出了很多不同的信息,所以简单的线性回归太虚拟了。

我完成了应用数学硕士学位,专攻数值方法和偏微分方程,但我现在面临的是一个相当常见的统计行业相关问题。我还假设这个任务是通过应用机器学习算法解决的一个完美的候选人,因为会不断增加越来越多的数据点,并且可以使用曲线/趋势线来进一步预测未来领域的成本,了解它们生产/资源和性质(参数)。但是,我完全陌生的这个领域,所以任何评论,资料等,从您将得到高度提前赞赏:-)

感谢

+1

欢迎来到Stackoverflow。首先 - 见http://stackoverflow.com/help/how-to-ask - 你应该有一个具体的问题来得到一个具体的答案,这个问题可能会被关闭,因为它可以得到意见的基础。虽然我们会尽力帮助你 – gusto2

回答

0

这个问题恕我直言非常广泛,没有真正具体的,所以你可能会得到广泛的不具体答案。

我相信你有一个很好的机器学习实现的用例。好工作。

我建议去找一些非常实用且实用的“how-to”资源。我真的很喜欢this ML course,它可以指示你从哪里开始,以及如何进行动手实践,例如将数据划分为学习,测试和交叉验证集,规范化,正则化,派生特征等。

通常情况下 - 您已经发现您的问题看起来像是具有多种功能的监督式机器学习。线性回归可能无法正常工作(如您所指出的),您可以尝试构建更复杂的模型,但不会过于复杂。我从具有正则化参数的多项式模型开始,并且看看是否有一些派生特征不适合。

但是只有你能看到你的数据是什么样的,什么可以是模型:)祝你好运

+0

非常感谢你的回答!我完全同意这个问题是广泛的,我不希望得到任何确切的答案。只是想让别人指点正确的方式。我认为堆栈溢出只是我能得到这种建议的最好的地方。我肯定会参加课程时代的课程!再次,非常感谢您的评论 –