2010-09-29 100 views
1

我正在读硕士学位。在计算机科学和刚刚完成源的第一年。 (这是两年的课程)。很快,我必须提交一份关于硕士学位的提案。项目。我选择了以下主题。 “机器学习/信息检索项目

”机器学习在信息检索系统中对文档排序的适用性“。研究人员一直在使用各种机器学习算法对文档进行排序。因此,作为项目的第一阶段,我将进行一次完整的文献调查,并找出当前方法的优缺点。在项目的第二阶段,我将提出一种新的(修改的)算法,以克服当前方法的局限性。

其实我的问题是这种类型的项目是否适合作为理学硕士。项目?此外,如果有人在信息检索领域有一些有趣的想法,是否有可能与我分享这些想法。

感谢

+2

在计算机科学理论栈交换站点(http://cstheory.stackexchange.com)上问你可能会更好。 – Ferruccio 2010-09-29 10:30:43

回答

6

排名始终是任何信息检索系统中最难的部分。我认为这是一个非常好的主题,但你必须小心 - 尽快 - 界定工作范围。可能你不能开发一个新的IR引擎,而是建立一个基于例如apache lucene的原型。

目前有很多数据集,包括stackoverflow数据转储,它提供了你需要定义一个丰富的特征向量的所有信息(点数,时间,你可以挖掘以前的问题等主题,标签的流行度)为你机器学习排名算法。在这部分工作中,您可以例如对特征类型(例如用户特定的,语义特征 - 标题中的软件名称)进行分类,并执行一系列实验以了解哪些特征是最重要的,哪些特征不适用于给定的数据集。

这样的项目的第二个方向可以是如何高效地进行学习。背后的原因是网络或社区论坛中的数据量以及论坛中的变化(如果您采用社区特定功能,这一点很重要),例如技术变更,新软件发布等。

有许多其他与搜索和机器学习相关的主题。最好的想法是在scholar.google.com上搜索最近关于排名,机器学习和搜索的调查报告,以了解最新的技术。下一步就是与你的MSc主管交谈。

祝你好运!

1

一切你说的是好,应该做的,但你忘了最重要的部分:

证明你的算法是更好的和/或比其他算法快,具有良好的实验,也许一些统计数据(p值,置信区间)。

如果你做到这一点,让人们相信你的算法是非常有用的,你一定不会失败:)

+0

这通常不需要硕士学位。项目或论文。你可以获得你的硕士学位。即使你的修改或新想法并不比现有的更好。 – 2014-09-20 14:45:47