我想知道,如果有人有一个很好的方法如何匹配基于分类(非序数)变量的两个观测值。 我正在进行的练习是根据兴趣和其他特征(非有序或有序)分类变量,将导师与导师相匹配。基于分类变量相似度的匹配观测
可变可能值
体育“棒球”,“足球”,“篮球”(...)
婚姻状况“单身,没有孩子”, “单身,年幼的孩子”,“已婚,没有孩子”,“已婚,年幼的孩子”,(...)
工作水平1,2,3,4,5,6
产业“零售”,“财经”,“批发”,(...)
也有指标是否有任何变量对人员重要。我知道,我可以强制婚姻状况变成一个或两个有序的变量,如(单身,已婚,寡妇)和(“无孩子”,“年幼的孩子”,“长大的孩子”)。但我不知道如何处理行业和体育运动,因为他们没有合理的顺序。我的计划最初是使用聚类技术根据最短距离或给定的点来找到导师与男子组之间的匹配。但是如果变量对他们来说很重要(如“是”,“否”),那么这会忽略人们可以决定的事实。 现在,我想通过使用嵌套的IF语句来检查它是否具有蛮力逻辑,这些语句检查是否存在基于重要性和实际值的完美匹配。否则检查是否有匹配的记录全部匹配,但有一个类别等。这看起来效率很低,所以我希望如果有人遇到类似的问题,我会找到一个更好的方法来处理这个问题。
为重要性序列创建两个变量(例如:“YesNoYesNoNo”)和一个针对兴趣的变量(例如“BasketballSingleNokids6Retail”),然后采用模糊匹配是否有意义?
最好的问候,