कई डेटा स्रोतों से बना शिथिल संरचित डेटा (जैसे वेब टेबल / लिंक्ड ओपन डेटा) का एक सेट मान लें। डेटा के बाद कोई सामान्य स्कीमा नहीं है और प्रत्येक स्रोत मूल्यों का वर्णन करने के लिए समानार्थी विशेषताओं का उपयोग कर सकता है (उदाहरण के लिए "राष्ट्रीयता" बनाम "जन्मजात")।
मेरा लक्ष्य कुछ "महत्वपूर्ण" विशेषताओं को खोजना है जो किसी भी तरह से उन संस्थाओं को "परिभाषित" करते हैं जो वे वर्णन करते हैं। इसलिए, जब मुझे ऐसी विशेषता के लिए समान मूल्य मिलेगा, तो मुझे पता चलेगा कि दो विवरण एक ही इकाई (जैसे एक ही व्यक्ति) के बारे में सबसे अधिक संभावना है।
उदाहरण के लिए, विशेषता "अंतिम नाम" विशेषता "राष्ट्रीयता" की तुलना में अधिक भेदभावपूर्ण है।
मैं (सांख्यिकीय रूप से) ऐसी विशेषताएं कैसे पा सकता हूं जो दूसरों की तुलना में अधिक महत्वपूर्ण हैं?
एक भोली समाधान प्रत्येक विशेषता के मूल्यों के औसत आईडीएफ को लेना होगा और इसे विशेषता का "महत्व" कारक बनाना होगा। एक समान दृष्टिकोण यह गिनना होगा कि प्रत्येक विशेषता के लिए कितने भिन्न मूल्य दिखाई देते हैं।
मैंने मशीन लर्निंग में टर्म फीचर, या विशेषता चयन को देखा है, लेकिन मैं शेष विशेषताओं को नहीं छोड़ना चाहता, मैं केवल सबसे महत्वपूर्ण लोगों को उच्च भार डालना चाहता हूं।