मैं वैक्टर के जोड़े की तलाश कर रहा हूं जिनमें कम से कम विशेषताएं हैं।L
यह बाइनरी फीचर वैक्टर का सिर्फ एक आंतरिक उत्पाद है। जब आंतरिक उत्पाद से अधिक है , तो जोड़ी में कम से कम तत्व होंगे। यह एक अपेक्षाकृत तेज गणना होना चाहिए - कम से कम, यूक्लिडियन दूरी की तुलना में तेज, जो इस डेटा के लिए बेकार और धीमा होगा। क्योंकि आप निर्धारित है कि आप जोड़े के लिए देख रहे हैं, यह होगा स्वाभाविक मतलब है कि आप क्या करना है हर वेक्टर तुलना करने के लिए संगणना।L−1L(N2)
अंक जो एक साथ पास हैं वास्तव में एक क्लस्टरिंग समस्या है। लेकिन क्लस्टरिंग एल्गोरिदम का पहला चरण जो मैं परिचित हूं, वह जोड़ीदार दूरी या समानता की गणना कर रहा है। मुझे यकीन है कि किसी ने अधिक कुशल विकल्प विकसित किए हैं। शब्दावली के बारे में एक बिंदु: कम से कम आम पड़ोसियों को एक समानता के रूप में दर्शाया जाता है , दूरी नहीं! आंतरिक उत्पाद हैं, इस मामले में, असमान कॉशन समानताएं हैं।L
अवलोकन के लिए फ़ीचर वेक्टर (जो इस मामले में आदर्श के समान है) का योग से अधिक होने पर , केवल आंतरिक उत्पाद संगणना करके आप इसे और अधिक सुगम बना सकते हैं , क्योंकि यह बाइनरी फ़ीचर वेक्टर के लिए असंभव है एक अन्य बाइनरी फ़ीचर वेक्टर के साथ एक आंतरिक उत्पाद है जो मेरी कसौटी को पूरा करेगा जब यह राशि से कम होगी । जाहिर है, इन रकमों की गणना केवल जटिलता है, इसलिए मैं आंतरिक उत्पाद चरण की भयावहता को कम करने का एक सस्ता तरीका है।L−1LO(N)
लेकिन इस समस्या के दायरे को कम करने का क्लासिक तरीका अतिरिक्त प्री-फिल्टरिंग करना है। क्या आप विशेष रूप से रुचि रखते हैं जब एक, कुछ असामान्य विशेषता मान 1 लेता है? यदि ऐसा है, तो केवल उन फ़ीचर वैक्टर के लिए गणना करें।
या शायद आप अपनी समस्या को फिर से तैयार करने से लाभान्वित हो सकते हैं। उदाहरण के लिए, नमूने में अच्छे गुण पाए जाते हैं; इस विचार पर हीनतापूर्ण आँकड़े काफी गहराई तक विकसित होते हैं। इसलिए शायद पूरे डेटा सेट का विश्लेषण करना संभव नहीं है, लेकिन छोटे नमूने की जांच करना पूरी तरह संभव है। मुझे नहीं पता कि आप किस प्रश्न का उत्तर देने का प्रयास कर रहे हैं, लेकिन यदि आप सावधानीपूर्वक अपने प्रयोग को डिजाइन करते हैं, तो आप केवल कुछ हज़ार टिप्पणियों को देख कर दूर हो सकते हैं, सत्यापन उद्देश्यों के लिए पर्याप्त डेटा से अधिक छोड़ दिया गया है।
कुछ अतिरिक्त विचार के बाद, मेरे पास एक मजबूत कूबड़ है कि आप जिस डेटा के साथ काम कर रहे हैं वह किसी प्रकार का ग्राफ । यह बहुत प्रशंसनीय है कि कई जुड़े घटकों से बना है, जिस स्थिति में आप डेटा के आयाम को कम करने के सुखद दुष्प्रभाव के साथ को रेखांकन के एक सेट में विघटित कर सकते हैं । भले ही ग्राफ लगभग एक ही आकार के दो जुड़े घटक हैं, इसका मतलब है कि आपके जोड़ीदार तुलनाओं में कुल लागत लगभग है!GGGO(N2)14
यदि ग्राफ़ सममित है, तो निम्नलिखित अवलोकन सहायक हो सकते हैं:
- अपने ग्राफ़ के लाप्लासियन को रूप में परिभाषित करें , जहां डिग्री का एक विकर्ण मैट्रिक्स है (प्रत्येक फीचर वेक्टर का योग) और आसन्न मैट्रिक्स (मैट्रिक्स में फीचर वैक्टर का ढेर) है।P=D−ADA
- एक प्रतिरूप के रूप में की संख्या दिखाई देती है के जुड़े घटकों की संख्या है । ग्राफ को उसके जुड़े हुए घटकों में बदलना और पूरी तरह से उन घटकों के साथ काम करना आपके डेटा के आयाम को कम करने का दुष्प्रभाव होगा; आपकी मात्रा की गणना करना आसान हो जाएगा। लेकिन eigendecomposition कंप्यूटिंग एक लाख कोने के लिए महंगा हो जाएगा ...0PG
- (एक पूर्ण क्रमपरिवर्तन के बाद) , के जुड़े हुए घटकों के लाप्लाशियनों का एक ब्लॉक विकर्ण मैट्रिक्स है ।PG
- P सकारात्मक धनात्मक है। यह किसी न किसी तरह लगभग निश्चित रूप से उपयोगी है।
- का बीजगणितीय संयोजकता के दूसरे सबसे छोटे प्रतिजन का मान है । यह आपको बताता है कि कितनी अच्छी तरह से जुड़ा हुआ है। शायद यह उन सवालों में से कुछ का जवाब देगा जो आप फिर से रुचि रखते हैं: वैक्टर जिसमें आम विशेषताएं हैं। स्पेक्ट्रल ग्राफ सिद्धांत इस विचार को कुछ और विस्तार से विकसित करता है।GPG
"क्या यह एसएनए समस्या है?" मुझे यकीन नहीं है। एक आवेदन में सुविधाओं के व्यवहार का वर्णन है और हम समान व्यवहार वाले लोगों को जोड़ने के लिए देख रहे हैं। क्या यह एक SNA समस्या है?
यदि आपके पास एक द्विदलीय ग्राफ है जो लोगों को व्यवहार से जोड़ता है, तो आप इसे संबद्ध नेटवर्क रूप में सोच सकते हैं , जिसमें लोग पंक्तियों और स्तंभों के रूप में व्यवहार करते हैं। यदि आप लोगों को उन व्यवहारों के माध्यम से लोगों से जोड़ना चाहते हैं जो उनके पास सामान्य हैं, तो आप गणना कर सकते हैं । उन व्यवहारों की संख्या है जो लोगों के पास समान हैं। जाहिर है, कोने का सेट जहां आपके प्रश्न का उत्तर देता है।BBBT=AAijAij≥L