अनचाही सीखने की समस्याओं में आयाम में कमी के बारे में साझा करने के लिए मेरे पास कुछ विचार हैं। जवाब देने में, मैंने मान लिया है कि आपकी रुचि "स्वचालित, टर्नकी, ब्लैक बॉक्स और" लो-टच "मशीन लर्निंग एप्रोच के विरोध में मानव सहभागिता wrt क्लस्टर व्याख्या में है, जिसमें व्याख्या जानबूझकर डी-ज़ोर की है । यदि यह उत्तरार्द्ध था, तो आप भी सवाल क्यों पूछ रहे होंगे? इसके अलावा, ध्यान दें कि मेरे पास रणनीतिक बी 2 सी विपणन, बी 2 बी टेक एरेनास और शिक्षा नीति (छात्रों और स्कूलों को जोड़ने) सहित वर्षों से व्यापार वातावरण की एक विस्तृत श्रृंखला में क्लस्टर समाधान चलाने का अनुभव है।
सबसे पहले, मेरे पास आपकी टिप्पणी के बारे में एक सवाल है "अलग-अलग डेटासेट्स को समूहीकृत करना"। मुझे नहीं पता था कि आपका क्या मतलब है या यह कैसे दृष्टिकोण को प्रभावित कर सकता है और उम्मीद कर रहा था कि आप विस्तृत कर सकते हैं।
मैं ऊपर # 1 में आपकी धारणा को चुनौती देना चाहूंगा कि पीसीए पर आधारित समाधान "व्याख्या करना कठिन है।" यहां तक कि क्लस्टरिंग में एक प्रारंभिक कदम के रूप में एक पीसीए चलाने के कारणों में ज्यादातर परिणामी समाधान की स्वच्छता के साथ करना है क्योंकि कई क्लस्टरिंग एल्गोरिदम अतिरेक की सुविधा के लिए संवेदनशील हैं। पीसीए इस अतिरेक को एक मुट्ठी भर घटकों में बदल देता है, जिससे आप उन चुनौतियों और कठिनाइयों को कम कर देते हैं, जो आप फीचर चयन के संबंध में नोट करते हैं। हालांकि यह सच है कि पीसीए से घटक आउटपुट व्यक्तिगत विशेषताओं की बारीकियों और विशिष्टता को धुंधला करते हैं, यह एक समस्या है यदि आप पूरी तरह से भरोसा करते हैंपरिणामों का विश्लेषण करने में उन घटकों पर। दूसरे शब्दों में, आप किसी भी तरह से क्लस्टर व्याख्या के लिए केवल घटकों का उपयोग करने के लिए बंद नहीं हैं। इतना ही नहीं, जरूरी नहीं कि आपको इस बात की भी परवाह न हो कि कारक आयामों का अर्थ क्या है। वे केवल एक मध्यवर्ती और (अंतत:) प्रयोज्य साधन हैं, जो एक समाधान योग्य समाधान की सुविधा प्रदान करते हैं। लेकिन इस बिंदु को बनाने में, मैं कई चिकित्सकों से अलग हूं क्योंकि टीम एक "सार्थक" कारक समाधान का निर्माण कर सकती है, कर सकती है। मेरे लिए, यह क्लाइंट समय और धन का एक अक्षम्य अपशिष्ट है।
इस बिंदु पर पता करने के लिए तकनीकी विचारों का एक नाव लोड होगा। एक के लिए, यदि आपका पीसीए एल्गोरिथ्म पैमाने पर अपरिवर्तनीय नहीं है (उदाहरण के लिए, ओएलएस बनाम एमएल है), तो किसी भी परिणामस्वरूप पीसीए समाधान विकृत हो जाएगा, उच्च विचरण विशेषताओं पर अधिक भारी लोड हो रहा है। इन मामलों में आपकी सुविधाओं को इस विचरण को समतल करने के लिए किसी तरह से पूर्वनिर्मित या रूपांतरित किया जाना चाहिए। यहां माध्य मानकीकरण, श्रेणी या IQR मानकीकरण, ipsative स्केलिंग, और इसी तरह की संभावनाओं की एक बड़ी संख्या है। उत्तोलन कि परिवर्तन सबसे अच्छा, सबसे व्याख्यात्मक समाधान देने।
एक बार क्लस्टर समाधान तैयार हो जाने के बाद, घटकों को अनदेखा करके और मूल विशेषताओं में वापस मोड़कर किसी भी अतिरिक्त वर्णनात्मक जानकारी के साथ सीधे समाधान में उपयोग नहीं किए जाने पर व्याख्या सबसे अच्छी तरह से प्रेरित होती है। इस बिंदु पर कुछ अनुमानी गुणात्मक अंतर्दृष्टि के लिए सबसे अच्छे मार्गदर्शक हैं। यह स्प्रेडशीट उत्पन्न करने में उतना आसान हो सकता है जो आपके क्लस्टर को प्रत्येक सुविधा (शीट की पंक्तियों), प्रत्येक क्लस्टर (कॉलम) के साथ-साथ आपके अतिरिक्त नमूने के लिए भव्य माध्य का प्रतिनिधित्व करने वाले अतिरिक्त कॉलम के लिए तैयार करता है। । फिर, ग्रैंड माध्य (और 100 से गुणा करके) के खिलाफ प्रत्येक सुविधा के लिए क्लस्टर औसत को अनुक्रमित करके, एक हेयुरिस्टिक बनाया जाता है जो कि "100" के आसपास एक IQ स्कोर इंफ़ार जैसा है "सामान्य" IQ या औसत व्यवहार, किसी विशेषता के लिए "सत्य" होने के लिए 120+ के अनुक्रमित उच्च संभावना के सूचक हैं, किसी क्लस्टर के व्यवहार के बारे में और 80 या उससे कम के अनुक्रमित, उन विशेषताओं के संकेत हैं जो क्लस्टर के "सत्य नहीं" हैं। 120 + और 80 या उससे कम के ये इंडेक्स समाधान ड्राइविंग में किसी दिए गए फीचर के महत्व के लिए प्रॉक्सी टी-टेस्ट की तरह हैं। बेशक, आप महत्व के समूह परीक्षणों के बीच दौड़ सकते हैं और, नमूना आकारों के आधार पर, ऐसे उत्तर मिलेंगे जो अंगूठे के इन त्वरित और गंदे नियमों के आसपास भिन्न होते हैं।
ठीक है ... उस सब के बाद, मान लीजिए कि आप अभी भी पीसीए को एक क्लस्टरिंग एल्गोरिथ्म में सीधे इनपुट के रूप में उपयोग करने का विरोध कर रहे हैं, समस्या यह है कि सुविधाओं के कम सेट का चयन कैसे करें। पीसीए अभी भी यहां उपयोगी हो सकता है क्योंकि पीसीए एक आश्रित चर के बिना प्रतिगमन चलाने की तरह हैं। प्रत्येक घटक पर शीर्ष लोडिंग सुविधाएँ क्लस्टर एल्गोरिथ्म में इनपुट बन सकती हैं।
बड़ी संख्या में सुविधाओं और आपके डेटा के अपेक्षाकृत छोटे नमूने के आकार के बारे में, कई "पूर्ण जानकारी" मल्टीवेरेट विश्लेषण में अंगूठे का विशिष्ट नियम प्रति विशेषता लगभग 10 अवलोकन है। इस चुनौती के इर्द-गिर्द काम करने के लिए कुछ विशेष तरीके हैं जिनका लाभ उठाया जा सकता है। उदाहरण के लिए, आंशिक रूप से कम से कम वर्ग (PLS) को पहली बार हर्मन वॉल्ड ने अपनी 1990 की पुस्तक सैद्धांतिक सैद्धांतिक अनुभव जैसे कि कैमीमेट्रिक्स जैसे क्षेत्रों में उपयोग के लिए विकसित किया था जो इस सटीक मुद्दे का सामना करते हैं। यह प्रकृति में कारक-विश्लेषणात्मक है लेकिन आयामों को उत्पन्न करने के लिए एक बड़े एन की आवश्यकता के लिए बहुत कम कठोर है। अन्य समाधानों में यादृच्छिक वन-जैसे, "विभाजित और जीतना" शामिल हैं, मशीन सीखने के दृष्टिकोण का उपयोग भारी मात्रा में जानकारी के साथ किया जाता है। इस पीडीएफ में इन तरीकों की समीक्षा की गई हैhttp://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf
लेकिन मान लीजिए कि आपने तय कर लिया है कि आप अभी भी कारक विश्लेषण से कोई लेना-देना नहीं चाहते हैं और किसी तरह की देखरेख, "अनुक्रमिक" चयन प्रक्रिया चलाने के लिए मृत हैं। मेरे विचार में, सबसे महत्वपूर्ण मुद्दा पोस्ट-हॉक प्रदर्शन मीट्रिक (डन इंडेक्स) खोजने के बारे में कम है और एक उपयुक्त प्रॉक्सी की पहचान करने के बारे में अधिक है - एक आश्रित चर - यहां तक कि इस दृष्टिकोण को संभव बनाने के लिए। यह निर्णय पूरी तरह से आपके निर्णय का एक कार्य है और एसएमई स्थिति आपके डेटा को प्रभावित करती है। इसके लिए कोई "सर्वोत्तम अभ्यास" नहीं हैं, बहुत कम आसान उत्तर हैं और यह देखते हुए कि आपने अपने डेटा का वर्णन कैसे किया है, कोई छोटी चुनौती नहीं।
एक बार जब यह निर्णय किया जाता है, तो चुनने के लिए सचमुच सैकड़ों संभव चर चयन समाधान होते हैं। परिवर्तनीय चयन एक विषय क्षेत्र है जिस पर प्रत्येक सांख्यिकीविद् और उनके भाई ने एक पेपर प्रकाशित किया है। आपका पसंदीदा तरीका "क्रमिक फॉरवर्ड सिलेक्शन" ठीक है।
यह ध्यान देने योग्य है कि पर्यवेक्षित शिक्षण मॉडल मौजूद हैं जो एल्गोरिथ्म के भाग के रूप में क्लस्टर समाधान में गुना हैं। इसके उदाहरणों में अव्यक्त वर्ग मॉडल के रूप में ज्ञात बड़े और अत्यधिक लचीले दृष्टिकोण शामिल हैं। एलसी मॉडल का सार यह है कि वे दो चरण हैं: एक चरण में एक डीवी को परिभाषित किया गया है और एक प्रतिगमन मॉडल बनाया गया है। दूसरे चरण में, मॉडल से अवशिष्ट आउटपुट में किसी भी विषमता - एक अव्यक्त वेक्टर - को अव्यक्त "वर्गों" में विभाजित किया गया है। इस CV चर्चा में LC मॉडलिंग का अवलोकन यहाँ किया गया है ... अव्यक्त वर्ग बहुराष्ट्रीय लॉगिट मॉडल संदेह
उम्मीद है की यह मदद करेगा।