क्लस्टरिंग समस्याओं के लिए सुविधा का चयन


9

मैं समूह का एक साथ अलग-अलग डेटासेट बनाने की कोशिश कर रहा हूं, जिसमें अप्रयुक्त एल्गोरिदम (क्लस्टरिंग) का उपयोग किया गया है। समस्या यह है कि मेरे पास कई विशेषताएं हैं (~ 500) और मामलों की एक छोटी राशि (200-300)।

अब तक मैं केवल वर्गीकरण समस्याओं के लिए करता था जिसके लिए मैंने हमेशा प्रशिक्षण सेट के रूप में डेटा लेबल किया था। वहाँ मैंने कुछ मापदंड (यानी random.forest.importance या information.gain) का उपयोग सुविधाओं के प्रसार के लिए किया था और फिर मैंने प्रासंगिक विशेषताओं को खोजने के लिए विभिन्न शिक्षार्थियों के लिए एक क्रमिक फॉरवर्ड चयन का उपयोग किया।

अब मैं देखता हूं कि अनियंत्रित सीखने के मामले में मेरे पास न तो किसी भी तरह के मानदंड हैं और न ही मैं अनुक्रमिक फॉरवर्ड चयन (कम से कम एमएलआर पैकेज में नहीं) का उपयोग कर सकता हूं।

मैं सोच रहा था कि क्या मैं अपने क्लस्टरिंग एल्गोरिदम को फीका करने के लिए सुविधाओं की एक छोटी संख्या खोजने से पहले एक प्रमुख घटक विश्लेषण कर सकता हूं। या आपके पास कोई अन्य विचार है?

धन्यवाद

संपादित करें:

ठीक है, इसलिए ऑनलाइन कुछ शोध के बाद मैं अपने प्रश्न को थोड़ा अपडेट कर सकता हूं: सबसे पहले मैंने कुछ लेख पढ़े हैं जो एल्गोरिदम को क्लस्टर करने से पहले पीसीए के उपयोग को हतोत्साहित करते हैं, दो कारणों से:

  • पीसी सभी सुविधाओं के कार्य हैं, इसलिए इनलेट डेटा सेट के परिणाम को संबंधित करना कठिन है और इस प्रकार व्याख्या करना कठिन है

  • इसके अलावा, अगर आपको यह समस्या है कि वास्तव में आपकी विशेषताओं का एक बहुत छोटा अंश ही क्लस्टरिंग करने में सहायक है, तो यह नहीं कहा जाता है कि ये विशेषताएं नमूनों के बीच सबसे बड़े विचरण का भी वर्णन कर रही हैं (जो कि पीसी करते हैं)

इसलिए पीसीए टेबल से दूर है ...

अब मैं क्लस्टरिंग के लिए एक क्रमिक फॉरवर्ड चयन करने के लिए अपने प्रारंभिक विचार पर वापस आ गया हूं।

आप किस प्रदर्शन माप की सलाह देंगे? (मैंने डन-इंडेक्स के बारे में सोचा) कौन सी क्लस्टरिंग एल्गोरिदम से कम या ज्यादा समान आकार वाले क्लस्टर बनेंगे? (पदानुक्रमिक क्लस्टरिंग के लिए मुझे आमतौर पर एक क्लस्टर मिलता है जिसमें एक एकल बाहरी और बाकी सभी के साथ -> तो मुझे कुछ ऐसा चाहिए होगा जो किसी तरह आउटलेर से बचाता है)

आशा है कि आप लोग मेरी मदद कर सकते हैं ...


बेतरतीब समस्याओं में यादृच्छिक जंगलों को लागू किया जा सकता है। और मुझे लगता है कि आप अभी भी इस प्रक्रिया में कुछ जानकारीपूर्ण विशेषताएं निकाल सकते हैं।
अमनिता किकी

जवाबों:


11

अनचाही सीखने की समस्याओं में आयाम में कमी के बारे में साझा करने के लिए मेरे पास कुछ विचार हैं। जवाब देने में, मैंने मान लिया है कि आपकी रुचि "स्वचालित, टर्नकी, ब्लैक बॉक्स और" लो-टच "मशीन लर्निंग एप्रोच के विरोध में मानव सहभागिता wrt क्लस्टर व्याख्या में है, जिसमें व्याख्या जानबूझकर डी-ज़ोर की है । यदि यह उत्तरार्द्ध था, तो आप भी सवाल क्यों पूछ रहे होंगे? इसके अलावा, ध्यान दें कि मेरे पास रणनीतिक बी 2 सी विपणन, बी 2 बी टेक एरेनास और शिक्षा नीति (छात्रों और स्कूलों को जोड़ने) सहित वर्षों से व्यापार वातावरण की एक विस्तृत श्रृंखला में क्लस्टर समाधान चलाने का अनुभव है।

सबसे पहले, मेरे पास आपकी टिप्पणी के बारे में एक सवाल है "अलग-अलग डेटासेट्स को समूहीकृत करना"। मुझे नहीं पता था कि आपका क्या मतलब है या यह कैसे दृष्टिकोण को प्रभावित कर सकता है और उम्मीद कर रहा था कि आप विस्तृत कर सकते हैं।

मैं ऊपर # 1 में आपकी धारणा को चुनौती देना चाहूंगा कि पीसीए पर आधारित समाधान "व्याख्या करना कठिन है।" यहां तक ​​कि क्लस्टरिंग में एक प्रारंभिक कदम के रूप में एक पीसीए चलाने के कारणों में ज्यादातर परिणामी समाधान की स्वच्छता के साथ करना है क्योंकि कई क्लस्टरिंग एल्गोरिदम अतिरेक की सुविधा के लिए संवेदनशील हैं। पीसीए इस अतिरेक को एक मुट्ठी भर घटकों में बदल देता है, जिससे आप उन चुनौतियों और कठिनाइयों को कम कर देते हैं, जो आप फीचर चयन के संबंध में नोट करते हैं। हालांकि यह सच है कि पीसीए से घटक आउटपुट व्यक्तिगत विशेषताओं की बारीकियों और विशिष्टता को धुंधला करते हैं, यह एक समस्या है यदि आप पूरी तरह से भरोसा करते हैंपरिणामों का विश्लेषण करने में उन घटकों पर। दूसरे शब्दों में, आप किसी भी तरह से क्लस्टर व्याख्या के लिए केवल घटकों का उपयोग करने के लिए बंद नहीं हैं। इतना ही नहीं, जरूरी नहीं कि आपको इस बात की भी परवाह न हो कि कारक आयामों का अर्थ क्या है। वे केवल एक मध्यवर्ती और (अंतत:) प्रयोज्य साधन हैं, जो एक समाधान योग्य समाधान की सुविधा प्रदान करते हैं। लेकिन इस बिंदु को बनाने में, मैं कई चिकित्सकों से अलग हूं क्योंकि टीम एक "सार्थक" कारक समाधान का निर्माण कर सकती है, कर सकती है। मेरे लिए, यह क्लाइंट समय और धन का एक अक्षम्य अपशिष्ट है।

इस बिंदु पर पता करने के लिए तकनीकी विचारों का एक नाव लोड होगा। एक के लिए, यदि आपका पीसीए एल्गोरिथ्म पैमाने पर अपरिवर्तनीय नहीं है (उदाहरण के लिए, ओएलएस बनाम एमएल है), तो किसी भी परिणामस्वरूप पीसीए समाधान विकृत हो जाएगा, उच्च विचरण विशेषताओं पर अधिक भारी लोड हो रहा है। इन मामलों में आपकी सुविधाओं को इस विचरण को समतल करने के लिए किसी तरह से पूर्वनिर्मित या रूपांतरित किया जाना चाहिए। यहां माध्य मानकीकरण, श्रेणी या IQR मानकीकरण, ipsative स्केलिंग, और इसी तरह की संभावनाओं की एक बड़ी संख्या है। उत्तोलन कि परिवर्तन सबसे अच्छा, सबसे व्याख्यात्मक समाधान देने।

एक बार क्लस्टर समाधान तैयार हो जाने के बाद, घटकों को अनदेखा करके और मूल विशेषताओं में वापस मोड़कर किसी भी अतिरिक्त वर्णनात्मक जानकारी के साथ सीधे समाधान में उपयोग नहीं किए जाने पर व्याख्या सबसे अच्छी तरह से प्रेरित होती है। इस बिंदु पर कुछ अनुमानी गुणात्मक अंतर्दृष्टि के लिए सबसे अच्छे मार्गदर्शक हैं। यह स्प्रेडशीट उत्पन्न करने में उतना आसान हो सकता है जो आपके क्लस्टर को प्रत्येक सुविधा (शीट की पंक्तियों), प्रत्येक क्लस्टर (कॉलम) के साथ-साथ आपके अतिरिक्त नमूने के लिए भव्य माध्य का प्रतिनिधित्व करने वाले अतिरिक्त कॉलम के लिए तैयार करता है। । फिर, ग्रैंड माध्य (और 100 से गुणा करके) के खिलाफ प्रत्येक सुविधा के लिए क्लस्टर औसत को अनुक्रमित करके, एक हेयुरिस्टिक बनाया जाता है जो कि "100" के आसपास एक IQ स्कोर इंफ़ार जैसा है "सामान्य" IQ या औसत व्यवहार, किसी विशेषता के लिए "सत्य" होने के लिए 120+ के अनुक्रमित उच्च संभावना के सूचक हैं, किसी क्लस्टर के व्यवहार के बारे में और 80 या उससे कम के अनुक्रमित, उन विशेषताओं के संकेत हैं जो क्लस्टर के "सत्य नहीं" हैं। 120 + और 80 या उससे कम के ये इंडेक्स समाधान ड्राइविंग में किसी दिए गए फीचर के महत्व के लिए प्रॉक्सी टी-टेस्ट की तरह हैं। बेशक, आप महत्व के समूह परीक्षणों के बीच दौड़ सकते हैं और, नमूना आकारों के आधार पर, ऐसे उत्तर मिलेंगे जो अंगूठे के इन त्वरित और गंदे नियमों के आसपास भिन्न होते हैं।

ठीक है ... उस सब के बाद, मान लीजिए कि आप अभी भी पीसीए को एक क्लस्टरिंग एल्गोरिथ्म में सीधे इनपुट के रूप में उपयोग करने का विरोध कर रहे हैं, समस्या यह है कि सुविधाओं के कम सेट का चयन कैसे करें। पीसीए अभी भी यहां उपयोगी हो सकता है क्योंकि पीसीए एक आश्रित चर के बिना प्रतिगमन चलाने की तरह हैं। प्रत्येक घटक पर शीर्ष लोडिंग सुविधाएँ क्लस्टर एल्गोरिथ्म में इनपुट बन सकती हैं।

बड़ी संख्या में सुविधाओं और आपके डेटा के अपेक्षाकृत छोटे नमूने के आकार के बारे में, कई "पूर्ण जानकारी" मल्टीवेरेट विश्लेषण में अंगूठे का विशिष्ट नियम प्रति विशेषता लगभग 10 अवलोकन है। इस चुनौती के इर्द-गिर्द काम करने के लिए कुछ विशेष तरीके हैं जिनका लाभ उठाया जा सकता है। उदाहरण के लिए, आंशिक रूप से कम से कम वर्ग (PLS) को पहली बार हर्मन वॉल्ड ने अपनी 1990 की पुस्तक सैद्धांतिक सैद्धांतिक अनुभव जैसे कि कैमीमेट्रिक्स जैसे क्षेत्रों में उपयोग के लिए विकसित किया था जो इस सटीक मुद्दे का सामना करते हैं। यह प्रकृति में कारक-विश्लेषणात्मक है लेकिन आयामों को उत्पन्न करने के लिए एक बड़े एन की आवश्यकता के लिए बहुत कम कठोर है। अन्य समाधानों में यादृच्छिक वन-जैसे, "विभाजित और जीतना" शामिल हैं, मशीन सीखने के दृष्टिकोण का उपयोग भारी मात्रा में जानकारी के साथ किया जाता है। इस पीडीएफ में इन तरीकों की समीक्षा की गई हैhttp://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf

लेकिन मान लीजिए कि आपने तय कर लिया है कि आप अभी भी कारक विश्लेषण से कोई लेना-देना नहीं चाहते हैं और किसी तरह की देखरेख, "अनुक्रमिक" चयन प्रक्रिया चलाने के लिए मृत हैं। मेरे विचार में, सबसे महत्वपूर्ण मुद्दा पोस्ट-हॉक प्रदर्शन मीट्रिक (डन इंडेक्स) खोजने के बारे में कम है और एक उपयुक्त प्रॉक्सी की पहचान करने के बारे में अधिक है - एक आश्रित चर - यहां तक ​​कि इस दृष्टिकोण को संभव बनाने के लिए। यह निर्णय पूरी तरह से आपके निर्णय का एक कार्य है और एसएमई स्थिति आपके डेटा को प्रभावित करती है। इसके लिए कोई "सर्वोत्तम अभ्यास" नहीं हैं, बहुत कम आसान उत्तर हैं और यह देखते हुए कि आपने अपने डेटा का वर्णन कैसे किया है, कोई छोटी चुनौती नहीं।

एक बार जब यह निर्णय किया जाता है, तो चुनने के लिए सचमुच सैकड़ों संभव चर चयन समाधान होते हैं। परिवर्तनीय चयन एक विषय क्षेत्र है जिस पर प्रत्येक सांख्यिकीविद् और उनके भाई ने एक पेपर प्रकाशित किया है। आपका पसंदीदा तरीका "क्रमिक फॉरवर्ड सिलेक्शन" ठीक है।

यह ध्यान देने योग्य है कि पर्यवेक्षित शिक्षण मॉडल मौजूद हैं जो एल्गोरिथ्म के भाग के रूप में क्लस्टर समाधान में गुना हैं। इसके उदाहरणों में अव्यक्त वर्ग मॉडल के रूप में ज्ञात बड़े और अत्यधिक लचीले दृष्टिकोण शामिल हैं। एलसी मॉडल का सार यह है कि वे दो चरण हैं: एक चरण में एक डीवी को परिभाषित किया गया है और एक प्रतिगमन मॉडल बनाया गया है। दूसरे चरण में, मॉडल से अवशिष्ट आउटपुट में किसी भी विषमता - एक अव्यक्त वेक्टर - को अव्यक्त "वर्गों" में विभाजित किया गया है। इस CV चर्चा में LC मॉडलिंग का अवलोकन यहाँ किया गया है ... अव्यक्त वर्ग बहुराष्ट्रीय लॉगिट मॉडल संदेह

उम्मीद है की यह मदद करेगा।


इतने बड़े पैमाने पर मेरे प्रश्न का उत्तर देने के लिए समय निकालने के लिए धन्यवाद। सबसे पहले यह मज़ेदार है कि आपने केमोमेट्रिक्स का उल्लेख किया है क्योंकि यह ठीक उसी क्षेत्र है जिस पर मैं काम कर रहा हूं। मैं अलग-अलग नमूनों के माप में क्लस्टर खोजने की कोशिश कर रहा हूं और मेरी विशेषताएं एनएमआर-स्पेक्ट्रम में सिग्नल हैं। यह भी मुख्य कारण है कि मैंने पीसीए को इतनी जल्दी छोड़ने के बारे में सोचा, क्योंकि मेरे विश्लेषण का लक्ष्य मुट्ठी भर वास्तविक सुविधाओं (संकेतों) से संबंधित है। मैं क्रमिक चयन का उपयोग करते हुए मृत नहीं हूं, यह अभी तक मैंने उपयोग किया है। आपके द्वारा दिए गए लिंक पर मेरी नज़र होगी।
जॉनडो

जो कि केमियोट्रिक्स के बारे में मज़ेदार है। वॉल्ड की किताब एक अच्छी रीड है, बस सामान्य रूप से। किस तरह के "विषयों" में नमूने शामिल हैं? और nmrs इमेजिंग क्या हैं?
माइक हंटर

नमूने जलीय पौधे के अर्क हैं और 1H-nmr ​​स्पेक्ट्रा लेते हैं। मेरा कार्य विशुद्ध रूप से अन्वेषणात्मक है। मैं किसी भी क्लस्टर को खोजने वाला हूं जिसे हम बाद में अलग-अलग जीनोटाइप से संबंधित करना चाहते हैं या पौधे की विभिन्न विशेषताओं जैसे सूखा-तनाव-प्रतिरोध, आदि। मेटाबोलाइट्स का सही सेट खोजने के लिए एक अच्छा प्रारंभिक बिंदु खोजना आसान नहीं है। / सुविधाएँ जो समूहों को विभाजित करने में मदद करती हैं, क्योंकि विभिन्न प्रश्नों के लिए अलग-अलग विशेषताओं द्वारा किए गए अलग-अलग क्लस्टर होंगे।
जॉनडू

इसलिए, मुझे लगा कि अनुक्रमिक दृष्टिकोण सबसे अच्छा काम कर सकता है: - डेटा को क्लस्टर करने के लिए सुविधाओं का एक सेट खोजें - फिर उन विशेषताओं को पूरे सेट से हटा दें और इस तरह से शुरू करें मैं कई समूहों के समूहों को खोजने की उम्मीद कर रहा हूं जो बाद में संबंधित हो सकते हैं अलग-अलग सवाल
जॉनडू

1
विचार करने के लिए कुछ पूर्व-निर्धारित या परिभाषित समूहों के समूहों के साथ किसी खोजपूर्ण कार्य की तुलना कर रहा है, जिसे "पुष्टिकरण" क्लस्टर विश्लेषण भी कहा जाता है। मैं यह सुझाव देता हूं क्योंकि यह आपको और आपकी टीम को लगता है कि क्लस्टर फंक्शन के बारे में कुछ मजबूत अंतर्विरोध हैं, जैसे, "सूखा-तनाव-प्रतिरोध।" मुझे लगता है कि आप पाएंगे कि खोजपूर्ण कार्य बेहतर अंतर्दृष्टि और परिणाम प्रदान करेंगे। खोजपूर्ण क्लस्टरिंग आपके डेटा में उपलब्ध पूरी जानकारी का लाभ उठाती है, जबकि "पुष्टिकारक" असाइनमेंट नियम आमतौर पर सुविधाओं के सापेक्ष मुट्ठी भर में बड़े होते हैं
माइक हंटर

1

आप सभी की जरूरत क्लस्टरिंग गुणवत्ता का एक मानदंड है। यहां यह विचार है: आप ट्रेन और परीक्षण पर डेटा को विभाजित करते हैं, ट्रेन भाग पर क्लस्टरिंग का निर्माण करते हैं; परीक्षण सेट (निकटतम क्लस्टर द्वारा) के प्रत्येक तत्व को क्लस्टर करने के लिए इस क्लस्टरिंग का उपयोग करें; परीक्षण सेट पर एक अलग क्लस्टरिंग का निर्माण; पूर्वानुमानित क्लस्टरिंग के साथ परीक्षण में क्लस्टरिंग की समानता पाते हैं। यह समानता क्लस्टरिंग गुणवत्ता की कसौटी है। अब, इस समानता को कैसे मापें आप पर निर्भर है। एक बार जब आप इसे प्राप्त करते हैं, तो आप इस समानता को अधिकतम करने के लिए सुविधाओं के सबसेट का चयन करते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.