मैं कैसे बता सकता हूं कि पीसीए परिणामों में कोई पैटर्न नहीं है?


9

मेरे पास 19 चरों के 1000+ नमूने का डेटासेट है। मेरा उद्देश्य अन्य 18 चर (बाइनरी और निरंतर) के आधार पर एक द्विआधारी चर की भविष्यवाणी करना है। मुझे पूरा विश्वास है कि 6 पूर्वानुमानित चर द्विआधारी प्रतिक्रिया के साथ जुड़े हुए हैं, हालांकि, मैं डेटासेट का विश्लेषण करना चाहूंगा और अन्य संघों या संरचनाओं की तलाश करूंगा जो मुझे याद आ रहे हों। ऐसा करने के लिए, मैंने पीसीए और क्लस्टरिंग का उपयोग करने का निर्णय लिया।

पीसीए को सामान्यीकृत डेटा पर चलाने पर, यह पता चलता है कि विचरण के 85% को बनाए रखने के लिए 11 घटकों को रखा जाना चाहिए। यहाँ छवि विवरण दर्ज करें जोड़ीदार की साजिश रचकर मुझे यह मिलता है: यहाँ छवि विवरण दर्ज करें

मुझे यकीन नहीं है कि आगे क्या है ... मुझे pca में कोई महत्वपूर्ण पैटर्न नहीं दिखता है और मैं सोच रहा हूं कि इसका क्या मतलब है और अगर यह इस तथ्य के कारण हो सकता है कि कुछ चर द्विआधारी हैं। 6 क्लस्टर के साथ एक क्लस्टरिंग एल्गोरिथ्म चलाने से मुझे निम्नलिखित परिणाम मिलते हैं जो कि वास्तव में सुधार नहीं है हालांकि कुछ बूँदें बाहर (पीले वाले) लगती हैं। यहाँ छवि विवरण दर्ज करें

जैसा कि आप शायद बता सकते हैं, मैं पीसीए का विशेषज्ञ नहीं हूं, लेकिन कुछ ट्यूटोरियल देखे और कैसे उच्च आयामी अंतरिक्ष में संरचनाओं की एक झलक पाने के लिए यह शक्तिशाली हो सकता है। प्रसिद्ध MNIST अंकों (या IRIS) डेटासेट के साथ यह बहुत अच्छा काम करता है। मेरा सवाल यह है: पीसीए से अधिक समझ बनाने के लिए मुझे अब क्या करना चाहिए? क्लस्टरिंग कुछ भी उपयोगी नहीं लगता है, मैं यह कैसे कह सकता हूं कि पीसीए में कोई पैटर्न नहीं है या मुझे पीसीए डेटा में पैटर्न खोजने के लिए आगे क्या प्रयास करना चाहिए?


आप भविष्यवाणियों को खोजने के लिए पीसीए क्यों कर रहे हैं? कुछ अन्य विधि का उपयोग क्यों नहीं करते? जैसे आप एक रसद reg में सभी, आप LASSO इस्तेमाल कर सकते हैं, तो आप एक पेड़ मॉडल बना सकते हैं उन्हें शामिल हो सकते हैं, वहाँ जीतना, बढ़ाने है आदि
पीटर Flom

विशेष रूप से आप "पैटर्न" से क्या मतलब है कि पीसीए प्रकट करने के लिए अच्छा है?
ttnphns

@ttnphns मैं क्या करने की कोशिश कर रहा हूँ टिप्पणियों द्विआधारी प्रतिक्रिया मैं भविष्यवाणी करने के लिए कोशिश कर रहा हूँ के परिणाम की व्याख्या बेहतर करने के लिए आम में कुछ हो सकता है के कुछ उपसमूह को मिल रहा है (यह आंशिक रूप से से प्रेरित है everydayanalytics.ca/2014/ 06 /… )। इसके अलावा iris डाटासेट पर pca और क्लस्टरिंग का उपयोग करना प्रजातियों ( scikit-learn.org/stable/auto_examples/decomposition/… ) को अलग करने के लिए उपयोगी है, हालांकि यह सुपर-आसान है क्योंकि हम पहले से ही क्लस्टर की संख्या जानते हैं।
मक्केक

@PeterFlom मैं पहले से ही लॉजिस्टिक रिग्रेशन और एक रैंडम फ़ॉरेस्ट मॉडल चला रहा हूं और वे शालीनता से प्रदर्शन कर रहे हैं, हालाँकि मैं डेटा की और जाँच करना चाहूँगा।
मक्केक

जवाबों:


7

आपने समझाया कि विचरण प्लॉट मुझे बताता है कि पीसीए यहां व्यर्थ है। 11/18 61% है, इसलिए 85% विचरण को समझाने के लिए आपको अपने 61% चर की आवश्यकता है। मेरी राय में पीसीए के लिए ऐसा नहीं है। मैं पीसीए का उपयोग करता हूं जब 18 के 3-5 कारक 95% या तो विचरण करते हैं।

अद्यतन: पीसी की संख्या द्वारा समझाया गया विचरण के संचयी प्रतिशत के भूखंड को देखें। यह ब्याज दर संरचना संरचना क्षेत्र से है। आप देखते हैं कि 3 घटक कुल विचलन के 99% से अधिक कैसे समझाते हैं। यह पीसीए विज्ञापन के लिए एक बना हुआ उदाहरण जैसा लग सकता है :) हालांकि, यह एक वास्तविक चीज है। ब्याज दर के कार्यकाल बहुत सहसंबद्ध हैं, यही कारण है कि पीसीए इस एप्लिकेशन में बहुत स्वाभाविक है। दर्जनों किरायेदारों के एक जोड़े से निपटने के बजाय, आप सिर्फ 3 घटकों से निपटते हैं।

यहाँ छवि विवरण दर्ज करें


यही मुझे पहली बार में शक हुआ। मैंने इसे सीधे इंगित नहीं किया क्योंकि मुझे नहीं पता कि पीसीए के बारे में इतना साहसिक बयान देना है। क्या यह कहना सुरक्षित है कि जब x% से अधिक घटकों की आवश्यकता होती है तो PCA एक सहायता के लिए बहुत अधिक नहीं है? मेरा मतलब है, आवेदन के उदाहरणों में, मैंने देखा, आमतौर पर कुछ घटक सबसे अधिक विचरण को समझाते हैं।
मीकक

@ मिकक, कोई ठोस नियम नहीं है। मेरे लिए संकेत उत्तलता है, विचरण समझाया ग्राफ। यदि आप इसे पीसी की संख्या द्वारा बताए गए कुल विचरण के संचयी प्रतिशत के रूप में आकर्षित करते हैं, तो आप एक बहुत अवतल ग्राफ देखना चाहते हैं। आपका रैखिक रैखिक के करीब होता है: प्रत्येक घटक डेटा के बारे में लगभग एक ही जानकारी ले जाता है, इस मामले में मूल डेटा के बजाय पीसीए का उपयोग क्यों करें?
अक्कल

नए उदाहरण के साथ संपादित बहुत मददगार था।
मीकक

5

यदि आपके पास है एन>1000 नमूने और केवल पी=19भविष्यवाणियों यह सिर्फ एक मॉडल में सभी भविष्यवाणियों का उपयोग करने के लिए बहुत उचित होगा। उस स्थिति में एक पीसीए कदम अच्छी तरह से अनावश्यक हो सकता है।

यदि आप आश्वस्त हैं कि केवल चर का एक उपसमूह वास्तव में व्याख्यात्मक है, एक विरल प्रतिगमन मॉडल का उपयोग करके, जैसे कि लोचदार नेट, आपको इसे स्थापित करने में मदद कर सकता है।

इसके अलावा, मिश्रित प्रकार के इनपुट (बाइनरी बनाम वास्तविक, अलग-अलग तराजू आदि ) का उपयोग करके पीसीए परिणामों की व्याख्या, सीवी प्रश्न यहां देखें ) इतना सीधा नहीं है और जब तक ऐसा करने का कोई स्पष्ट कारण न हो, आप इससे बचना चाह सकते हैं।


4

मैं आपके प्रश्न की व्याख्या करने जा रहा हूँ जैसे मैं कर सकता हूँ। मुझे पता है अगर यह आपके अर्थ बदल जाता है।

मुझे पूरा विश्वास है कि भविष्यवाणी करने वाले 6 में से 6 द्विआधारी प्रतिक्रिया के साथ जुड़े हैं [लेकिन] मुझे pca में कोई महत्वपूर्ण पैटर्न दिखाई नहीं देता है

मुझे आपके जोड़ीदार में स्थिरता के अलावा कोई भी "महत्वपूर्ण पैटर्न" नहीं दिखता है। वे सब सिर्फ मोटे तौर पर परिपत्र बूँदें हैं। मैं उत्सुक हूं कि आप क्या देखने की उम्मीद कर रहे हैं। स्पष्ट रूप से अलग बिंदु समूहों में से कुछ युग्मक हैं? कुछ भूखंड रैखिक के बहुत करीब हैं?

आपके पीसीए परिणाम - सबसे अच्छे युग्मकों और शीर्ष 11 प्रमुख घटकों में कैप्चर किए गए केवल 85% विचरण - द्विआधारी प्रतिक्रिया भविष्यवाणी के लिए 6 चर के बारे में आपके कूबड़ को पर्याप्त नहीं बताते हैं।

इन स्थितियों की कल्पना करें:

  1. अपने पीसीए परिणाम बताते हैं कि 99% विचरण 6 प्रमुख घटकों द्वारा कैप्चर किया गया है।

    यह 6 भविष्यवक्ता चर के बारे में अपने कूबड़ का समर्थन करने के लिए लग सकता है - शायद आप उस 6 आयामी अंतरिक्ष में एक विमान या किसी अन्य सतह को परिभाषित कर सकते हैं जो कि बिंदुओं को बहुत अच्छी तरह से वर्गीकृत करता है, और आप उस सतह का उपयोग द्विआधारी भविष्यवक्ता के रूप में कर सकते हैं। जो मुझे नंबर 2 पर लाता है ...

  2. मान लें कि आपके शीर्ष 6 प्रमुख घटकों में युग्मक हैं जो इस तरह दिखते हैं

    जोड़ीपोट्स में "पैटर्न"।

    लेकिन चलो कलर कोड को एक मनमाना द्विआधारी प्रतिक्रिया कहते हैं

    "पैटर्न" बेकार है।

    यद्यपि आप 6 चर में लगभग सभी (99%) चर को पकड़ने में कामयाब रहे, फिर भी आपको अपने द्विआधारी प्रतिक्रिया की भविष्यवाणी करने के लिए स्थानिक पृथक्करण की गारंटी नहीं है।

आपको वास्तव में कई संख्यात्मक थ्रेसहोल्ड (जो कि 6 आयामी स्थान में सतहों के रूप में प्लॉट किए जा सकते हैं) की आवश्यकता हो सकती है, और आपके बाइनरी वर्गीकरण के लिए एक बिंदु की सदस्यता उन थ्रेसहोल्ड में से प्रत्येक के लिए उस बिंदु के संबंध से बने एक जटिल सशर्त अभिव्यक्ति पर निर्भर हो सकती है। लेकिन यह सिर्फ एक उदाहरण है कि कैसे एक द्विआधारी वर्ग की भविष्यवाणी की जा सकती है। प्रतिनिधित्व, प्रशिक्षण और भविष्यवाणी के लिए डेटा संरचनाओं और विधियों का एक टन है। यह एक टीजर है। उद्धरण के लिए,

अक्सर मशीन सीखने की समस्या को हल करने का सबसे कठिन हिस्सा नौकरी के लिए सही अनुमान लगाने वाला हो सकता है।


1
क्योंकि यह मुस्कुराते हुए चेहरे का, वास्तव में अच्छा है है असहसंबद्ध! मुझे अच्छा लगा।
अमीबा

@amoeba, आप असंबद्ध पीसी से स्माइली चेहरा कर सकते हैं?
अक्कल १६'१५ को

@ अक्षल, हां, स्माइली स्कैटर प्लॉट मुझे लगता है कि शून्य सहसंबंध प्रदर्शित करता है। Kdbanman, मैं अद्यतन की सराहना करता हूं, +1।
अमीबा

@amoeba, ठीक है, आपका मतलब रैखिक संबंध है।
अक्कल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.