क्या एक ऐसी विधि है जो आयामीता में कमी के विपरीत है?


9

मैं मशीन लर्निंग के क्षेत्र में नया हूं, लेकिन सिग्नल प्रोसेसिंग के अपने हिस्से का काम किया है। कृपया मुझे बताएं कि क्या यह प्रश्न गलत समझा गया है।

मेरे पास दो आयामी डेटा हैं जिन्हें कम से कम तीन चर द्वारा परिभाषित किया गया है, अत्यधिक गैर-रेखीय मॉडल तरीके से अनुकरण करने के लिए बहुत जटिल है।

पीसीए और आईसीए (पायथन लाइब्रेरी स्किट-लर्न से) जैसे तरीकों का उपयोग करके मुझे डेटा से दो मुख्य घटकों को निकालने में सफलता का स्तर अलग-अलग है, लेकिन ऐसा लगता है कि ये विधि (या कम से कम, इन तरीकों का कार्यान्वयन) सीमित है डेटा में आयाम जितने घटक हैं, उदाहरण के लिए, 2 डी पॉइंट क्लाउड से 2 घटक।

डेटा को प्लॉट करते समय, प्रशिक्षित आंख को यह स्पष्ट है कि तीन अलग-अलग रैखिक रुझान हैं, तीन रंग रेखाएं दिशाओं को दिखाती हैं।

डेटा प्लॉट

पीसीए का उपयोग करते समय, मुख्य घटक रंग लाइनों में से एक से जुड़ा होता है, और दूसरा 90 डिग्री पर होता है, जैसा कि अपेक्षित था। आईसीए का उपयोग करते समय, पहला घटक नीली रेखा के साथ गठबंधन किया जाता है, और दूसरा लाल और हरे रंग के बीच कहीं होता है। मैं एक ऐसे उपकरण की तलाश में हूं जो मेरे संकेत में सभी तीन घटकों को पुन: उत्पन्न कर सके।

संपादित करें, अतिरिक्त जानकारी: मैं यहाँ एक बड़े चरण के विमान के एक छोटे उपसमुच्चय में काम कर रहा हूँ। इस छोटे उपसमुच्चय में, प्रत्येक इनपुट चर विमान पर एक रैखिक परिवर्तन का उत्पादन करता है, लेकिन इस परिवर्तन की दिशा और आयाम गैर-रैखिक है और यह इस बात पर निर्भर करता है कि मैं जिस बड़े विमान में काम कर रहा हूं, वह वास्तव में कहां है। कुछ स्थानों पर, चर में से दो पतित हो सकते हैं: वे एक ही दिशा में परिवर्तन का उत्पादन करते हैं। उदाहरण के लिए, मान लें कि मॉडल X, Y और Z पर निर्भर करता है। वेरिएबल X में बदलाव से ब्लू लाइन में बदलाव होगा; वाई ग्रीन लाइन के साथ भिन्नता का कारण बनता है; जेड, लाल एक के साथ।


3
अगर मैं सही ढंग से समझूं, तो आप जिस अवधारणा की तलाश कर रहे हैं वह एम्बेडिंग है । को फिर से देखें गिरी तरीकों , और गिरी पीसीए विशेष रूप से।
एमरे

1
मुझे इस पर यकीन नहीं है, इसलिए मैं इसे एक जवाब के रूप में पोस्ट नहीं कर रहा हूं। एक तंत्रिका नेटवर्क प्रकार के मॉडल में, आप छिपी हुई परत आयामीता> इनपुट परत आयामीता रख सकते हैं। फिर आप किसी अन्य नेटवर्क / मॉडल के इनपुट के रूप में छिपी हुई परत का उपयोग कर सकते हैं। लेकिन ऐसा करने के लिए बहुत सारे डेटा की आवश्यकता होती है।
अजरेल

जब आप 2 डायमेंशनल डेटा कहते हैं, तो कम से कम तीन वेरिएबल्स द्वारा परिभाषित किया जाता है, आप किस अर्थ में 'वेरिएबल' शब्द का उपयोग करते हैं? क्या कक्षाएं एक उपयुक्त प्रतिस्थापन होगी? यह ध्यान देने योग्य है कि पीसीए डेटा से अधिकतम रूप से भिन्न आयाम निकालता है, यह आवश्यक रूप से लागू करने के लिए सबसे अधिक भेदभावपूर्ण परिवर्तन नहीं है। क्या आपने क्लस्टरिंग पर ध्यान दिया है?
image_doctor

क्या आप मॉडल की गैर-मौजूदगी के बारे में कुछ जानते हैं? यद्यपि यह अनुकरण करने के लिए बहुत जटिल हो सकता है, यह जानकर कि यह अधिकतम 3 डिग्री से बना है पॉलिनॉमिअल्स फीचर इंजीनियरिंग को काफी हद तक प्रतिबंधित करता है जैसे आप सभी 3 डी डिग्री पोल जोड़ सकते हैं और फिर पीसीए इसे वापस 3 डी में जोड़ सकते हैं।
AN6U5

मैंने अपने डेटा के व्युत्पन्न पर कर्नेल पीसीए का उपयोग करने का सुझाव देने वाले मेरे एक सांख्यिकीय मित्र के साथ चर्चा की है , क्योंकि मैं ढलान की तलाश में हूं। "सुविधा इंजीनियरिंग" के रूप में व्युत्पन्न गिनती लेना चाहेंगे?
फिलमाकाइ

जवाबों:


8

छोटा जवाब हां है।

अनिवार्य रूप से आप किसी प्रकार की सुविधा इंजीनियरिंग का प्रदर्शन करेंगे। इसका अर्थ है अक्सर आपके डेटा के कार्यों की एक श्रृंखला का निर्माण करना:

ϕj(x):RpR ,  j=1,...,K

जो, एक साथ हैं, एक रूपांतरित डेटा वेक्टर की लंबाई को परिभाषित करते हैं ।ϕ(x)K

इसे करने के कई तरीके, बेहतर और बदतर हैं। आप इस तरह की शर्तें देख सकते हैं:

  1. Splines और सामान्यीकृत additive मॉडल।
  2. कर्नेल ट्रिक (कैसे एक मॉडल बनाना है जहाँ )।K
  3. फ़ीचर इंजीनियरिंग (मैन्युअल किस्म का, उदाहरण के लिए अपने डेटा में कॉलम जोड़ते हुए )।x2
  4. गहन शिक्षण, प्रतिनिधित्व अधिगम

जैसा कि आप तकनीकों के ऐसे विविध बैग से अनुमान लगा सकते हैं, यह एक बड़ा क्षेत्र है। यह वास्तव में कहे बिना जाता है, लेकिन ओवरफिटिंग से बचने के लिए देखभाल करनी पड़ती है।

यह पेपर रिप्रेजेंटेशन लर्निंग: एक रिव्यू और न्यू पर्सपेक्टिव्स, लर्निंग पर्सपेक्टिव के नजरिए से कुछ खास मुद्दों के बारे में बताते हैं, जो किसी खास सेट को 'अच्छा' बनाते हैं।


-2

मुझे लगता है कि आप उन विशेषताओं की तलाश कर रहे हैं जो नई सुविधाओं को निकालते हैं। एक विशेषता जो डेटासेट का सबसे अच्छा प्रतिनिधित्व करती है। अगर ऐसा है तो हम इस तरह के तरीके को "फीचर एक्सट्रैक्शन" कहते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.