मुलायम-थ्रेसिंग बनाम लासो दंड


11

मैं संक्षेप में प्रस्तुत करने के लिए क्या मैं अब तक उच्च आयामी डेटा सेट के साथ दंडित मल्टीवेरिएट विश्लेषण में समझा कोशिश कर रहा हूँ, और मैं अभी भी का एक उचित परिभाषा हो रही के माध्यम से संघर्ष नरम थ्रेशोल्डिंग बनाम कमंद (या ) दण्डनीय ठहराए।L1

अधिक सटीक रूप से, मैंने जीनोमिक डेटा ( एकल न्यूक्लियोटाइड बहुरूपताओं सहित 2-ब्लॉक डेटा संरचना का विश्लेषण करने के लिए विरल पीएलएस प्रतिगमन का उपयोग किया , जहां हम एक संख्यात्मक चर के रूप में माने जाने वाले रेंज {0,1,2} में मामूली एलील की आवृत्ति पर विचार करते हैं) और निरंतर फेनोटाइप (स्कोरिंग व्यक्तित्व लक्षण या मस्तिष्क विषमता, निरंतर चर के रूप में भी माना जाता है)। अंतर-व्यक्तिगत फेनोटाइपिक विविधताओं को समझाने के लिए विचार सबसे प्रभावशाली भविष्यवक्ताओं (यहां, डीएनए अनुक्रम पर आनुवंशिक विविधताएं) को अलग करना था।

मैंने शुरू में मिक्समिक्स आर पैकेज (पूर्व में integrOmics) का इस्तेमाल किया था जिसमें पीएलएस प्रतिगमन और सीसीए को नियमित करने की सुविधा थी । R कोड को देखते हुए, हमने पाया है कि भविष्यवक्ताओं में "स्पार्सिटी" केवल वें घटक, (एल्गोरिथ्म ) पर उच्चतम लोडिंग (पूर्ण मान में) के साथ शीर्ष वेरिएबल्स का चयन करके प्रेरित है। घटकों पर पुनरावृत्ति और गणना चर लोडिंग है , प्रत्येक पुनरावृत्ति पर पूर्वसूचक ब्लॉक को परिभाषित करते हुए , स्पार्स पीएलएस देखें : ओवलिक्स डेटा को एक सिंहावलोकन के लिए एकीकृत करते समय चर चयन )। इसके विपरीत, spls पैकेज एस Keleş सह-लेखक हैं (देखेंi i = 1 , , k k L 1kii=1,,kkइन लेखकों द्वारा किए गए दृष्टिकोण के एक अधिक औपचारिक विवरण के लिए लिटर रिग्रेसमेंट सिमलियस डायमेंशन रिडक्शन और वैरिएबल सेलेक्शन के लिए होता है) पेनलिएशन के लिए -पीनेलाइजेशन को लागू ।L1

मेरे लिए यह स्पष्ट नहीं है कि क्या कोई सख्त "आक्षेप" है, इसलिए यह कहना है कि सॉफ्ट- और नियमितीकरण के आधार पर पुनरावृत्ति सुविधा चयन के बीच । तो मेरा सवाल है: क्या दोनों के बीच कोई गणितीय संबंध है?L1

संदर्भ

  1. चुन, एच। और केल, एस।, एस (2010), एक साथ आयाम में कमी और चर चयन के लिए आंशिक रूप से कम से कम वर्गरॉयल स्टैटिस्टिकल सोसाइटी जर्नल: सीरीज बी , 72 , 3–25।
  2. ले काओ, के। ए।, रोसौव, डी।, रॉबर्ट-ग्रेनी, सी।, और बेसे, पी। (2008), ए स्पार्स पीएलएस फॉर वेरिएबल सिलेक्शन जब इंटीग्रेटिंग ओमिक्स डेटाआनुवांशिकी और आणविक जीवविज्ञान में सांख्यिकीय अनुप्रयोग , 7 , अनुच्छेद 35।

जवाबों:


2

मैं क्या कहूंगा कि प्रतिगमन के लिए धारण है, लेकिन पीएलएस के लिए भी सच होना चाहिए। इसलिए यह कोई आपत्ति नहीं है क्योंकि आप में बाधक को लागू करने पर निर्भर करते हुए , आपके पास विभिन्न प्रकार के 'उत्तर' होंगे, जबकि दूसरा समाधान केवल संभावित उत्तर (जहाँ चर की संख्या है) को स्वीकार करता है <-> 'ट्रंकेशन' फॉर्मूलेशन की तुलना में फॉर्मूलेशन में अधिक समाधान ।पी पी एल 1l1ppl1


@kwak ठीक है, LARS एल्गोरिथ्म चर महत्व पर सरल थ्रेसहोल्डिंग की तुलना में काफी अधिक परिष्कृत लगता है, लेकिन मुद्दा यह है कि मुझे दंड पैरामीटर और # चर के बीच एक स्पष्ट संबंध नहीं दिखता है जिसे मॉडल में रखने के लिए कहा जाता है; यह मुझे लगता है कि हम जरूरी एक दंड पैरामीटर नहीं पा सकते हैं जो चर का एक निश्चित # तय करेगा।
chl

@chl:> S-PLS का मतलब है? (आपने LARS लिखा है जो आपके द्वारा चर्चा किए गए एल्गोरिथम से अलग चीज है)। दरअसल, दंड पैरामीटर और घटक के # के बीच एक नीरस संबंध है, लेकिन यह एक रैखिक संबंध नहीं है और यह संबंध प्रति मामले के आधार पर भिन्न होता है (डेटासेट / समस्या निर्भर है)।
user603

जब तक मैं भ्रामक नहीं हूँ, तब तक @kwak L1-दंड LARS का उपयोग करके प्राप्त किया जा सकता है। आपका दूसरा बिंदु वह है जो वास्तव में मेरे मन में है; क्या आपके पास उस बिंदु के बारे में कोई संदर्भ है?
chl

@chl:> * L1- पेनल्टी LARS का उपयोग करके प्राप्त की जा सकती है, जब तक कि मैं भ्रामक नहीं हूँ * मुझे यह नहीं पता था (और यह संदेह का प्रकार)। क्या आप एक संदर्भ प्रदान कर सकते हैं? धन्यवाद। अपने दूसरे प्रश्न के लिए: लसो हुई ज़ो, ट्रेवर हस्ती और रॉबर्ट टिब्शिरानी स्रोत: ऐन की "स्वतंत्रता की डिग्री" पर गौर करें। सांख्यिकीविद। वॉल्यूम 35, नंबर 5 (2007), 2173-2192। (कई अनगढ़ संस्करण हैं)।
user603

1
@kwak टिबशिरानी के वेबपेज, www-stat.stanford.edu/~tibs/lasso.html और larsआर पैकेज की जाँच करें; अन्य विधियों में समन्वित वंश शामिल हैं (देखें JSS 2010 33 (1), bit.ly/bDNUFo ), और पायथन scikit.learnपैकेज दोनों दृष्टिकोण, bit.ly/bfhnZz शामिल हैं
chl

6

L1L1

L1XX1

X


(+1) इसके लिए धन्यवाद, विशेषकर फ्रीडमैन के पेपर को।
०१०
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.