दिखा रहा है कि ओएलएस अनुमानक पैमाने पर संतुलन है?


11

मेरे पास स्केल इक्वेरिअन की औपचारिक परिभाषा नहीं है, लेकिन यहाँ पर सांख्यिकीय लर्निंग का परिचय पी के बारे में क्या कहता है। 217:

मानक न्यूनतम वर्ग गुणांक ... स्केल इक्वेरिएंट होते हैं : Xj को एक स्थिर गुणा cकरने पर बस कारक से कम से कम वर्ग गुणांक अनुमानों की स्केलिंग होती है 1/c

सादगी के लिए, आइए मान लें कि सामान्य रेखीय मॉडल , जहाँ , , , और में सभी प्रविष्टियों के साथ एक मैट्रिक्स (जहां ) है। साथ वास्तविक-मूल्यवान यादृच्छिक चर का एक - वेक्टर है ।ε एन [ ε ] = 0 एन × 1y=Xβ+ϵएक्स एन × ( पी + 1 ) पी + 1 < एन आर बीटा आर पी + 1yRNXN×(p+1)p+1<NRβRp+1ϵNE[ϵ]=0N×1

OLS आकलन से, हम जानते हैं कि अगर में पूर्ण (स्तंभ) रैंक है, तो मान लीजिए कि हमने एक कॉलम को गुणा किया है , तो कुछ लिए एक निरंतर द्वारा । यह मैट्रिक्स के बराबर होगा β एक्स = ( एक्स टी एक्स ) - 1 एक्स टी yएक्स एक्स कश्मीर कश्मीर { 1 , 2 , ... , पी + 1 } 0 एक्स [ 1X

β^X=(XTX)1XTy.
Xxkk{1,2,,p+1}c0
X[111c11]S=[x1x2cxkxp+1]X~
जिसमें मैट्रिक्स की अन्य सभी प्रविष्टियों से ऊपर हैं , और में है के विकर्ण की वें प्रविष्टि । फिर,S0ckSX~X~जैसा कि नई डिज़ाइन मैट्रिक्स है कुछ काम के बाद, कोई दिखा सकता है। ~ एक्स टी ~ एक्स =[ एक्स टी 1 एक्स 1 एक्स टी 1 एक्स 2सी एक्स टी 1 एक्स कश्मीरएक्स टी 1 एक्स पी + 1 एक्स टी 2 एक्स 1 एक्स टी 2 एक्स 2
β^X~=(X~TX~)1X~Ty.
X~TX~=[x1Tx1x1Tx2cx1Txkx1Txp+1x2Tx1x2Tx2cx2Txkx2Txp+1cxkTx1cxkTx2c2xkTxkcxkTxp+1xp+1Tx1xp+1Tx2cxp+1Txp+1xp+1Txp+1]
\ cdots & \ mathbf {x} _ {p + 1} ^ {T} \ mathbf {x} _ {p + 1} \\ \ end {bmatrix} और
X~Ty=[x1Tyx2TycxkTyxp+1Ty]
ऊपर बताए गए दावे को दिखाने के लिए मैं यहां से कैसे जाऊं (यानी, उस β^X~=1cβ^X )? यह मेरे लिए स्पष्ट नहीं है कि कैसे (\ tilde {\ mathbf {X}} ^ {T} \ tilde {\ mathbf {X}}) ^ {- 1} की गणना की जाए (X~TX~)1

मुझे लगता है कि आपका सही नहीं है, यह पूरी पंक्ति में एक गुणक याद कर रहा है । सीX~TX~c
फायरबग

1
यह भी ध्यान में रखें कि दावा , हर नहीं । ββ^k,new=1cβ^k,oldβ
फायरबग

@ फ़ायरबग येप, मैंने अभी पता लगाया है। मैं एक उत्तर पोस्ट कर रहा हूं।
शहनाई

2
आप इस सभी बीजगणित को बहुत सरल इकाइयों के विश्लेषण से बदल सकते हैं , क्योंकि को से गुणा से इसकी माप की इकाई मात्र बदल जाती है, और इसलिए इसके गुणांक से जुड़ी इकाइयों में संबंधित परिवर्तन इसे से विभाजित करना है । यह साबित नहीं करता है कि को , दुर्भाग्य से विभाजित किया जाना चाहिए । हालाँकि, विचार की यह श्रृंखला हमें याद दिला सकती है कि एक समय में एक खिलाफ कई प्रतिगमन के उत्तराधिकार द्वारा किया जा सकता है, जहां यह स्पष्ट है कि से विभाजित है , और इसलिए प्रमाण पूर्ण है। सी β जे सी β जे सी β जे सीXjcβjcβ^jcβ^jc
व्हीबर

@ व्हीबर, जबकि परिणाम के लिए अंतर्ज्ञान स्पष्ट है, ऐसा लगता है कि बस एक प्रमाण प्रस्तुत करने में बीजगणित का एक सा होना चाहिए। सब के बाद, स्केलिंग कारक को उल्टा करने की आवश्यकता है। c
user795305

जवाबों:


11

चूँकि उद्धरण में अभिकथन के स्तंभों को पुन: प्रस्तुत करने के बारे में कथनों का एक संग्रह है , इसलिए आप उन सभी को एक ही बार में सिद्ध कर सकते हैं। वास्तव में, मुखरता के सामान्यीकरण को सिद्ध करने में अधिक काम नहीं होता है:X

जब एक उलटी मैट्रिक्स द्वारा राइट गुणा किया जाता है , तो नए गुणांक अनुमान के बराबर है द्वारा छोड़ा-गुणा ।एक β एक β एक - 1XAβ^Aβ^A1

केवल ऐसे बीजगणितीय तथ्य जिनकी आपको आवश्यकता है (आसानी से सिद्ध, प्रसिद्ध व्यक्ति) कि किसी भी matrices और invertible matrices और । (सामान्यीकृत व्युत्क्रमों के साथ काम करते समय उत्तरार्द्ध का एक उप-संस्करण संस्करण आवश्यक होता है: उल्टे और और किसी , । )(AB)=BAAB(AB)1=B1A1ABABX(AXB)=B1XA1


बीजगणित द्वारा प्रमाण :

β^A=((XA)((XA))(XA)y=A1(XX)(A)1Ay=A1β^,

QED। (इस प्रमाण के पूरी तरह से सामान्य होने के लिए, सुपरस्क्रिप्ट एक सामान्यीकृत व्युत्क्रम को संदर्भित करता है।)


ज्यामिति द्वारा प्रमाण :

यह देखते हुए ठिकानों और की और , क्रमशः, से एक रेखीय परिवर्तन का प्रतिनिधित्व करता है करने के लिए । द्वारा दाएं-गुणा को इस परिवर्तन को तय करने के रूप में माना जा सकता है लेकिन को (अर्थात के कॉलम में )। आधार के उस परिवर्तन के तहत, किसी भी सदिश में प्रतिनिधित्व को द्वारा बाएं-गुणन के माध्यम से बदलना चाहिए ,EpEnRnRpXRpRnXAEpAEpAβ^RpA1QED

(यह सबूत तब काम करता है, जब तक कि इन्वर्टिबल नहीं है, अनमॉडिफाइड है।)XX


उद्धरण विशेष रूप से विकर्ण मैट्रिक्स के मामले को संदर्भित करता है साथ के लिए और ।AAii=1ijAjj=c


कनेक्शन कम से कम वर्गों के साथ

यहां इसका उद्देश्य परिणाम प्राप्त करने के लिए पहले सिद्धांतों का उपयोग करना है, सिद्धांत कम से कम वर्गों के साथ है: गुणांक का आकलन करना जो अवशेषों के वर्गों के योग को कम करता है।

फिर से, एक (विशाल) सामान्यीकरण साबित करना अधिक कठिन नहीं है और यह खुलासा करता है। मान लें कि वास्तविक सदिश स्थानों का कोई भी नक्शा (रैखिक या नहीं) है और मान लें कि पर कोई वास्तविक-मूल्यवान फ़ंक्शन है । चलो (संभवतः खाली) अंक के सेट हो जिसके लिए कम से कम है।

ϕ:VpWn
QWnUVpvQ(ϕ(v))

परिणाम: , जो केवल और द्वारा निर्धारित किया गया है , में वैक्टर का प्रतिनिधित्व करने के लिए उपयोग किए जाने वाले किसी भी विकल्प पर निर्भर नहीं करता है ।UQϕEpVp

प्रमाण: QED

साबित करने के लिए कुछ नहीं है!

परिणाम के अनुप्रयोग: Let पर सकारात्मक semidefinite द्विघात रूप हो , चलो , और लगता है कि है एक रेखीय का प्रतिनिधित्व करती map जब के आधार और को चुना जाता है। परिभाषित करें । के आधार चुनें और लगता है कुछ का प्रतिनिधित्व है उस आधार में। यह कम से कम वर्ग है : वर्ग दूरी । क्योंकिFRnyRnϕXVp=RpWn=RnQ(x)=F(y,x)Rpβ^vUx=Xβ^F(y,x)Xएक रेखीय मानचित्र है, जो के आधार को बदलकर कुछ इनवर्टेड मैट्रिक्स द्वारा राइट-गुणा से मेल खाता है । यह , QED द्वारा बाएँ-से-गुणा करेगा ।RpXAβ^A1


6

कम से कम वर्गों के अनुमानक को परिभाषित करें , जहां डिज़ाइन मैट्रिक्स पूर्ण रैंक है। यह मानते हुए कि स्केलिंग मैट्रिक्स उल्टा है।β^=argminβRpyXβ22XRn×pSRp×p

इस नए स्केल किए गए अनुमानक को परिभाषित करें । इसका मतलब यह है कि सभी । को परिभाषित करते हुए , हम ऊपर प्रदर्शित इस असमानता को रूप में फिर से लिख सकते हैं सभी लिए। । इसलिए , और यह निम्न प्रकार का अनुमान लगाता है कि स्केलिंग मैट्रिक्स के इन्वर्टिबिलिटी के कारणα~=argminαRpyXSα22

yXSα~22<yXSα22
αα~β~=Sα~
yXβ~22<yXβ22
ββ~β~=argminβRpyXβ22
β^=β~=Sα~.
S, यह उस अनुसरण करता है । हमारे मामले में, से केवल अलग है द्वारा प्रवेश द्वारा बढ़ाया जा रहा है ।α~=S1β^β^kth1c

1
मैं परिचित नहीं हूं क्योंकि मुझे और इसी तरह के कार्यों के साथ काम करना चाहिए - क्या आप अपने दूसरे से तीसरी पंक्ति के समीकरणों में संक्रमण की व्याख्या कर सकते हैं? arg min
क्लारनटिस्ट

मैंने इसे थोड़ा अलग तरीके से लिखा है, जो चरणों को अधिक स्पष्ट करना चाहिए।
user795305

यह वास्तव में चतुर है। (+1)
शहनाई

4

मैंने प्रश्न पोस्ट करने के बाद यह पता लगाया। यदि मेरा काम सही है, लेकिन मैंने दावे को गलत बताया। केवल स्केलिंग के एक घटक पर होता है के स्तंभ के लिए इसी से गुणा किया जा रहा ।1cβXc

ध्यान दें कि ऊपर स्थित संकेतन में , एक विकर्ण, सममित मैट्रिक्स है और इसका व्युत्क्रम होता है (क्योंकि यह विकर्ण है) ध्यान दें कि एक मैट्रिक्स है। मान लीजिए कि S(p+1)×(p+1)

S1=[1111c11].
(X~TX~)1(p+1)×(p+1)
(XTX)1=[z1z2zkzp+1].
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
इसलिए, और इसे गुणा करके का एक समान प्रभाव पड़ता है जो द्वारा को गुणा करता है - यह समान रहता है, से गुणा किया जाता है
S1(XTX)1=[z1z21czkzp+1]
S1XS1czk1c : इसलिए।
S1(XTX)1S1=[z1z21c2zkzp+1].
β^X~=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][x1Tyx2TycxkTyxp+1Ty]=[z1x1Tyz2x2Ty1czkxkTyzp+1xp+1Ty]
वांछित।

एक टाइपो में । आपको स्थानांतरित करने की आवश्यकता है । S1(XTX)1S1(XS)y(XS)
जॉनके

3

सबसे तुच्छ सबूत कभी

आप अपने रैखिक समीकरण के साथ शुरू करते हैं: अब आप अपने रजिस्टरों के पैमाने को बदलना चाहते हैं, शायद मीट्रिक सिस्टम से इंपीरियल में परिवर्तित कर सकते हैं, आप किलोग्राम से पाउंड, मीटर से गज तक आदि जानते हैं, इसलिए आप ऊपर आते हैं। रूपांतरण मैट्रिक्स के साथ जहां प्रत्येक परिवर्तनशील गुणांक (स्तंभ) के लिए है, जिसे मैट्रिक्स मैट्रिक्स में डिजाइन करता ।

Y=Xβ+ε
S=diag(s1,s1,,sn)siiX

आइए समीकरण को फिर से लिखें:

Y=(XS)(S1β)+ε

अब यह बहुतायत से स्पष्ट है कि स्केलिंग आपके समीकरण की रैखिकता की संपत्ति है, गुणांक के आकलन की ओएलएस विधि नहीं। रैखिक समीकरण के साथ अनुमान पद्धति के बावजूद, आपके पास यह है कि जब रजिस्टरों को रूप में बढ़ाया जाता है तो आपके नए गुणांक को रूप में स्केल किया जाना चाहिएXSS1β

केवल ओएलएस के लिए बीजगणित द्वारा प्रमाण

स्केलिंग यह है: जहां प्रत्येक चर (कॉलम) का स्केल फैक्टर, और , का स्केल किया गया संस्करण है । आइए तिरछे पैमाने के मैट्रिक्स को । आपका OLS आकलनकर्ता है बजाय स्केल्ड मैट्रिक्स प्लग करें और कुछ मैट्रिक्स बीजगणित का उपयोग करें : तो, आप देखते हैं कि कैसे नया गुणांक बस पुराने गुणांक को कम कर दिया जाता है, जैसा कि अपेक्षित था।

Z=Xdiag(s1,s2,...,sn)
siZXSdiag(s1,s2,...,sn)
β^=(XTX)1XTY
ZX
(ZTZ)1ZTY=(STXTXS)1STXTY=S1(XTX)1S1SXTY=S1(XTX)1XTY=S1β^

2
मुझे आपके दृष्टिकोण पसंद हैं, लेकिन "अब तक का सबसे तुच्छ प्रमाण" है। आपने स्पष्ट रूप से मान लिया है, और फिर भी यह दिखाने की आवश्यकता है, कि फिर से लिखे गए मॉडल में मूल के समान ही फिट होना चाहिए। इसे और अधिक सख्ती से रखें: यदि हम एक फिटिंग प्रक्रिया को एक फ़ंक्शन , जहां सभी संभावित डेटा का सेट है (जिसे हम ऑर्डर की गई जोड़ी रूप में लिख सकते हैं ) और सभी संभावित गुणांक अनुमानों का सेट है, फिर आपको यह प्रदर्शित करने की आवश्यकता है सभी इनवर्टेबल , सभी और सभी लिए । (यह हमेशा सच नहीं है!)δ:MRpM(X,Y)Rpδ(X,Y)=S1δ(XS,Y)SXY
व्हीबर

@ वाउचर, वास्तव में यह दूसरा तरीका है: उचित फिटिंग प्रक्रिया को इस स्थिति को संतुष्ट करना चाहिए, अन्यथा माप की इकाई का एक सरल परिवर्तन एक अलग पूर्वानुमान / अनुमान का उत्पादन करेगा। मैं अपने उत्तर को अपडेट करूंगा, इसके बारे में थोड़ा
सोचूंगा

मैं सहमत हूं - लेकिन मैं उन मामलों में अपवादों की कल्पना कर सकता हूं जहां पूर्ण रैंक का नहीं है। यह मेरे लिए सुझाव दिया है कि स्थिति काफी तुच्छ नहीं है क्योंकि यह प्रतीत हो सकता है। X
व्हबेर

3
शाही दोस्त, शाही नहीं ...: D (अच्छा जवाब, +1)
us11r11852

@ usεr11852, मैं कुछ आज सीखा :)
Aksakal

2

इस परिणाम को प्राप्त करने का एक आसान तरीका यह है कि याद रखें कि का स्तंभ स्थान पर का प्रक्षेपण है। गुणांक का वेक्टर है जब को रैखिक के रूप में व्यक्त किया जाता है के कॉलम का संयोजन । यदि कुछ कॉलम को कारक द्वारा स्केल किया जाता है , तो यह स्पष्ट है कि रैखिक संयोजन में संबंधित गुणांक को द्वारा स्केल किया जाना चाहिए ।y^yX. β^y^Xc1/c

चलो के मूल्यों हो और जब एक स्तंभ द्वारा मापे जाने OLS समाधान के मूल्यों होbiβ^aic.

b1x1+...+bixi+...+bmxm=a1x1+...ai(cxi)+...+anxn

तात्पर्य है कि जहाँ और , यह मानते हुए कि के स्तंभ रैखिक रूप से स्वतंत्र हैं। j i b i = a i c Xbj=ajjibi=aicX

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.