बायेसियन चर चयन - क्या यह वास्तव में काम करता है?


14

मुझे लगा कि मैं एक अच्छा ब्लॉग पोस्ट और उसके साथ जुड़े कागजात के बाद , कुछ बायेसियन चर चयन के साथ खिलौना सकता हूं । मैंने rjags में एक कार्यक्रम लिखा था (जहां मैं काफी धोखेबाज़ हूं) और एक्सॉन मोबिल के लिए मूल्य डेटा प्राप्त किया , साथ ही कुछ चीजें जो इसके रिटर्न (उदाहरण पैलेडियम की कीमतें) और अन्य चीजों की व्याख्या करने की संभावना नहीं हैं, जिन्हें बहुत अधिक (SP500 की तरह) होना चाहिए )।

दौड़ते हुए lm(), हम देखते हैं कि एक ओवरपैरिमेटेड मॉडल के मजबूत सबूत हैं, लेकिन उस पैलेडियम को निश्चित रूप से बाहर रखा जाना चाहिए:

Call:
lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + 
    EnergyStks, data = chkr)

Residuals:
       Min         1Q     Median         3Q        Max 
-1.663e-03 -4.419e-04  3.099e-05  3.991e-04  1.677e-03 

Coefficients:
           Estimate Std. Error t value Pr(>|t|)    
SP          0.51913    0.19772   2.626 0.010588 *  
Palladium   0.01620    0.03744   0.433 0.666469    
Russell    -0.34577    0.09946  -3.476 0.000871 ***
OilETF     -0.17327    0.08285  -2.091 0.040082 *  
EnergyStks  0.79219    0.11418   6.938 1.53e-09 ***

रिटर्न में बदलने के बाद, मैंने इस तरह से एक साधारण मॉडल चलाने की कोशिश की

  model {
    for (i in 1:n) {
      mean[i]<-inprod(X[i,],beta)
      y[i]~dnorm(mean[i],tau)
    }
    for (j in 1:p) {
      indicator[j]~dbern(probindicator)
      betaifincluded[j]~dnorm(0,taubeta)
      beta[j] <- indicator[j]*betaifincluded[j]
    }
    tau~dgamma(1,0.01)
    taubeta~dgamma(1,0.01)
    probindicator~dbeta(2,8)
  }

लेकिन मैंने पाया कि, चुने हुए गामा वितरण के मापदंडों की परवाह किए बिना, मुझे बहुत ही निरर्थक उत्तर मिले, जैसे प्रत्येक चर के लिए 20% समावेशी संभावना।

मुझे छोटे, छोटे प्रतिगमन गुणांक भी मिले, जिन्हें मैं चयन मॉडल मानने के लिए तैयार हूं, लेकिन यह अभी भी अजीब लग रहा था।

                              Mean        SD  Naive SE Time-series SE
SP         beta[1]       -4.484e-03   0.10999  0.003478       0.007273
Palladium  beta[2]        1.422e-02   0.16646  0.005264       0.011106
Russell    beta[3]       -2.406e-03   0.08440  0.002669       0.003236
OilETF     beta[4]       -4.539e-03   0.14706  0.004651       0.005430
EnergyStks beta[5]       -1.106e-03   0.07907  0.002500       0.002647
SP         indicator[1]   1.980e-01   0.39869  0.012608       0.014786
Palladium  indicator[2]   1.960e-01   0.39717  0.012560       0.014550
Russell    indicator[3]   1.830e-01   0.38686  0.012234       0.013398
OilETF     indicator[4]   1.930e-01   0.39485  0.012486       0.013229
EnergyStks indicator[5]   2.070e-01   0.40536  0.012819       0.014505
           probindicator  1.952e-01   0.11981  0.003789       0.005625
           tau            3.845e+03 632.18562 19.991465      19.991465
           taubeta        1.119e+02 107.34143  3.394434       7.926577

क्या बायेसियन चर चयन वास्तव में बुरा / संवेदनशील है? या मैं कुछ गड़बड़ त्रुटि कर रहा हूँ?


5
मेरी अज्ञानता को क्षमा करो; लेकिन आपके द्वारा संदर्भित ओवरफ़िटिंग के लिए क्या सबूत था?
जिज्ञासु_काट

आपको यह बताना चाहिए कि दूसरे आउटपुट में कौन से वैरिएबल हैं। मैंने कई तरह की समस्याओं और (प्रतिगमन सहित) कई स्थितियों में बेयसियन चर चयन का उपयोग किया है जो आमतौर पर यथोचित रूप से अच्छी तरह से काम करता है। लेकिन आपके परिणाम - विशेष रूप से अनुमान - मुझे अजीब लग रहे हैं।
Glen_b -Reinstate मोनिका

@curious_cat एक्सफ़न (एक तेल कंपनी) और तेल की कीमत के बीच नकारात्मक गुणांक में, उदाहरण के लिए ओवरफिटिंग के प्रमाण हैं। यह इसलिए उठता है क्योंकि मैंने जानबूझकर इस मॉडल को बहुरूपता का शिकार बनाया है । (शायद "ओवरफिटिंग" यह वर्णन करने के लिए गलत शब्द है - मुझे लगता है कि ओवरपैरेटाइज़्ड अधिक सटीक है)।
ब्रायन बी

@BrianB क्या वह गुणांक सकारात्मक हो जाता है यदि आप तेल को छोड़कर सभी व्याख्यात्मक चर छोड़ देते हैं? बस उत्सुक।
उत्सुक

@curious_cat हां, निश्चित रूप से (लगभग 0.7)। यह मल्टीकोलिनरिटी (एक और बदसूरत शब्द) का एक क्लासिक मामला है।
ब्रायन बी

जवाबों:


3

BUGS कोड में mean[i]<-inprod(X[i,],beta)होना चाहिए mean[i]<-inprod(X[i,],beta[])

ताऊ और ताबेटा पर आपके पुजारी बहुत जानकारीपूर्ण हैं।

आपको बीटाइंफ्लुएंड पर एक गैर-सूचनात्मक से पहले की जरूरत है, उदाहरण के लिए टूबेटा पर उपयोग करें gamma(0.1,0.1)। यह समझा सकता है कि आपको छोटे प्रतिगमन गुणांक क्यों मिलते हैं।


ध्यान देने के लिए धन्यवाद। दुर्भाग्य से इसने स्थिति में सुधार नहीं किया।
ब्रायन बी

2

यह काम करता है, लेकिन आपने सभी चर समावेश संकेतकों को समान अंतर्निहित वितरण दिया।

  model {
    for (i in 1:n) {
      mean[i]<-inprod(X[i,],beta)
      y[i]~dnorm(mean[i],tau)
    }
    for (j in 1:p) {
      indicator[j]~dbern(probindicator[j])
      probindicator[j]~dbeta(2,8)
      betaifincluded[j]~dnorm(0,taubeta)
      beta[j] <- indicator[j]*betaifincluded[j]
    }
    tau~dgamma(1,0.01)
    taubeta~dgamma(1,0.01)

  }

सीमित संख्या में चर के साथ बेहतर काम कर सकता है।


इस नुस्खे को आजमाने से कोई बेहतर काम नहीं हुआ, कम से कम 10000 नमूनों में।
ब्रायन बी

2

यदि आपने लॉग रिटर्न का उपयोग किया है, तो आपने थोड़ी सी पूर्वाग्रह त्रुटि की है लेकिन यदि आपने भविष्य के मूल्य को वर्तमान मूल्य से विभाजित किया है तो आपकी संभावना गलत है। वास्तव में, आपकी संभावना दोनों ही मामलों में गलत है। यह काफी गलत है।

विचार करें कि एक आँकड़ा डेटा का कोई कार्य है। रिटर्न डेटा नहीं हैं, वे डेटा के रूपांतरण हैं। वे वर्तमान मूल्य से विभाजित भविष्य के मूल्य हैं। कीमतें डेटा हैं। कीमतों में वितरण फ़ंक्शन होना चाहिए, लेकिन रिटर्न के लिए वितरण फ़ंक्शन पूरी तरह से कीमतों की प्रकृति पर निर्भर होना चाहिए।

एक दोहरी नीलामी में प्रतिभूतियों के लिए, "विजेता का अभिशाप नहीं है।" तर्कसंगत व्यवहार आपकी अपेक्षा की बोली लगाने के लिए है। कई खरीदारों और कई विक्रेताओं के साथ, सीमा बुक को सामान्य वितरण में परिवर्तित करना चाहिए क्योंकि यह उम्मीदों का वितरण है। इसलिएपीटीसामान्य रूप से वितरित किया जाना चाहिए। भीपीटी+1सामान्य रूप से वितरित किया जाना चाहिए। इसलिए रिटर्न का अनुपात होना चाहिए

पीटी+1पीटी-1।

आपके प्रतिगमन के लिए संभावना समारोह होना चाहिए था

1πσσ2+(y-β1एक्स1-β2एक्स2-βnएक्सn-α)2

ओएलएस अवलोकन किए गए डेटा के लिए सबसे अच्छा फिट है, भले ही वह गलत समाधान हो। Bayesian तरीके संभावना के माध्यम से डेटा जनरेटिंग फ़ंक्शन को खोजने का प्रयास करते हैं। आपके पास संभावना गलत थी, इसलिए यह नहीं मिल सका।

अगर आपको अतिरिक्त जानकारी चाहिए तो मेरे पास इस पर एक पेपर है।

EDIT मुझे लगता है कि आपने गलत समझा है। यदि आप संभावना को एक घनत्व समारोह में बदल देते हैं और अपेक्षा लेते हैं, तो आप पाएंगे कि यह कोई नहीं है। 1852 में ऑगस्टिन कॉची या शायद 1851 तक सबूत के अनुसार, कम से कम वर्गों के समाधान का कोई भी रूप पूरी तरह से असंभव है। यह हमेशा विफल रहेगा। ऐसा नहीं है कि आपको मानक प्रतिगमन का उपयोग करना चाहिए क्योंकि बायेसियन संभावना के प्रति संवेदनशील है, यह है कि बेयस एकमात्र उपलब्ध समाधान है जो स्वीकार्य है, कुछ असामान्य विशेष मामलों के लिए कुछ विशेष अपवादों के साथ।

इस पर अनुभवजन्य परीक्षण करने में, और इससे पहले कि मैं पर्याप्त गणित पढ़ता, मैंने भोलेपन से सोचा कि बायेसियन और फ़्रीक्वेंटिस्ट समाधान से मेल खाना चाहिए। लगभग, एक प्रमेय है जो कहता है कि जैसा कि नमूना काफी बड़ा हो जाता है, दोनों अभिसरण करेंगे। मैंने इसे परीक्षण करने के लिए 1925-2013 से सीआरएसपी ब्रह्मांड में दिन के अंत के सभी ट्रेडों का उपयोग किया। हालांकि यह नहीं है कि प्रमेय क्या कहता है। मैं नियमों को गलत समझ रहा था।

मैंने लॉग में समस्या का भी प्रयास किया, और यह अभी भी मेल नहीं खाता। इसलिए मैंने कुछ महसूस किया, सभी वितरण आकार हैं, और इसलिए मैंने यह निर्धारित करने के लिए एक ज्यामितीय समाधान का निर्माण किया कि कौन सा समाधान सही था। मैंने यह निर्धारित करने के लिए एक शुद्ध ज्यामिति समस्या के रूप में व्यवहार किया कि किस बीजीय उत्तर ने डेटा का मिलान किया।

बायेसियन एक मिलान किया। इसने मुझे एक बहुत ही गणितीय मार्ग पर ले जाने के लिए प्रेरित किया क्योंकि मैं समझ नहीं पाया कि निष्पक्ष अनुमान लगाने वाला इतना गलत क्यों था। केवल रिकॉर्ड के लिए, 1925-2013 की अवधि में अव्यवस्थित रिटर्न का उपयोग करना और शेल कंपनियों, क्लोज-एंड फंड्स और इसके बाद, स्थान के केंद्र के बीच विसंगति 2% है और जोखिम का माप वार्षिक रिटर्न के 4% द्वारा समझा जाता है। । यह विसंगति लॉग परिवर्तन के तहत है, लेकिन एक अलग कारण से। यह व्यक्तिगत सूचकांकों या डेटा के सबसेट के लिए अलग हो सकता है।

विसंगति का कारण दो गुना है। पहला यह है कि इसमें शामिल वितरणों में पर्याप्त संख्या में कमी है। कुछ प्रकार की समस्याओं के लिए, यह कोई मायने नहीं रखता है। अनुमानित उद्देश्यों के लिए, जैसे कि भविष्यवाणी या आवंटन, हालांकि, वे काफी मायने रखते हैं। दूसरा कारण यह है कि निष्पक्ष अनुमानक हमेशा मतलब का एक संस्करण है, लेकिन वितरण का कोई मतलब नहीं है।

उपरोक्त घनत्व सामान्य या गामा वितरण के रूप में घातीय परिवार का सदस्य नहीं है। पिटमैन-कोपमैन-डॉर्मोइस प्रमेय द्वारा, मापदंडों के लिए कोई पर्याप्त बिंदु सांख्यिकीय मौजूद नहीं है। तात्पर्य यह है कि बिंदु अनुमानक बनाने का कोई भी प्रयास सूचना को फेंक देना चाहिए। यह बायेसियन समाधानों के लिए एक समस्या नहीं है क्योंकि पीछे एक संपूर्ण घनत्व है और यदि आपको एक बिंदु अनुमान की आवश्यकता है, तो आप पूर्वानुमानात्मक घनत्व पा सकते हैं और इसे एक बिंदु पर कम करने के लिए इस पर एक लागत फ़ंक्शन को कम कर सकते हैं। बायेसियन संभावना हमेशा न्यूनतम रूप से पर्याप्त होती है।

उपरोक्त फ़ंक्शन के लिए न्यूनतम विचरण निष्पक्ष अनुमानक डेटा के केंद्रीय 24.6% को रखना है, इसका छंटनी का मतलब ढूंढना है, और शेष डेटा को छोड़ना है। इसका मतलब है कि 75% से अधिक डेटा गिरा दिया गया है, और जानकारी खो गई है। बस एक नोट, यह 24.8% हो सकता है, क्योंकि मैं मेमोरी से काम कर रहा हूं। आप रोथेनबर्ग के कागज पर पा सकते हैं:

रोथेनबर्ग, टीजे और एफएम फिशर, और सीबी टिलनस, ए नोट ऑन काइचिंग फ्रॉम अ कॉची सैंपल, जर्नल ऑफ द अमेरिकन स्टेटिस्टिकल एसोसिएशन, 1964, वॉल्यूम 59 (306), पीपी। 460-463

दूसरा मुद्दा मेरे लिए आश्चर्यजनक था। जब तक मैंने ज्यामिति के माध्यम से काम किया, मुझे पता नहीं था कि इसका कारण क्या था। रिटर्न -100% पर नीचे से बंधे हैं। यह मंझले को 2% से बदलता है और इंटरक्वेर्टाइल रेंज को 4% द्वारा स्थानांतरित किया जाता है, हालांकि आधा द्रव्यमान अभी भी एक ही बिंदु पर है। अर्ध-द्रव्यमान पैमाने का उचित माप है, लेकिन अर्ध-चौड़ाई नहीं है। यदि कोई ट्रंकेशन नहीं था, तो आधा-चौड़ाई और आधा-द्रव्यमान एक ही बिंदु पर होगा। इसी तरह, माध्यिका और मोड एक ही बिंदु पर रहेंगे। माध्य माध्य अभिनेता या कम से कम माध्य व्यापार के लिए वापसी है। जैसे, यह हमेशा MVUE और लॉग माध्य का स्थान है।

प्रमेय की सही समझ यह है कि सभी बायेसियन अनुमानक स्वीकार्य अनुमानक हैं। यदि दो में से एक स्थिति प्राप्त होती है, तो बार-बार मूल्यांकनकर्ता स्वीकार्य अनुमानक होते हैं। पहला यह है कि प्रत्येक नमूने में, फ़्रीक्वेंटिस्ट और बायेसियन समाधान समान हैं। दूसरा यह है कि अगर बायेसियन पद्धति के सीमित समाधान ने फ़्रीक्वेंटिस्ट समाधान का मिलान किया है, तो फ़्रीक्वेंटिस्ट समाधान स्वीकार्य है।

नमूना आकार काफी बड़ा होने पर सभी स्वीकार्य आकलनकर्ता एक ही समाधान में परिवर्तित हो जाते हैं। फ़्रीक्वेंटिस्ट आकलनकर्ता मानता है कि इसका मॉडल सही मॉडल है और डेटा यादृच्छिक है। बायेसियन मानता है कि डेटा सही है, लेकिन मॉडल यादृच्छिक है। यदि आपके पास अनंत मात्रा में डेटा था, तो व्यक्तिपरक मॉडल को वास्तविकता में परिवर्तित करना होगा। यदि आपके पास अनंत मात्रा में डेटा था, लेकिन गलत मॉडल है, तो फ़्रीक्वेंटिस्ट मॉडल संभावना शून्य के साथ वास्तविकता में परिवर्तित हो जाएगा।

इस मामले में, उचित पुजारियों के तहत बायेसियन समाधान, हमेशा ट्रेंकुलेशन और अनुमान बनाने के लिए जानकारी के नुकसान के कारण किसी भी आवृत्तिवादी अनुमानक पर हमेशा ही हावी रहेगा।

लॉग में, संभावना फ़ंक्शन हाइपरबोलिक सेकेंट वितरण है। इसमें एक परिमित विचरण है, लेकिन कोई सहसंयोजक नहीं है। ओएलएस का उपयोग करते हुए पाया जाने वाला सहसंयोजक मैट्रिक्स डेटा की एक विरूपण साक्ष्य है और एक पैरामीटर को इंगित नहीं करता है जो अंतर्निहित डेटा में मौजूद है। कच्चे रूप के साथ, लॉग फॉर्म कोवरियों में कुछ भी नहीं है, लेकिन कुछ भी स्वतंत्र नहीं है। इसके बजाय, एक और अधिक जटिल संबंध मौजूद है जो सह-अस्तित्व की परिभाषा का उल्लंघन करता है, लेकिन जिसमें वे कॉमोव कर सकते हैं।

मार्कोविट्ज़ और उस्मान ने वितरण पर अपने काम में लगभग इसे पाया, लेकिन हाइपरबोलिक सेकेंट वितरण एक पियर्सन परिवार में नहीं है और उन्होंने डेटा को गलत तरीके से नोट किया है कि जब आप कच्चे डेटा से वितरण को लॉग डेटा में बदलते हैं तो आप इसके सांख्यिकीय गुणों को बदल देंगे। । वे मूल रूप से यह पता लगाते हैं लेकिन इसे याद करते हैं क्योंकि उनके पास इसकी तलाश करने का कोई कारण नहीं था और उन्हें लॉग का उपयोग करने के अनपेक्षित परिणामों का एहसास नहीं हुआ।

मेरे पास मार्कोवित्ज़ और उस्मान मेरे पास नहीं हैं, जहां मैं हूं, लेकिन उन्होंने वितरण के कुछ बहुत अच्छे कामों में से एक का अनुमान लगाया जो वहां से हैं।

किसी भी स्थिति में, मैं JAGS का उपयोग नहीं करता। मुझे नहीं पता कि यह कैसे करना है। मैं अपने सभी MCMC काम को हाथ से बताता हूं।

मेरे पास एक पेपर है जो इस विषय पर कहीं अधिक पूर्ण और सटीक है:

हैरिस, DE (2017) डिस्ट्रीब्यूशन ऑफ रिटर्न। गणितीय वित्त की पत्रिका, 7, 769-804।

यह आपको किसी भी संपत्ति या देयता वर्ग के लिए वितरण का निर्माण करने की एक विधि प्रदान करेगा, साथ ही लेखांकन अनुपात भी।

मैं चिंतित था, लेकिन मैं देख सकता था कि आप बेयस और पियर्सन-नेमन तरीकों के बीच संबंध को गलत समझ रहे थे। आपने उन्हें उलट दिया था। बैस हमेशा काम करता है, लेकिन आप एक पूर्व घनत्व के साथ फंस जाते हैं जो आपके समाधान को खराब कर देगा। एक उचित पूर्व के साथ आपको पक्षपाती अनुमानक की गारंटी दी जाती है और इस प्रकार के संभावित कार्य के लिए, मेरा मानना ​​है कि एकता के लिए पूर्णता की गारंटी के लिए आपको एक उचित पूर्व का उपयोग करना चाहिए। फ़्रीक्वेंटिस्ट तरीके तेज़ हैं और आमतौर पर काम करते हैं। वे निष्पक्ष हैं, लेकिन मान्य नहीं हो सकते।


दैनिक स्तर पर लॉगरिथम और मूल्य रिटर्न के बीच का अंतर 500 में 1 हिस्सा है (मैंने आधार रेखा के रूप में 50 आधार बिंदु रिटर्न लिया है)। यह भी ध्यान देने योग्य है कि दैनिक रिटर्न, दोनों तरह से मापा जाता है, सामान्य रूप से वितरित (इसके विपरीत आर्थिक सिद्धांतों की परवाह किए बिना) से काफी दूर हैं। किसी भी मामले में यदि एल्गोरिदम इन मुद्दों के प्रति संवेदनशील है, तो यह व्यावहारिक उद्देश्यों के लिए बेकार है। मैं जानना चाहता हूं कि जेएजीएस कोड में नक्शे का हवाला देते हुए आप कैसे कार्य कर सकते हैं - क्या आप विस्तृत कर सकते हैं?
ब्रायन बी

@BrianB मैंने उत्तर संपादित किया। आप सोचने की गलती कर रहे हैं कि मैंने क्या बनाया। मुझे यह पता लगाने में हमेशा के लिए लग गया कि मैं गलत क्यों था।
डेव हैरिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.