उच्च-आयामी प्रतिगमन:


16

मैं उच्च-आयामी प्रतिगमन के क्षेत्र में अनुसंधान पर पढ़ने की कोशिश कर रहा हूं; जब p से भी बड़ा है n , कि है, p>>n । ऐसा लगता है कि प्रतिगमन अनुमानकों के लिए अभिसरण की दर के संदर्भ में शब्द logp/n अक्सर दिखाई देता है।

β^

1nXβ^Xβ22=OP(σlogpnβ1).

आमतौर पर, इसका अर्थ यह भी है कि nlogp से छोटा होना चाहिए ।n

  1. क्या कोई अंतर्ज्ञान है कि logp/n का यह अनुपात इतना प्रमुख क्यों है?
  2. इसके अलावा, यह साहित्य उच्च आयामी प्रतिगमन समस्या जटिल हो जाता है जब से लगता logpn । ऐसा क्यों है?
  3. क्या एक अच्छा संदर्भ है जो एक दूसरे की तुलना में और एन को कितनी तेजी से बढ़ना चाहिए, इस मुद्दे पर चर्चा करता है ?pn

2
1. शब्द उपाय की (गाऊसी) एकाग्रता से आता है। विशेष रूप से, अगर आपपीआईआईडी गाऊसी यादृच्छिक चर, उनकी अधिकतम के आदेश पर हैσlogppउच्च संभावना के साथ लॉग पीN - 1 कारक सिर्फ सच है कि आप औसत भविष्यवाणी त्रुटि को देख रहे हैं आता है - यानी, यह मेल खाता हैn - 1 दूसरी तरफ - अगर आप कुल त्रुटि को देखा, वह वहाँ नहीं होगा। σlogpn1n1
स्वेतलाना

1
2. अनिवार्य रूप से, आपके पास दो बल हैं जिन्हें आपको नियंत्रित करने की आवश्यकता है: i) अधिक डेटा होने के अच्छे गुण (इसलिए हम चाहते हैं कि बड़ा हो); ii) कठिनाइयों में अधिक (अप्रासंगिक) विशेषताएं हैं (इसलिए हम चाहते हैं कि पी छोटा हो)। शास्त्रीय आंकड़ों में, हम आमतौर पर p को ठीक करते हैं और n को अनंत तक जाने देते हैं: यह शासन उच्च-आयामी सिद्धांत के लिए सुपर उपयोगी नहीं है क्योंकि यह निर्माण द्वारा निम्न-आयामी शासन में है। वैकल्पिक रूप से, हम p को अनंत तक जाने दे सकते हैं और n को स्थिर रहने दे सकते हैं, लेकिन फिर हमारी त्रुटि बस उड़ जाती है और अनंत तक चली जाती है। nppnpn
मिवेलैंड

1
इसलिए, हमें पर विचार करने की आवश्यकता है , पी दोनों अनन्तता पर जा रहे हैं ताकि हमारा सिद्धांत दोनों प्रासंगिक (उच्च आयामी रहता है) बिना एपोकैलिपिक (अनंत विशेषताएं, परिमित डेटा) हो। आम तौर पर एक एकल घुंडी होने की तुलना में दो "knobs" होता है, इसलिए हम कुछ f के लिए p = f ( n ) को ठीक करते हैं और n को अनंत (और इसलिए परोक्ष रूप से p ) जाने देते हैं। का चुनाव समस्या के व्यवहार को निर्धारित करता है। Q1 के मेरे उत्तर के कारणों में, यह पता चला है कि अतिरिक्त सुविधाओं से "बदनामी" केवल लॉग पी के रूप में बढ़ती है जबकि अतिरिक्त डेटा से "अच्छाई" n के रूप में बढ़ती है ।n,pp=f(n)fnpflogpn
mweylandt

1
इसलिए, यदि रहता है निरंतर (समतुल्य रूप, पी = ( एन ) = Θ ( सी एन ) कुछ के लिए सी ), हम पानी पर चलने। यदि log p / n 0 ( p = o ( C n ) ) हम asymptotically शून्य त्रुटि प्राप्त करते हैं। और अगर लॉग पी / n ( पी = ω ( सी एन )logp/np=f(n)=Θ(Cn)Clogp/n0p=o(Cn)logp/np=ω(Cn)), त्रुटि अंततः अनंत तक जाती है। इस अंतिम शासन को कभी-कभी साहित्य में "अति-उच्च-आयामी" कहा जाता है। यह निराशाजनक नहीं है (हालांकि यह करीब है), लेकिन इसे त्रुटि को नियंत्रित करने के लिए सिर्फ एक सरल अधिकतम गॉसियंस की तुलना में अधिक परिष्कृत तकनीकों की आवश्यकता होती है। इन जटिल तकनीकों का उपयोग करने की आवश्यकता आपके द्वारा नोट की गई जटिलता का अंतिम स्रोत है।
मिवेलैंड

@mweylandt धन्यवाद, ये टिप्पणियाँ वास्तव में उपयोगी हैं। क्या आप उन्हें एक आधिकारिक उत्तर में बदल सकते हैं, इसलिए मैं उन्हें अधिक सुसंगत रूप से पढ़ सकता हूं और आपको उत्थान दे सकता हूं?
ग्रीनपार्क

जवाबों:


17

(@Greenparker द्वारा अनुरोध के अनुसार टिप्पणियों से उत्तर में ले जाया गया)

भाग 1)

शब्द उपाय की (गाऊसी) एकाग्रता से आता है। विशेष रूप से, अगर आपपीआईआईडी गाऊसी यादृच्छिक चर [F1], उनकी अधिकतम के आदेश पर हैσलॉगपीपीउच्च संभावना के साथ लॉग पीσलॉगपी

कारक सिर्फ सच है कि आप औसत भविष्यवाणी त्रुटि को देख रहे हैं आता है - यानी, यह मेल खाता है n - 1 दूसरी तरफ - अगर आप कुल त्रुटि को देखा, वह वहाँ नहीं होगा।n-1n-1

भाग 2)

अनिवार्य रूप से, आपके पास दो बल हैं जिन्हें आपको नियंत्रित करने की आवश्यकता है:

  • i) अधिक डेटा होने के अच्छे गुण (इसलिए हम चाहते हैं कि बड़ा हो);n
  • ii) कठिनाइयों में अधिक (अप्रासंगिक) विशेषताएं हैं (इसलिए हम चाहते हैं कि छोटा हो)।पी

शास्त्रीय आंकड़ों में, हम आमतौर पर ठीक करते हैं और n को अनंत तक जाने देते हैं: यह शासन उच्च-आयामी सिद्धांत के लिए सुपर उपयोगी नहीं है क्योंकि यह (asymptotically) निर्माण द्वारा निम्न-आयामी शासन में हैपीn

वैकल्पिक रूप से, हम को अनंत तक जाने दे सकते हैं और n को स्थिर रहने दे सकते हैं, लेकिन तब हमारी त्रुटि बस उड जाती है क्योंकि समस्या अनिवार्य रूप से असंभव हो जाती है। समस्या के आधार पर, त्रुटि अनंत तक जा सकती है या कुछ प्राकृतिक ऊपरी सीमा ( जैसे , 100% गर्भपात त्रुटि) पर रुक सकती है ।पीn

चूँकि ये दोनों मामले थोड़े बेकार हैं, इसलिए हम इसके बजाय दोनों को अनंत मानते हैं , ताकि हमारा सिद्धांत apocalyptic (अनंत विशेषताओं, परिमित डेटा) के बिना प्रासंगिक (उच्च-आयामी) रहे।n,पी

आम तौर पर एक एकल घुंडी होने की तुलना में दो "knobs" होता है, इसलिए हम कुछ निश्चित f के लिए को ठीक करते हैं और n को अनंत तक जाते हैं (और इसलिए p अप्रत्यक्ष रूप से अनंत तक चला जाता है)। [F2] f की पसंद समस्या का व्यवहार निर्धारित करता है। भाग 1 के मेरे उत्तर के कारणों से, यह पता चला है कि अतिरिक्त सुविधाओं से "बदनामी" केवल लॉग पी के रूप में बढ़ती है जबकि अतिरिक्त डेटा से "अच्छाई" n के रूप में बढ़ती है ।पी=(n)nपीलॉगपीn

  • यदि रहता है निरंतर (समतुल्य रूप,पी=(एन)=Θ(सीएन)कुछ के लिएसी), हम पानी पर चलने और समस्या (त्रुटि रहता asymptotically तय) एक धोने है,लॉगपीnपी=(n)=Θ(सीn)सी
  • अगर (p=o(Cn)) हम असमतापूर्वक शून्य त्रुटि प्राप्त करते हैं;लॉगपीn0पी=(सीn)
  • और अगर (पी=ω(सीएन)), त्रुटि अंततः अनन्तता को जाता है।लॉगपीnपी=ω(सीn)

This last regime is sometimes called "ultra-high-dimensional" in the literature. The term "ultra-high-dimensional" doesn't have a rigorous definition as far as I know, but it's informally just "the regime that breaks the lasso and similar estimators."

We can demonstrate this with a small simulation study under fairly idealized conditions. Here we take theoretical guidance on the optimal choice of λ from [BRT09] and pick λ=3लॉग(पी)/n.

पहले एक मामले पर विचार करें जहां । यह 'ट्रैक्टेबल' उच्च-आयामी शासन में वर्णित है और, जैसा कि सिद्धांत भविष्यवाणी करता है, हम देखते हैं कि भविष्यवाणी की त्रुटि शून्य में परिवर्तित होती है:पी=(n)=3n

हाई-डायमेंशनल एसिम्पोटिक्स

पुन: पेश करने के लिए कोड:

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

हम इसकी तुलना उस मामले से कर सकते हैं जहां लगभग स्थिर रहता है: मैं इसे "बॉर्डरलाइन" अल्ट्रा-हाई-आयामी शासन कहता हूं, लेकिन यह एक मानक शब्द नहीं है:लॉगपीn

P <- 10 + ceiling(exp(N/120))

यहाँ हम देखते हैं कि भविष्यवाणी की त्रुटि (ऊपर के समान डिज़ाइन का उपयोग करते हुए) शून्य को जारी रखने के बजाय बंद कर देती है।

बॉर्डरलाइन अल्ट्रा हाई डायमेंशनल एसियोटोटिक्स

पीnn2n2

P <- 10 + ceiling(exp(N^(1.03)/120))

अल्ट्रा-हाई डायमेंशनल एसिम्पोटिक्स

एक्सn1.5

इसके बावजूद कि मैंने ऊपर क्या कहा और यह कैसे प्रकट हो सकता है, अति-उच्च-आयामी शासन वास्तव में पूरी तरह से निराशाजनक नहीं है (हालांकि यह करीब है), लेकिन इसे त्रुटि को नियंत्रित करने के लिए केवल एक सरल अधिकतम गॉसियन यादृच्छिक चर की तुलना में अधिक परिष्कृत तकनीकों की आवश्यकता होती है। इन जटिल तकनीकों का उपयोग करने की आवश्यकता आपके द्वारा नोट की गई जटिलता का अंतिम स्रोत है।

पी,nपी=(n)

भाग 3)

लॉगपीn

n,पीn,पी

यदि आप सहज हैं और अनुसंधान साहित्य में तल्लीन करने के लिए तैयार हैं, तो मैं जियानकिंग फैन और जिनची ल्व द्वारा काम करता हूं, जिन्होंने अल्ट्रा-हाई-डायमेंशनल समस्याओं पर अधिकांश फाउंडेशनल काम किया है। ("स्क्रीनिंग" खोज करने के लिए एक अच्छा शब्द है)

[F1] दरअसल, कोई भी सबगॉसियन रैंडम वैरिएबल है, लेकिन यह इस चर्चा में उतना नहीं जोड़ता है।

रोंnरों=जी(n)

[F3] टी। हस्ती, आर। तिब्शिरानी, ​​और एम। वेनराइट। स्पार्सिटी के साथ सांख्यिकीय सीखना। सांख्यिकी और एप्लाइड संभावना पर मोनोग्राफ 143. सीआरसी प्रेस, 2015 https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf पर मुफ्त डाउनलोड के लिए उपलब्ध है।

[BRT] पीटर जे। बिकेल, याकोव रितोव और एलेक्जेंड्रे बी। "लैस्सो और डैंटज़िग चयनकर्ता का एक साथ विश्लेषण।" एनल्स ऑफ स्टैटिस्टिक्स 37 (4), पी। 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620


1
(+1) यह बहुत उपयोगी है, और वास्तव में इनाम के योग्य है (मैं ब्याज को बनाए रखने के लिए इनाम देने से पहले थोड़ा इंतजार करूँगा)। एक प्रश्न: क्या आप अधिक विस्तार कर सकते हैं "लॉगपी/n स्थिर रहता है, हम पानी पर चलते हैं "? क्या यह बात है कि यह स्थिरांक 1 से अधिक या 1 से कम है?
ग्रीनपार्क

ज़रूर - मैंने "पानी पर चलने" की गतिशीलता को स्पष्ट करने के लिए एक छोटा सिमुलेशन अध्ययन जोड़ा है। स्पर्शोन्मुख गतिकी के संदर्भ में, यह कोई फर्क नहीं पड़ता कि यह स्थिरांक क्या है, लेकिन यह त्रुटि उस स्थिरांक के समानुपाती होगी, इसलिए निश्चित रूप से इसे छोटे क्रिटिस पेरिबस पसंद करेंगे (यह अधिक होने के बराबर हैnजो हमेशा एक अच्छी बात है)।
मिवेलैंड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.