नमूना आकार और आयाम के साथ विभिन्न सांख्यिकीय तकनीक (प्रतिगमन, पीसीए, आदि) कैसे पैमाने पर हैं?


10

क्या सांख्यिकीय तकनीकों की एक सामान्य तालिका है जो बताती है कि वे नमूना आकार और आयाम के साथ कैसे पैमाने पर हैं? उदाहरण के लिए, मेरे एक मित्र ने मुझे दूसरे दिन बताया कि आकार एन के केवल एक आयामी डेटा को त्वरित रूप से छांटने का गणना समय n * log (n) के रूप में जाता है।

इसलिए, उदाहरण के लिए, यदि हम X के विरुद्ध y को पुनः प्राप्त करते हैं, जहाँ X एक d- आयामी चर है, तो क्या यह O (n ^ 2 *) के रूप में जाता है? अगर मैं न्यूटन विधि के साथ संख्यात्मक कम से कम वर्गों के साथ सटीक गॉस-मार्कोव समाधान के माध्यम से समाधान खोजना चाहता हूं तो यह कैसे स्केल करता है? या बस महत्व परीक्षण का उपयोग कर बनाम समाधान हो रही है?

मुझे लगता है कि मैं यहां एक अच्छे उत्तर की तुलना में उत्तर का एक अच्छा स्रोत (एक कागज की तरह जो विभिन्न सांख्यिकीय तकनीकों के स्केलिंग को संक्षेप में प्रस्तुत करता है) चाहता हूं। जैसे, कहते हैं, एक सूची जिसमें कई प्रतिगमन, लॉजिस्टिक प्रतिगमन, पीसीए, कॉक्स आनुपातिक खतरा प्रतिगमन, के-साधन क्लस्टरिंग, आदि शामिल हैं।


यह अच्छा प्रश्न है। बहुत सारी सांख्यिकी पुस्तकें उच्च-आयामी डेटा के सैद्धांतिक पहलुओं और कम्प्यूटेशनल पहलुओं के बारे में बात करती हैं।
छायाकार

कई मामलों में, मूल साहित्य जटिलता पर चर्चा करेगा। लेकिन अक्सर सैद्धांतिक जटिलता बेकार है। क्विकसॉर्ट में ओ (एन ^ 2) का सबसे खराब मामला है, लेकिन अक्सर हेप्सॉर्ट की तुलना में सबसे तेज - तेज है, जिसमें सबसे खराब स्थिति ओ (एन लॉग एन) है। यदि आप थोड़ा अनुसंधान करते हैं, तो आपको कई एल्गोरिदम के जटिल परिणाम मिलेंगे - यदि ज्ञात हो। उदाहरण के लिए, PCA O (nd ^ 3), k-mean being O (nkid) आदि है
QUIT - Anony-Mousse

जवाबों:


6

अधिकांश कुशल (और गैर तुच्छ) सांख्यिकीय एल्गोरिदम प्रकृति में पुनरावृत्त होते हैं ताकि सबसे खराब मामला विश्लेषण O()अप्रासंगिक हो क्योंकि सबसे खराब मामला 'अभिसरण करने में विफल' है।

फिर भी, जब आपके पास बहुत अधिक डेटा होता है, तो भी रैखिक एल्गोरिदम ( O(n)) धीमा हो सकता है और आपको तब अंकन के पीछे निरंतर 'छिपे हुए' पर ध्यान केंद्रित करने की आवश्यकता होती है। उदाहरण के लिए, किसी एकल संस्करण के विचरण की गणना डेटा को दो बार स्कैन करने के लिए किया जाता है (एक बार माध्य का अनुमान लगाने के लिए, और फिर एक बार विचरण का अनुमान लगाने के लिए)। लेकिन यह भी एक पास में किया जा सकता है ।

पुनरावृत्ति एल्गोरिदम के लिए, डेटा आयाम के एक फ़ंक्शन के रूप में अभिसरण दर और मापदंडों की संख्या अधिक महत्वपूर्ण है, एक तत्व जो अभिसरण को बहुत प्रभावित करता है। कई मॉडल / एल्गोरिथ्म कई मापदंडों को विकसित करते हैं जो चर की संख्या के साथ घातीय होते हैं (जैसे विभाजन) जबकि कुछ अन्य रैखिक रूप से बढ़ते हैं (जैसे वेक्टर मशीनों का समर्थन करते हैं, यादृच्छिक वन, ...)


मुझे यकीन नहीं है कि मैं इस बात से सहमत हूं: जब एक सांख्यिकीय समस्या के लिए एक एल्गोरिथ्म को डिजाइन करना, प्रत्येक पुनरावृत्ति कदम की जटिलता में बहुत चिंता का विषय है (और आमतौर पर एक पांडुलिपि में प्रलेखित है)। लेकिन जैसा कि आप बताते हैं, अक्सर यह संक्षेप में आसान नहीं होता है, क्योंकि प्रति पुनरावृत्ति एक ही जटिलता वाले दो एल्गोरिदम आवश्यक पुनरावृत्तियों के कारण बहुत अलग तरीके से प्रदर्शन कर सकते हैं। यह कहा जा रहा है, यह बहुत दुर्लभ है कि पुनरावृत्तियों की संख्या की तुलना में तेजी से बढ़ता है O(log(n) )
एबी एबी

5

आपने शीर्षक में प्रतिगमन और पीसीए का उल्लेख किया है, और उनमें से प्रत्येक के लिए एक निश्चित उत्तर है।

रैखिक प्रतिगमन की एसिम्प्टोटिक जटिलता O> (P ^ 2 * N) को घटाती है यदि N> P, जहां P सुविधाओं की संख्या है और N टिप्पणियों की संख्या है। कम से कम वर्ग प्रतिगमन ऑपरेशन के कम्प्यूटेशनल जटिलता में अधिक विस्तार ।

वेनिला पीसीए उच्च-आयामी डेटा के लिए फास्ट पीसीए एल्गोरिथ्म में ओ (पी ^ 2 * एन + पी ^ 3) है । हालांकि, बहुत बड़े मैट्रिसेस के लिए फास्ट एल्गोरिदम मौजूद हैं, जो उस उत्तर में समझाया गया है और सर्वश्रेष्ठ पीसीए एल्गोरिथ्म फॉर विशाल संख्या की विशेषताएं?

हालाँकि मुझे नहीं लगता कि किसी ने इस विषय पर किसी एकल लिट की समीक्षा या संदर्भ या पुस्तक संकलित की है। मेरे खाली समय के लिए एक बुरा प्रोजेक्ट नहीं हो सकता है ...


धन्यवाद, यह बहुत उपयोगी है! यदि आप विभिन्न पूर्वानुमान मॉडलिंग तकनीकों के लिए एक साहित्य समीक्षा करते हैं, तो मुझे यकीन है कि इसे बहुत अधिक संदर्भित किया जाएगा। यह उन लोगों के लिए बहुत मददगार होगा, जो बड़े n या बड़े p मामलों में, या अधिक सटीक गणना के लिए उन माध्यमों के माध्यम मूल्यों के लिए कौन से एल्गोरिदम का अंतर करना चाहते हैं। क्या आपको पता है कि अधिक अस्पष्ट तकनीकों के कुछ पैमाने कैसे हैं? (कॉक्स आनुपातिक खतरे के प्रतिगमन या पुष्टिकरण कारक विश्लेषण की तरह)
ब्रिजबर्नर

दुर्भाग्य से नहीं, लेकिन अगर मैं कभी भी उस समीक्षा को करता हूं तो मैं व्यापक होने की कोशिश करूंगा। मैं कम से कम अपने क्षेत्र में कॉक्स रिग्रेशन को "अस्पष्ट" कहूंगा।
छायाकार

5

मैंने पुष्टिकरण कारक विश्लेषण पैकेज के लिए एक बहुत ही सीमित आंशिक उत्तर दिया जो मैंने वास्तविक सिमुलेशन के समय पर आधारित इस स्टाटा जर्नल लेख में स्टाटा के लिए विकसित किया था । पुष्टि कारक विश्लेषण को अधिकतम संभावना आकलन तकनीक के रूप में लागू किया गया था, और मैं बहुत आसानी से देख सकता था कि प्रत्येक आयाम (नमूना आकार n, चर की pसंख्या, कारकों की संख्या k) के साथ गणना समय कैसे बढ़ गया । जैसा कि यह बहुत हद तक इस बात पर निर्भर करता है कि डेटा के बारे में स्टाटा कैसे सोचता है (पंक्तियों के बजाय कॉलम / टिप्पणियों के आधार पर गणना करने के लिए अनुकूलित), मुझे होना चाहिएO(n^{0.68} (k+p)^{2.4})जहां 2.4 सबसे तेज मैट्रिक्स व्युत्क्रम विषमताएं हैं (और पुष्टिकरण कारक विश्लेषण पुनरावृत्त अधिकतमकरण में बहुत कुछ नरक है)। मैंने बाद के लिए कोई संदर्भ नहीं दिया, लेकिन मुझे लगता है कि मुझे यह विकिपीडिया से मिला है ।

ध्यान दें कि ओएलएस में एक मैट्रिक्स उलटा कदम भी है। हालांकि, संख्यात्मक सटीकता के कारणों के लिए, कोई भी वास्तव में X'Xमैट्रिक्स को उलटा नहीं करेगा, और इसके बजाय स्वीप ऑपरेटरों का उपयोग करेगा और सटीक मुद्दों से निपटने के लिए खतरनाक रूप से समतल चर की पहचान करेगा। यदि आप नंबर जोड़ते हैं जो मूल रूप से दोहरे परिशुद्धता में थे , तो आप संभवतः एक ऐसी संख्या के साथ समाप्त हो जाएंगे जिसमें केवल एक ही सटीक है। जैसे ही आप गति के लिए अनुकूलन करना शुरू करते हैं, संख्यात्मक कंप्यूटिंग समस्याएं बड़े डेटा गणनाओं का एक भूल कोने बन सकती हैं।108


2
Math स्वरूपण DataScience पर काम नहीं करता है? वास्तव में? हो सकता है कि हमें इसे प्राप्त करने के लिए कहना चाहिए।
StasK

संख्यात्मक सटीकता के बारे में अच्छी बात।
छायाकार
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.