नमूना आकार और आयाम के साथ विभिन्न सांख्यिकीय तकनीक (प्रतिगमन, पीसीए, आदि) कैसे पैमाने पर हैं?

10

क्या सांख्यिकीय तकनीकों की एक सामान्य तालिका है जो बताती है कि वे नमूना आकार और आयाम के साथ कैसे पैमाने पर हैं? उदाहरण के लिए, मेरे एक मित्र ने मुझे दूसरे दिन बताया कि आकार एन के केवल एक आयामी डेटा को त्वरित रूप से छांटने का गणना समय n * log (n) के रूप में जाता है।

इसलिए, उदाहरण के लिए, यदि हम X के विरुद्ध y को पुनः प्राप्त करते हैं, जहाँ X एक d- आयामी चर है, तो क्या यह O (n ^ 2 *) के रूप में जाता है? अगर मैं न्यूटन विधि के साथ संख्यात्मक कम से कम वर्गों के साथ सटीक गॉस-मार्कोव समाधान के माध्यम से समाधान खोजना चाहता हूं तो यह कैसे स्केल करता है? या बस महत्व परीक्षण का उपयोग कर बनाम समाधान हो रही है?

मुझे लगता है कि मैं यहां एक अच्छे उत्तर की तुलना में उत्तर का एक अच्छा स्रोत (एक कागज की तरह जो विभिन्न सांख्यिकीय तकनीकों के स्केलिंग को संक्षेप में प्रस्तुत करता है) चाहता हूं। जैसे, कहते हैं, एक सूची जिसमें कई प्रतिगमन, लॉजिस्टिक प्रतिगमन, पीसीए, कॉक्स आनुपातिक खतरा प्रतिगमन, के-साधन क्लस्टरिंग, आदि शामिल हैं।

— Bridgeburners
स्रोत

यह अच्छा प्रश्न है। बहुत सारी सांख्यिकी पुस्तकें उच्च-आयामी डेटा के सैद्धांतिक पहलुओं और कम्प्यूटेशनल पहलुओं के बारे में बात करती हैं।

— छायाकार

कई मामलों में, मूल साहित्य जटिलता पर चर्चा करेगा। लेकिन अक्सर सैद्धांतिक जटिलता बेकार है। क्विकसॉर्ट में ओ (एन ^ 2) का सबसे खराब मामला है, लेकिन अक्सर हेप्सॉर्ट की तुलना में सबसे तेज - तेज है, जिसमें सबसे खराब स्थिति ओ (एन लॉग एन) है। यदि आप थोड़ा अनुसंधान करते हैं, तो आपको कई एल्गोरिदम के जटिल परिणाम मिलेंगे - यदि ज्ञात हो। उदाहरण के लिए, PCA O (nd ^ 3), k-mean being O (nkid) आदि है

— QUIT - Anony-Mousse

6

अधिकांश कुशल (और गैर तुच्छ) सांख्यिकीय एल्गोरिदम प्रकृति में पुनरावृत्त होते हैं ताकि सबसे खराब मामला विश्लेषण O()अप्रासंगिक हो क्योंकि सबसे खराब मामला 'अभिसरण करने में विफल' है।

फिर भी, जब आपके पास बहुत अधिक डेटा होता है, तो भी रैखिक एल्गोरिदम ( O(n)) धीमा हो सकता है और आपको तब अंकन के पीछे निरंतर 'छिपे हुए' पर ध्यान केंद्रित करने की आवश्यकता होती है। उदाहरण के लिए, किसी एकल संस्करण के विचरण की गणना डेटा को दो बार स्कैन करने के लिए किया जाता है (एक बार माध्य का अनुमान लगाने के लिए, और फिर एक बार विचरण का अनुमान लगाने के लिए)। लेकिन यह भी एक पास में किया जा सकता है ।

पुनरावृत्ति एल्गोरिदम के लिए, डेटा आयाम के एक फ़ंक्शन के रूप में अभिसरण दर और मापदंडों की संख्या अधिक महत्वपूर्ण है, एक तत्व जो अभिसरण को बहुत प्रभावित करता है। कई मॉडल / एल्गोरिथ्म कई मापदंडों को विकसित करते हैं जो चर की संख्या के साथ घातीय होते हैं (जैसे विभाजन) जबकि कुछ अन्य रैखिक रूप से बढ़ते हैं (जैसे वेक्टर मशीनों का समर्थन करते हैं, यादृच्छिक वन, ...)

— damienfrancois
स्रोत

मुझे यकीन नहीं है कि मैं इस बात से सहमत हूं: जब एक सांख्यिकीय समस्या के लिए एक एल्गोरिथ्म को डिजाइन करना, प्रत्येक पुनरावृत्ति कदम की जटिलता में बहुत चिंता का विषय है (और आमतौर पर एक पांडुलिपि में प्रलेखित है)। लेकिन जैसा कि आप बताते हैं, अक्सर यह संक्षेप में आसान नहीं होता है, क्योंकि प्रति पुनरावृत्ति एक ही जटिलता वाले दो एल्गोरिदम आवश्यक पुनरावृत्तियों के कारण बहुत अलग तरीके से प्रदर्शन कर सकते हैं। यह कहा जा रहा है, यह बहुत दुर्लभ है कि पुनरावृत्तियों की संख्या की तुलना में तेजी से बढ़ता है O(log(n) )।

— एबी एबी

5

आपने शीर्षक में प्रतिगमन और पीसीए का उल्लेख किया है, और उनमें से प्रत्येक के लिए एक निश्चित उत्तर है।

रैखिक प्रतिगमन की एसिम्प्टोटिक जटिलता O> (P ^ 2 * N) को घटाती है यदि N> P, जहां P सुविधाओं की संख्या है और N टिप्पणियों की संख्या है। कम से कम वर्ग प्रतिगमन ऑपरेशन के कम्प्यूटेशनल जटिलता में अधिक विस्तार ।

वेनिला पीसीए उच्च-आयामी डेटा के लिए फास्ट पीसीए एल्गोरिथ्म में ओ (पी ^ 2 * एन + पी ^ 3) है । हालांकि, बहुत बड़े मैट्रिसेस के लिए फास्ट एल्गोरिदम मौजूद हैं, जो उस उत्तर में समझाया गया है और सर्वश्रेष्ठ पीसीए एल्गोरिथ्म फॉर विशाल संख्या की विशेषताएं? ।

हालाँकि मुझे नहीं लगता कि किसी ने इस विषय पर किसी एकल लिट की समीक्षा या संदर्भ या पुस्तक संकलित की है। मेरे खाली समय के लिए एक बुरा प्रोजेक्ट नहीं हो सकता है ...

— shadowtalker
स्रोत

धन्यवाद, यह बहुत उपयोगी है! यदि आप विभिन्न पूर्वानुमान मॉडलिंग तकनीकों के लिए एक साहित्य समीक्षा करते हैं, तो मुझे यकीन है कि इसे बहुत अधिक संदर्भित किया जाएगा। यह उन लोगों के लिए बहुत मददगार होगा, जो बड़े n या बड़े p मामलों में, या अधिक सटीक गणना के लिए उन माध्यमों के माध्यम मूल्यों के लिए कौन से एल्गोरिदम का अंतर करना चाहते हैं। क्या आपको पता है कि अधिक अस्पष्ट तकनीकों के कुछ पैमाने कैसे हैं? (कॉक्स आनुपातिक खतरे के प्रतिगमन या पुष्टिकरण कारक विश्लेषण की तरह)

— ब्रिजबर्नर

दुर्भाग्य से नहीं, लेकिन अगर मैं कभी भी उस समीक्षा को करता हूं तो मैं व्यापक होने की कोशिश करूंगा। मैं कम से कम अपने क्षेत्र में कॉक्स रिग्रेशन को "अस्पष्ट" कहूंगा।

— छायाकार

5

मैंने पुष्टिकरण कारक विश्लेषण पैकेज के लिए एक बहुत ही सीमित आंशिक उत्तर दिया जो मैंने वास्तविक सिमुलेशन के समय पर आधारित इस स्टाटा जर्नल लेख में स्टाटा के लिए विकसित किया था । पुष्टि कारक विश्लेषण को अधिकतम संभावना आकलन तकनीक के रूप में लागू किया गया था, और मैं बहुत आसानी से देख सकता था कि प्रत्येक आयाम (नमूना आकार n, चर की pसंख्या, कारकों की संख्या k) के साथ गणना समय कैसे बढ़ गया । जैसा कि यह बहुत हद तक इस बात पर निर्भर करता है कि डेटा के बारे में स्टाटा कैसे सोचता है (पंक्तियों के बजाय कॉलम / टिप्पणियों के आधार पर गणना करने के लिए अनुकूलित), मुझे होना चाहिएO(n^{0.68} (k+p)^{2.4})जहां 2.4 सबसे तेज मैट्रिक्स व्युत्क्रम विषमताएं हैं (और पुष्टिकरण कारक विश्लेषण पुनरावृत्त अधिकतमकरण में बहुत कुछ नरक है)। मैंने बाद के लिए कोई संदर्भ नहीं दिया, लेकिन मुझे लगता है कि मुझे यह विकिपीडिया से मिला है ।

ध्यान दें कि ओएलएस में एक मैट्रिक्स उलटा कदम भी है। हालांकि, संख्यात्मक सटीकता के कारणों के लिए, कोई भी वास्तव में X'Xमैट्रिक्स को उलटा नहीं करेगा, और इसके बजाय स्वीप ऑपरेटरों का उपयोग करेगा और सटीक मुद्दों से निपटने के लिए खतरनाक रूप से समतल चर की पहचान करेगा। यदि आप नंबर जोड़ते हैं जो मूल रूप से दोहरे परिशुद्धता में थे , तो आप संभवतः एक ऐसी संख्या के साथ समाप्त हो जाएंगे जिसमें केवल एक ही सटीक है। जैसे ही आप गति के लिए अनुकूलन करना शुरू करते हैं, संख्यात्मक कंप्यूटिंग समस्याएं बड़े डेटा गणनाओं का एक भूल कोने बन सकती हैं। $10^8$

— StasK
स्रोत

2

Math स्वरूपण DataScience पर काम नहीं करता है? वास्तव में? हो सकता है कि हमें इसे प्राप्त करने के लिए कहना चाहिए।

— StasK

संख्यात्मक सटीकता के बारे में अच्छी बात।

— छायाकार