Casella और बर्गर के बाद क्या सीखना है?


22

मैं लागू गणित में थोड़ी पृष्ठभूमि के साथ एक शुद्ध गणित स्नातक छात्र हूं। पिछली गिरावट के बाद से मैं कैसला और बर्जर की पुस्तक पर कक्षाएं ले रहा हूं, और मैंने पुस्तक में अभ्यास समस्याओं के सैकड़ों (230+) पृष्ठ समाप्त कर दिए हैं। अभी मैं अध्याय १० पर हूँ।

हालाँकि, जब से मैंने सांख्यिकी में महारत हासिल नहीं की है या एक सांख्यिकीविद बनने की योजना नहीं बनाई है, मुझे नहीं लगता कि मैं डेटा विश्लेषण जारी रखने के लिए नियमित रूप से समय का निवेश कर पाऊंगा। मेरा अब तक का अनुभव मुझे बता रहा है कि, एक सांख्यिकीविद् होने के लिए, व्यक्ति को विभिन्न वितरणों (वेइबुल, कॉची, , एफ ...) को शामिल करने के लिए बहुत थकाऊ गणना के साथ सहन करने की आवश्यकता होती है । मैंने पाया कि मौलिक विचार सरल हैं, कार्यान्वयन (उदाहरण के लिए परिकल्पना परीक्षण में एलआरटी) तकनीकी के कारण अभी भी मुश्किल हो सकते हैं।टीएफ

क्या मेरी समझ सही है? क्या कोई तरीका है जिससे मैं संभावना और आँकड़े सीख सकता हूँ जो न केवल अधिक उन्नत सामग्री को कवर करता है, बल्कि वास्तविक जीवन में डेटा विश्लेषण की आवश्यकता होने पर भी मदद कर सकता है? क्या मुझे उस पर प्रति सप्ताह 20 घंटे खर्च करने की आवश्यकता होगी जैसे मैं करता था?

जबकि मेरा मानना ​​है कि गणित सीखने में कोई शाही राह नहीं है, मैं अक्सर यह सोचकर मदद नहीं कर सकता - ज्यादातर हम यह नहीं जानते हैं कि वितरण वास्तविक जीवन डेटा के लिए क्या है, इसलिए वितरण के विभिन्न परिवारों पर विशेष रूप से ध्यान केंद्रित करने का हमारा उद्देश्य क्या है ? यदि नमूना आकार छोटा है और केंद्रीय सीमा प्रमेय लागू नहीं होता है, तो वितरण के अज्ञात होने पर हम नमूना औसत और भिन्नता के अलावा डेटा का ठीक से विश्लेषण कैसे कर सकते हैं?

मेरा सेमेस्टर एक महीने में समाप्त हो जाएगा, और मैं नहीं चाहता कि मेरे पीएचडी शोध पर ध्यान केंद्रित करने के बाद मेरा ज्ञान लुप्त हो जाए। इसलिए मैंने पूछने का फैसला किया। मैं आर सीख रहा हूं, और मेरे पास कुछ प्रोग्रामिंग पृष्ठभूमि है, लेकिन मेरा स्तर एक कोड बंदर के समान है।

जवाबों:


24

मुझे नहीं लगता कि मैं डेटा विश्लेषण जारी रखने के लिए नियमित समय निवेश दे पाऊंगा

मुझे नहीं लगता कि कैसला और बर्जर डेटा विश्लेषण के तरीके से डेटा सीखने के लिए एक जगह है । यह सांख्यिकीय सिद्धांत के कुछ उपकरण सीखने के लिए एक जगह है।

मेरा अब तक का अनुभव मुझे एक सांख्यिकीविद् बनने के लिए कह रहा है जिसमें विभिन्न वितरण (वेइबुल, कॉची, टी, एफ ...) को शामिल करने के लिए बहुत थकाऊ गणना के साथ सहन करने की आवश्यकता है।

मैंने डेटा विश्लेषण करने वाले सांख्यिकीविद् के रूप में बहुत समय बिताया है। यह शायद ही कभी (लगभग कभी नहीं) मुझे थकाऊ गणना कर रहा है। इसमें कभी-कभी थोड़ा सरल बीजगणित शामिल होता है, लेकिन आम समस्याएं आम तौर पर हल हो जाती हैं और मुझे प्रत्येक बार दोहराने पर किसी भी प्रयास को खर्च करने की आवश्यकता नहीं है।

कंप्यूटर सभी थकाऊ गणना करता है।

यदि मैं ऐसी स्थिति में हूं जहां मैं एक मानक मानक मामले (जैसे GLM का उपयोग करने के लिए तैयार नहीं) को मानने के लिए तैयार नहीं हूं, तो मेरे पास आम तौर पर किसी भी अन्य वितरण को मानने के लिए पर्याप्त जानकारी नहीं है, इसलिए गणना में सवाल एलआरटी आमतौर पर मूट होता है (जब मुझे ज़रूरत हो तो मैं उन्हें कर सकता हूं, वे या तो पहले से ही हल हो जाते हैं या इतनी मुश्किल से आते हैं कि यह एक दिलचस्प मोड़ है)।

मैं बहुत अधिक अनुकरण करता हूं; मैं भी अक्सर किसी न किसी रूप में या पैरामीट्रिक मान्यताओं के स्थान पर रेज़मैपलिंग का उपयोग करने का प्रयास करता हूं।

क्या मुझे उस पर प्रति सप्ताह 20hr + प्रति सप्ताह खर्च करने की आवश्यकता होगी जैसे मैं हुआ करता था?

यह इस बात पर निर्भर करता है कि आप क्या करना चाहते हैं और कितनी जल्दी आप इसे प्राप्त करना चाहते हैं।

डेटा विश्लेषण एक कौशल है, और यह अभ्यास और ज्ञान का एक बड़ा आधार लेता है। आपको पहले से ही आवश्यक कुछ ज्ञान होगा।

यदि आप विभिन्न प्रकार की चीजों में एक अच्छे चिकित्सक बनना चाहते हैं, तो इसमें बहुत समय लगेगा - लेकिन मेरे दिमाग में यह बीजगणित और कैसला और बर्जर अभ्यास करने की तुलना में बहुत अधिक मजेदार है।

प्रतिगमन समस्याओं के बारे में मैंने जो कुछ कौशल बनाए हैं, वे समय श्रृंखला के साथ सहायक हैं, कहते हैं - लेकिन बहुत से नए कौशल की आवश्यकता होती है। इसलिए अवशिष्ट भूखंडों और QQ भूखंडों की व्याख्या करना सीखना आसान है, लेकिन वे मुझे यह नहीं बताते हैं कि मुझे PACF भूखंड में थोड़ी सी टक्कर के बारे में कितना चिंतित होना चाहिए और मुझे एक-कदम-आगे की भविष्यवाणी के उपयोग जैसे उपकरण नहीं देना चाहिए त्रुटियों।

इसलिए, उदाहरण के लिए, मुझे यह पता लगाने के लिए प्रयास करने की आवश्यकता नहीं है कि ठेठ गामा या वेइबुल मॉडल के लिए विधिवत एमएल कैसे करें , क्योंकि वे मानक हल करने के लिए पर्याप्त हैं जो समस्याओं को पहले से ही एक सुविधाजनक रूप में डाल दिया गया है।

यदि आप शोध करने के लिए आते हैं , तो आपको बहुत सारे कौशल की आवश्यकता होगी जो आप कैसला और बर्जर जैसी जगहों पर उठाते हैं (लेकिन इस तरह के कौशल के साथ, आपको एक से अधिक पुस्तक भी पढ़नी चाहिए)।


कुछ सुझाई गई बातें:

आपको निश्चित रूप से कुछ प्रतिगमन कौशल का निर्माण करना चाहिए, भले ही आप कुछ और न करें।

काफी अच्छी किताबें हैं, लेकिन शायद ड्रेपर एंड स्मिथ एप्लाइड रिग्रेशन एनालिसिस प्लस फॉक्स और वीसबर्ग एन आर कंपैनियन टू एप्लाइड रिग्रेशन ; मेरा सुझाव है कि आप हरेल के प्रतिगमन मॉडलिंग रणनीतियों के साथ विचार करें

(आप ड्रेपर और स्मिथ के लिए कितनी भी अच्छी किताबों को स्थानापन्न कर सकते हैं - एक या दो जो आपको सूट करते हों।)

दूसरी पुस्तक में कई ऑनलाइन अतिरिक्त अध्याय हैं जो पढ़ने में बहुत अधिक योग्य हैं (और इसका अपना आर-पैकेज)

-

एक अच्छा दूसरा सर्विंग वेनेबल्स और रिप्ले का एस के साथ मॉडर्न एप्लाइड स्टैटिस्टिक्स होगा

यह विचारों के एक व्यापक व्यापक आधार में कुछ आधार है।

यह पता चल सकता है कि आपको कुछ विषयों में कुछ और बुनियादी सामग्री की आवश्यकता है (मुझे आपकी पृष्ठभूमि नहीं पता है)।

फिर आपको यह सोचना शुरू करना होगा कि आपको किन क्षेत्रों के आंकड़े चाहिए / जरूरत है - बायेसियन आँकड़े, समय श्रृंखला, बहुभिन्नरूपी विश्लेषण, आदि।


6

मेरी सलाह, विपरीत दृष्टिकोण (स्टैट पीएचडी छात्र) से आने वाली एक प्रतिगमन पाठ्यपुस्तक के माध्यम से काम करना है। यह किसी भी लागू अनुभव के बिना एक ठोस सैद्धांतिक पृष्ठभूमि के साथ किसी के लिए एक प्राकृतिक शुरुआती बिंदु लगता है। मुझे पता है कि हमारे विभाग के बाहर के कई स्नातक छात्र प्रतिगमन पाठ्यक्रम शुरू करते हैं।

एक अच्छा है सैनफोर्ड वेसबर्ग का एप्लाइड रैखिक प्रतिगमन । मेरा मानना ​​है कि यह इसके चौथे संस्करण पर है। आप शायद अपेक्षाकृत सस्ते पुराने संस्करण पा सकते हैं।

http://users.stat.umn.edu/~sandy/alr4ed/

इस पाठ्यपुस्तक के बारे में एक अच्छी बात, विशेष रूप से आर के साथ आपके रिश्तेदार अनुभवहीनता को देखते हुए, उपरोक्त लिंक के माध्यम से उपलब्ध आर प्राइमर है। यह पुस्तक में किए गए सभी चीजों को फिर से बनाने के लिए पर्याप्त निर्देश प्रदान करता है। इस तरह, आप वास्तव में प्रतिगमन सीख सकते हैं (जीएलएम की कुछ बुनियादी बातों के अलावा), आर प्रोग्रामिंग की कमी के बिना आपको वापस पकड़ लेंगे (और आप शायद रास्ते में कई आर मूल बातें उठा लेंगे)।

यदि आप R के लिए एक व्यापक परिचय चाहते हैं, तो आप बेहतर ढंग से फॉक्स और वीज़बर्ग के एन आर कम्पेनियन टू एप्लाइड रिग्रेशन के माध्यम से जा सकते हैं , लेकिन ऐसा लगता है कि आप प्रोग्रामिंग की तुलना में आंकड़े सीखेंगे (यदि उन दो चीजों को अलग से सोचा जा सकता है)।

जहाँ तक आपके समय की प्रतिबद्धता की चिंता है, मुझे नहीं लगता कि आपको यह पाठ्यपुस्तक या सामग्री अत्यधिक कठिन लगेगी। Casella-Berger के विपरीत, साक्ष्य या व्युत्पन्न के रास्ते में बहुत कुछ नहीं होगा। यह आम तौर पर बहुत सीधा है।

एक तरफ के रूप में, ऑनलाइन (या कुछ बिंदु पर) के आसपास तैरने वाले समाधान प्रतीत होते हैं, इसलिए आप समस्याओं का प्रयास कर सकते हैं, समाधान की जांच कर सकते हैं, और पुस्तक के माध्यम से गति की तरह काम करते हैं।


4

मैं अपने आप में एक सांख्यिकीविद् के रूप में अधिक होने की कोशिश कर रहा हूं, लेकिन मैं मुख्य रूप से एक मनोवैज्ञानिक हूं जो कुछ मात्रात्मक और पद्धतिगत हितों के लिए होता है। साइकोमेट्रिक काम ठीक से करने के लिए, मैं उन्नत (एक मनोवैज्ञानिक के लिए) तरीकों का अध्ययन कर रहा हूं जो कि मैं मैन्युअल रूप से गणना करने का सपना नहीं देखूंगा (बहुत कम मुझे पता होगा कि कैसे)। मुझे आश्चर्य हुआ है कि पिछले एक दशक में आर पैकेज प्रोग्रामर के सभी समर्पित प्रयासों के माध्यम से ये तरीके कितने सुलभ और सुविधाजनक हैं। मैं नए तरीकों के साथ वास्तविक जीवन विश्लेषण कर रहा हूं, जो मैंने प्रति विधि 20 घंटे से भी कम समय में उपयोग करना सीखा है ... मैं उस समय तक एक नई विधि पर इतना समय बिता सकता हूं जब तक मैं प्रकाशित करने के लिए तैयार हूं इसका उपयोग करने का परिणाम है, लेकिन निश्चित रूप से मेरी जैसी प्रगति करने के लिए अध्ययन का एक अंशकालिक काम करने की कोई आवश्यकता नहीं है। आप जो कर सकते हैं, उसके लिए समय निकालें; अगर आपको इसकी आवश्यकता नहीं है, तो यह सब या कुछ भी नहीं है।

मैंने निश्चित रूप से किसी भी विषय पर विशेष रूप से ध्यान केंद्रित नहीं किया है, अकेले वितरण के परिवारों को दो; मुझे संदेह है कि कोई भी ईमानदार-से-अच्छा सांख्यिकीविद या तो इतनी संकीर्णता से अध्ययन करेगा। मैंने पिछले एक सप्ताह में कुछ अवसरों पर प्रति दिन एक घंटे के लिए सैद्धांतिक वितरण में डब किया है; यह वास्तविक डेटा अनुप्रयोगों में उपयोगी साबित करने के लिए काफी है। जहाँ तक मैं बता सकता हूं, वितरण को कड़ाई से वर्गीकृत करने के लिए विचार इतना नहीं है; यह उन वितरण आकृतियों को पहचानना है जो सिद्धांतों से मिलती-जुलती हैं और उनका उपयोग उचित विश्लेषणों को तय करने और बुनियादी गतिकी को समझने में मदद करने के लिए करती हैं। मैंने अपने सबसे हाल के उत्तर पर "समान सिद्धांत, फिट या कुछ और के आधार पर वितरण का चयन करना बेहतर है? "

आपने यह नहीं कहा है कि आप जो विश्लेषण करना चाहते हैं, मैं आपके काल्पनिक सबसे खराब स्थिति में प्रदर्शन करना चाहता हूं, लेकिन नमूना विश्लेषण त्रुटि के लिए किसी भी विश्लेषण की संवेदनशीलता का अध्ययन करने के तरीके हैं। यदि CLT लागू नहीं होता है, तो अभी भी कई सांख्यिकीय प्रश्न हैं जो आप पूछ सकते हैं कि आप कैसे जानते हैं। गैरपारंपरिक तरीके आम तौर पर वितरण के बारे में बहुत सीमित धारणाएं बनाते हैं, इसलिए जनसंख्या के वितरण के आकार का पूर्व ज्ञान आवश्यक रूप से एक बड़ी समस्या नहीं है।

सामान्य रूप से ज्ञान वास्तव में वह सब जल्दी या पूरी तरह से वाष्पित नहीं करता है, लेकिन यदि आप इसका उपयोग नहीं करते हैं, तो आपको स्वतंत्र रूप से याद रखना कठिन होगा। आप एक मान्यता लाभ को अधिक समय तक बनाए रखेंगे, जो अभी भी आपके काम आ सकता है, यदि आपको कभी भी उन विषयों का अध्ययन करने की आवश्यकता है जो आपने कई वर्षों पहले पढ़े हैं ... लेकिन यदि आप जो सीखा है, उसमें धाराप्रवाह बने रहना चाहते हैं, तो इसका उपयोग करते रहें , और सीखते रहो! आर निश्चित रूप से आपके पास किसी भी अतिरिक्त अध्ययन के समय का निवेश करने के लिए एक अच्छी जगह है। इसे आपके शुद्ध गणित के साथ भी मदद करनी चाहिए: मेरे हालिया उत्तरों में से एक " PowerPoint के साथ उपयोग करने के लिए सर्वश्रेष्ठ ओपन सोर्स डेटा विज़ुअलाइज़ेशन सॉफ़्टवेयर देखें ।"


3

मैं 2019 में इस पर ठोकर खाई। मेरे दो सेंट।

मैं विभिन्न प्रकार के डेटा विश्लेषण करने के लिए एक झुकाव के साथ एक सांख्यिकी प्रोफेसर हूं (यही कारण है कि मैंने आंकड़े चुने हैं!)। कुछ व्यावहारिक ज्ञान लेने के लिए, मैं जेम्स, विटेन, हस्ती और टिब्शिरानी "एक परिचय सांख्यिकीय ज्ञान का सुझाव देता हूं"। यहां तक ​​कि उनके पास एक एमओओसी भी है। पुस्तक बहुत सारे "वास्तविक डेटा" उदाहरणों का उपयोग करती है और आर-आधारित भी है।


क्या आपके पास "सांख्यिकीय शिक्षा के तत्वों" से परे सुझाव देने के लिए कुछ है? मुझे लगता है कि अब मैं पुस्तक से (मूल बातें) परिचित हूं।
बॉम्बेक्स मोरी

2

बाद में इस सवाल पर आने वाले अन्य लोगों के लिए जवाब ...


वास्तविक जीवन डेटा विश्लेषण

डेटाबेस (SQL), dplyr / पांडा, यूनिक्स टूल (sed, grep), स्क्रैपिंग, स्क्रिप्टिंग, डेटा सफाई और सॉफ़्टवेयर परीक्षण जानें। विभिन्न विशिष्ट वितरणों का उद्योग में बहुत कम मूल्य है।

Angrist & Pischke, Faraway या Weisberg जैसी एक लागू प्रतिगमन पुस्तक, एक अधिक व्यावहारिक प्रकार का सिद्धांत होगा।

अधिकांश समय हम यह नहीं जानते हैं कि वास्तविक जीवन डेटा के लिए वितरण क्या है, इसलिए हमारे लिए विशेष रूप से विभिन्न पदों के संघों पर विशेष रूप से ध्यान केंद्रित करने का उद्देश्य क्या है

इसलिए गैर-पैरामीटर आंकड़ों में रुचि। लेकिन एक ही समय में बिना किसी धारणा के गैर-समरूपता बहुत ढीली है। आपके प्रश्न का उत्तर देने के लिए, विशिष्ट परिवारों को सरल प्रश्नों के उत्तर के रूप में सोचा जा सकता है जो कि आप कर सकते हैं, हो सकता है। उदाहरण के लिए, मैं एक गाऊसी को "सहज" बिंदु-अनुमान के रूप में समझता हूं। पोइसन एक और सरल प्रश्न का उत्तर देते हैं। जब लोग गणितीय मॉडल बनाते हैं तो ये विशेष उपयोगी अंक हो सकते हैं। (लेकिन शिक्षाविद अक्सर गलत तरीके से मास्टर डिस्ट्रीब्यूशन की तलाश करते हैं।)

ओपी: आशा है कि आप अपने पीएचडी अनुसंधान के साथ मज़े थे!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.