सांख्यिकी सिद्धांत और अनुप्रयोगों से समझ बनाना


13

मैंने हाल ही में मेडिकल और बायोलॉजिकल मॉडलिंग में अपनी स्नातकोत्तर डिग्री के साथ इंजीनियरिंग गणित के साथ एक पृष्ठभूमि के रूप में स्नातक किया है। भले ही मेरे शिक्षा कार्यक्रम में गणितीय आंकड़ों पर एक महत्वपूर्ण मात्रा में पाठ्यक्रम शामिल थे (एक सूची के लिए नीचे देखें), जिसे मैंने बहुत उच्च ग्रेड के साथ प्रबंधित किया, मैं अक्सर सिद्धांत और आंकड़ों के अनुप्रयोगों दोनों को पूरी तरह से खो देता हूं। मुझे कहना है, "शुद्ध" गणित की तुलना में, आंकड़े वास्तव में मेरे लिए बहुत कम मायने रखते हैं। विशेष रूप से अधिकांश सांख्यिकीविदों (मेरे पिछले व्याख्याताओं सहित) द्वारा उपयोग की जाने वाली अधिसूचनाएं और भाषा कष्टप्रद रूप से जटिल है और मैंने अब तक जितने भी संसाधन (विकिपीडिया सहित) देखे उनमें से कोई भी सरल उदाहरण नहीं था जो किसी व्यक्ति को दिए गए सिद्धांत से आसानी से संबंधित और संबद्ध हो सके। ..

यह पृष्ठभूमि है; मुझे कड़वी वास्तविकता का भी एहसास है कि मैं एक शोधकर्ता / इंजीनियर के रूप में आँकड़ों पर दृढ़ पकड़ के बिना कैरियर नहीं बना सकता, खासकर जैव सूचना विज्ञान के क्षेत्र में।

मैं उम्मीद कर रहा था कि मुझे अधिक अनुभवी सांख्यिकीविदों / गणितज्ञों से कुछ सुझाव मिल सकते हैं। ऊपर बताई गई इस समस्या को मैं कैसे दूर कर सकता हूं? क्या आप किसी भी अच्छे संसाधनों के बारे में जानते हैं; जैसे किताबें, ई-किताबें, खुले पाठ्यक्रम (आईट्यून्स या ओपनकोर्सवेयर के माध्यम से पूर्व के लिए) आदि।

संपादित करें: जैसा कि मैंने उल्लेख किया है कि मैं सांख्यिकी के सामान्य शीर्षक के तहत साहित्य के बहुमत के प्रति काफी पक्षपाती (नकारात्मक) हूं, और चूंकि मैं आंकड़ों की प्रति शाखा बड़े (और महंगे) कोर्सबुक की एक संख्या नहीं खरीद सकता हूं, मुझे क्या आवश्यकता होगी एक पुस्तक के संदर्भ में कुछ ऐसा ही है जैसा कि टिपलर और मोस्का भौतिकी के लिए है, लेकिन आंकड़ों के बजाय।

उन लोगों के लिए जो टिपर के बारे में नहीं जानते हैं; यह एक बड़ी पाठ्यपुस्तक है जिसमें उन विषयों की एक विस्तृत संख्या शामिल है जो उच्च अध्ययन के दौरान मुठभेड़ कर सकते हैं, और उन्हें मूल परिचय से प्रत्येक को थोड़ा गहराई से विस्तार से प्रस्तुत करते हैं। मूल रूप से एक संपूर्ण संदर्भ पुस्तक, इसे मेरे पहले वर्ष के दौरान uni में खरीदा गया था, फिर भी इसे हर एक समय में उपयोग किया जाता है।


मेरे द्वारा आँकड़ों पर लिए गए पाठ्यक्रम:

  • एक बड़ा परिचय पाठ्यक्रम,
  • स्थिर स्टोकेस्टिक प्रक्रियाएं,
  • मार्कोव प्रक्रियाएं,
  • मोंटे कार्लो के तरीके
  • उत्तरजीविता विश्लेषण

जवाबों:


4

मैं आपकी स्थिति को पूरी तरह से समझ सकता हूं। भले ही मैं पीएचडी का छात्र हूं, फिर भी मुझे संबंधित सिद्धांत और अनुप्रयोग के लिए कभी-कभी कठिन लगता है। यदि आप अपने आप को समझने के सिद्धांत में डूबने के लिए तैयार हैं, तो यह निश्चित रूप से पुरस्कृत है जब आप वास्तविक दुनिया की समस्याओं के बारे में सोचते हैं। लेकिन प्रक्रिया निराशाजनक हो सकती है।

कई संदर्भों में से एक जो मुझे पसंद है वह है जेलमैन और हिल्स डेटा एनालिसिस हियरार्चिकल / मल्टीलेवल मॉडल का उपयोग करना । वे सिद्धांत से बचते हैं जहां वे सिमुलेशन का उपयोग करके अंतर्निहित अवधारणा को व्यक्त कर सकते हैं। जैसा कि आप कहते हैं कि एमसीएमसी आदि में आपको अनुभव है, यह निश्चित रूप से आपको लाभ देगा। आप जैव सूचना विज्ञान में काम कर रहे हैं, शायद हैरेल की प्रतिगमन मॉडलिंग रणनीतियाँ भी एक महान संदर्भ हैं।

मैं इसे एक सामुदायिक विकी बना दूंगा और दूसरों को इससे जोड़ दूंगा।


मामले पर ध्यान देने के लिए आपका धन्यवाद। यह देखकर अच्छा लगा कि मैं सामान को लेकर भ्रमित नहीं हूं। कहा जा रहा है, मुझे लगता है कि आपने मेरी स्थिति को कम कर दिया है; जबकि मैंने कई पाठ्यक्रम लिए हैं और सांख्यिकीय विश्लेषण के विभिन्न तरीकों की एक संख्या के अस्तित्व से परिचित हूं; वे पाठ्यक्रमों के बाद मेरे साथ कभी नहीं रहे। परीक्षा के कुछ महीने बाद, मैं खुद को हैरान करता रहता हूं; "मैंने इसे कहीं देखा / सुना है, लेकिन यह वास्तव में कैसे काम करता है?" इससे मुझे पता चलता है कि मुझे इसे पूरी तरह से फाड़ने और एक मजबूत नींव के साथ इसका निर्माण शुरू करने की आवश्यकता है।
१६

मैं हरेल के (नोट वर्तनी) पाठ के लिए एक शानदार "सहमत" जोड़ूंगा। यह उत्कृष्ट है क्योंकि आर कोड के दो-पैकेज संयोजन इसके साथ हैं। मुझे भी लगता है कि वेनेबल्स और रिप्ले द्वारा "मॉडर्न अप्लाइड स्टेटिस्टिक एस के साथ" एक अच्छा अधिग्रहण होगा। R सीखने के लिए MASS का उपयोग करने से पहले मेरे पास मास्टर्स लेवल बैकग्राउंड (भौतिकी में अंडरग्रेजुएट डिग्री के साथ) है। उस पाठ में एप्लिकेशन-ज्ञान का खजाना है।
डीडब्ल्यू

गेलमैन प्रतिगमन पुस्तक अद्भुत है, वह इसे बहुत अच्छी तरह से समझाता है, और आर कोड प्रदान करता है जो सामग्री की आपकी समझ की जांच करने के लिए वास्तव में उपयोगी है।
रिचमीमोर्रिसो

2

क्या आप बायेसियन डेटा विश्लेषण (गेलमैन, कार्लिन, स्टर्न और रुबिन द्वारा) से परिचित हैं ? हो सकता है कि आपको इसकी खुराक की आवश्यकता हो।


2

सभी आँकड़ों की समस्याएँ अनिवार्य रूप से 4 चरणों का पालन करने के लिए उबालती हैं (जो मैंने दूसरे प्रश्न पर @ उत्तर से उधार लिया है ):

  1. पैरामीटर का अनुमान लगाएं।

  2. उस अनुमान की गुणवत्ता का आकलन करें।

  3. डेटा का अन्वेषण करें।

  4. फिट का मूल्यांकन करें।

आप शब्द मॉडल के साथ शब्द पैरामीटर का आदान-प्रदान कर सकते हैं ।

सांख्यिकी पुस्तकें आमतौर पर विभिन्न स्थितियों के लिए पहले दो बिंदु प्रस्तुत करती हैं। समस्या यह है कि प्रत्येक वास्तविक विश्व अनुप्रयोग को अलग-अलग दृष्टिकोण की आवश्यकता होती है, इसलिए अलग-अलग मॉडल, इसलिए पुस्तकों का एक बड़ा हिस्सा इन विभिन्न मॉडलों को सूचीबद्ध करता है। इसका अवांछित प्रभाव है कि विवरण में खुद को खोना और बड़ी तस्वीर को याद करना आसान है।

बड़ी तस्वीर पुस्तक जिसे मैं दिल से सुझाता हूं वह एसिम्प्टोटिक आँकड़े हैं । यह विषय का एक कठोर उपचार देता है और गणितीय रूप से "शुद्ध" है। हालांकि इसके शीर्षक में स्पर्शोन्मुख आँकड़ों का उल्लेख है, बड़ा अनकहा रहस्य यह है कि बहुसंख्यक शास्त्रीय आँकड़ों के मूल तत्व विषम परिणामों पर आधारित हैं।


2

मुझे लगता है कि यहां सबसे महत्वपूर्ण बात आंकड़ों और कुछ सामान्य सांख्यिकीय अवधारणाओं के बारे में एक अंतर्ज्ञान विकसित करना है। शायद ऐसा करने का सबसे अच्छा तरीका कुछ डोमेन है जो आप "खुद" कर सकते हैं। यह एक सकारात्मक प्रतिक्रिया पाश प्रदान कर सकता है जहां डोमेन के बारे में समझ आपको अंतर्निहित आँकड़ों के बारे में अधिक समझने में मदद करती है, जिससे आपको डोमेन के बारे में अधिक समझने में मदद मिलती है, आदि।

मेरे लिए वह डोमेन बेसबॉल आँकड़े था। मैं समझ गया कि एक खेल में 4 के लिए 3 पर जाने वाला बल्लेबाज "सच्चा" नहीं है ।750 हिटर। यह अधिक सामान्य बिंदु को समझने में मदद करता है कि नमूना डेटा अंतर्निहित वितरण के समान नहीं है। मुझे यह भी पता है कि वह एक .750 हिटर की तुलना में शायद एक औसत खिलाड़ी के करीब है, इसलिए इससे प्रतिगमन जैसी धारणाओं को समझने में मदद मिलती है। वहाँ से मैं बायसेनियन पूर्ण-विस्फारित प्राप्त कर सकता हूँ जहाँ मेरे पूर्व संभाव्यता वितरण का मतलब बेसबॉल खिलाड़ी के रूप में था, और मेरे पास अब 4 नए नमूने हैं जिनके साथ अपने पीछे के वितरण को अद्यतन करने के लिए।

मुझे नहीं पता कि वह डोमेन आपके लिए क्या है, लेकिन मुझे लगता है कि यह एक मात्र पाठ्यपुस्तक की तुलना में अधिक उपयोगी होगा। उदाहरण को समझने के लिए उदाहरणों को समझने में मदद करता है। उदाहरणों के साथ एक पाठ्यपुस्तक अच्छी है, लेकिन जब तक आप उन उदाहरणों को "आपका" नहीं बना सकते, तब मुझे आश्चर्य होता है कि क्या आप उनसे पर्याप्त रूप से मिलेंगे।



1

हर कोई अलग तरह से सीखता है, लेकिन मुझे लगता है कि यह कहना सुरक्षित है कि उदाहरण, उदाहरण, उदाहरण, आंकड़ों में बहुत मदद करते हैं। मेरा सुझाव आर सीखने के लिए होगा (बस मूल बातें काफी मदद करने के लिए पर्याप्त हैं) और फिर आप किसी भी और हर उदाहरण की कोशिश कर सकते हैं जब तक कि आपकी आँखें खून न करें। आप इसे सॉर्ट कर सकते हैं, इसे फिट कर सकते हैं, इसे प्लॉट कर सकते हैं, आप इसे नाम दे सकते हैं। और, जब से R आँकड़ों की ओर बढ़ा है, जैसा कि आप R सीखते हैं, आप आँकड़े सीख रहे होंगे। उन पुस्तकों को जिन्हें आपने सूचीबद्ध किया है, उन पर "मुझे दिखाओ" बिंदु से हमला किया जा सकता है।

चूंकि आर नि: शुल्क है, और बहुत सारी स्रोत सामग्री मुफ्त है, इसलिए आपको निवेश करने की आवश्यकता है।

http://www.mayin.org/ajayshah/KB/R/index.html

http://math.illinoisstate.edu/dhkim/rstuff/rtutor.html

http://www.cyclismo.org/tutorial/R/

http://www.stat.pitt.edu/stoffer/tsa2/R_time_series_quick_fix.htm

http://www.statmethods.net/about/books.html

R पर कई अच्छी किताबें हैं जिन्हें आप खरीद सकते हैं, यहाँ एक है जिसे मैंने उपयोग किया है:

http://www.amazon.com/Introductory-Statistics-R-Peter-Dalgaard/dp/0387954759

संपादित ============

मैं कुछ लिंक जोड़ना भूल गया। यदि आप Windows का उपयोग कर रहे हैं, तो R को खिलाने के लिए एक अच्छा संपादक Tinn-R है (कोई अन्य मैक, या लिनक्स पर संपादकों के लिए लिंक जोड़ सकता है)।

http://www.sciviews.org/Tinn-R/

http://cran.r-project.org/web/packages/TinnR/


लिंक के लिए धन्यवाद, मैं कोशिश करूंगा और आने वाले हफ्तों में जितना संभव हो सके उतना उनके माध्यम से जाऊंगा ... मैं पहले भी एक बार आर के संपर्क में रहा हूं, उत्तरजीविता विश्लेषण पाठ्यक्रम में जिसमें हमने बहुत से बहुभिन्नरूपी प्रतिगमन (कॉक्स और एलेन) किए मॉडल) और अन्य सामान का एक गुच्छा जो मुझे वास्तव में याद नहीं है। R की मेरी धारणा, एक ऐसे व्यक्ति के रूप में जो MATLAB की बहुत अभ्यस्त थी, वह काफी नकारात्मक था, लेकिन मैंने इसे इस तथ्य के साथ करने के लिए बहुत कुछ किया कि हम पूल के गहरे अंत में कम या ज्यादा फेंक दिए गए थे, और फिर सीखने की उम्मीद थी अपने दम पर तैरना, जिसने मुझे उस समय से सॉफ्टवेयर से नफरत करने का नेतृत्व किया :) समय बदलने के लिए कि शायद
posdef

1

मैं व्यक्तिगत रूप से इसे प्यार करता था जिसमें सिद्धांत और अनुप्रयोग का बहुत अच्छा मिश्रण था (बहुत सारे उदाहरणों के साथ)। यह अधिक सिद्धांत उन्मुख दृष्टिकोण के लिए कैसला और बेगर के साथ एक अच्छा मैच था। और एक व्यापक ब्रश अवलोकन के लिए


दोनों पुस्तकों से लगता है कि अमेजन पर अच्छी समीक्षा हो सकती है, क्या कोई भी इन पर कोई राय (शायद थोड़ा और विस्तार से) जोड़ सकता है? btw; कसेला और बेगर द्वारा क्या आप "सांख्यिकीय हस्तक्षेप" का मतलब है?
posdef

हाँ 'सांख्यिकीय अनुमान'। मेरे लिए एक बड़ा कदम प्रायिकता मॉडल को समझने से लेकर यह समझने के लिए था कि मॉडल का परीक्षण करने और मॉडल के मापदंडों का अनुमान लगाने के लिए डेटा का उपयोग कैसे किया जाए। विशेष रूप से डेविसन पुस्तक वास्तव में इस बिंदु पर केंद्रित है।
1
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.