स्नातक छात्रों को दिखाने के लिए अच्छे उदाहरण क्या हैं?


9

मैं इस सेमेस्टर की दूसरी छमाही के लिए सीएस-उन्मुख स्नातक छात्रों के लिए एक सहायक के रूप में आँकड़े पढ़ाने जा रहा हूँ। अधिकांश छात्रों ने कक्षा में विषय सीखने के लिए कोई प्रोत्साहन नहीं लिया और केवल प्रमुख आवश्यकताओं के लिए इसे लिया। मैं विषय को रोचक और उपयोगी बनाना चाहता हूं, न कि केवल एक वर्ग जिसे वे पास करने के लिए बी + प्राप्त करना सीखते हैं।

एक शुद्ध-गणित पीएचडी छात्र के रूप में मैं वास्तविक जीवन में लागू पक्ष पर बहुत कम जानता था। मैं स्नातक आंकड़ों के कुछ वास्तविक जीवन के अनुप्रयोगों के लिए पूछना चाहता हूं। उदाहरण मैं देख रहा हूँ (आत्मा में) हैं:

1) केंद्रीय सीमा प्रमेय दिखाना कुछ बड़े नमूना डेटा के लिए उपयोगी है।

2) एक काउंटर-उदाहरण प्रदान करें कि केंद्रीय सीमा प्रमेय लागू नहीं है (जैसे, कॉची वितरण के बाद वाले)।

3) यह दिखाते हुए कि परिकल्पना परीक्षण ज़ेड-टेस्ट, टी-टेस्ट या कुछ का उपयोग करके प्रसिद्ध वास्तविक जीवन उदाहरणों में कैसे काम करता है।

4) दिखाते हैं कि कैसे शुरुआती या गलत परिकल्पना गलत परिणाम दे सकती है।

5) यह दिखाते हुए कि वास्तविक जीवन के मामलों में (अच्छी तरह से ज्ञात) पी-मूल्य और विश्वास अंतराल ने कैसे काम किया और वे इतनी अच्छी तरह से काम नहीं करते हैं।

6) इसी तरह I टाइप करें, II एरर, स्टैटिस्टिकल पॉवर, रिजेक्शन लेवल आदि।α

मेरी परेशानी यह है कि जब मेरे पास प्रायिकता पक्ष (सिक्का टॉस, पासा टॉस, जुआरी की बर्बादी, मार्टिंगलेस, रैंडम वॉक, तीन कैदी का विरोधाभास, मोंटी हॉल समस्या, एल्गोरिथ्म डिजाइन में प्रायिकता के तरीके आदि) के कई उदाहरण हैं, तो मुझे पता नहीं है सांख्यिकी पक्ष पर कई विहित उदाहरण। मेरा मतलब है कि गंभीर, दिलचस्प उदाहरण हैं, जिनमें कुछ शैक्षणिक मूल्य हैं, और यह कृत्रिम रूप से बना नहीं है जो वास्तविक जीवन से बहुत अलग है। मैं छात्रों को यह गलत धारणा नहीं देना चाहता कि जेड-टेस्ट और टी-टेस्ट सब कुछ है। लेकिन मेरी शुद्ध गणित पृष्ठभूमि के कारण मैं कक्षा को रोचक और उनके लिए उपयोगी बनाने के लिए पर्याप्त उदाहरण नहीं जानता। इसलिए मैं कुछ मदद की तलाश कर रहा हूं।

मेरे छात्र का स्तर कैलकुलस I और कैलकुलस II के आसपास है। वे मानक सामान्य का विचरण भी नहीं दिखा सकते हैं परिभाषा के अनुसार 1 है क्योंकि वे नहीं जानते कि गॉसियन कर्नेल का मूल्यांकन कैसे करें। इसलिए कुछ भी सैद्धांतिक या हाथों से कम्प्यूटेशनल (जैसे हाइपरमेट्रिक वितरण, 1 डी यादृच्छिक चलना में आर्क्सिन कानून) काम नहीं करने वाला है। मैं कुछ उदाहरण दिखाना चाहता हूं कि वे न केवल "कैसे" समझ सकते हैं, बल्कि "क्यों" भी समझ सकते हैं। अन्यथा मुझे यकीन नहीं है कि अगर मैं डरा-धमका कर कहा गया साबित कर दूंगा।


2
जैसा कि यह खड़ा है यह थोड़ा व्यापक लगता है और बहुत ही केंद्रित नहीं है "स्नातक आंकड़ों के कुछ वास्तविक जीवन के अनुप्रयोग" विशेष रूप से क्यूए प्रारूप के लिए अनुकूल नहीं है। सबसे अच्छा यह एक 'बड़ी सूची' सवाल है। यदि (3) अकेला भी व्यापक और अनफोकस्ड हो सकता है, लेकिन थोड़ा रीफ़्रेशिंग के साथ एक गोअर हो सकता है, और (4) थोड़ा और अधिक ध्यान के साथ अकेले पर्याप्त रूप से खड़ा हो सकता है। (1) किसी भी मामले में सफल नहीं हो सकता, क्योंकि केंद्रीय सीमा प्रमेय वास्तव में या या पर क्या होता है, इसके बारे में हमें कुछ नहीं बताता है । यह एक परिमित-नमूना परिणाम नहीं है। n=100n=1000n=1010
Glen_b -Reinstate Monica

3
बेरी-एसेन प्रमेय (जो मुझे उम्मीद है कि आप उस स्तर पर नहीं पढ़ाते हैं) का उपयोग परिमित नमूनों के साथ किया जा सकता है। अनौपचारिक रूप से, विशेष रूप से वितरण का नमूना साधन अधिक से अधिक सामान्य हो जाता है क्योंकि नमूना आकार बढ़ता है, लेकिन हम वास्तव में "यह केंद्रीय सीमा प्रमेय" नहीं कह सकते हैं, क्योंकि CLT वास्तव में उस बारे में कुछ नहीं कहता है। इसके अलावा, चीजों को एक सामान्य वितरण के करीब होने के लिए दिखाने के लिए, आपको नमूना आकारों के अनुक्रम की आवश्यकता है। वास्तविक विश्व डेटा संग्रह में, जो केवल समय के साथ एकत्र किए गए डेटा में आम है (इसलिए यदि आप iid मान रहे हैं, तो आपको कुछ कठिनाई हो सकती है)।
Glen_b -Reinstate मोनिका

2
एक वास्तविक डेटा है (एक प्रयोग से - अगर कुछ कृत्रिम रूप से) एक सेट - 40000 सिक्का टॉस - यहाँ
Glen_b -Reinstate Monica

1
आप उन्हें इस बारे में कुछ दिखा सकते हैं कि नमूना का अर्थ विशेष परिस्थितियों में नमूना आकार में वृद्धि के साथ कैसे व्यवहार करता है - यह काफी उपयोगी है; इसे CLT को निर्दिष्ट करने के लिए केवल कड़ाई से सटीक नहीं है। सिक्का-टॉस डेटा उसके लिए उपयोगी हो सकता है (जैसा कि वे उसी तरह के फैशन में खुद को उत्पन्न कर सकते हैं)। आप डेटा प्राप्त करने से पहले लिंक पर जानकारी पढ़ना चाह सकते हैं, क्योंकि डेटा की एक महत्वपूर्ण विशेषता है (जो इसे पहली जगह में इकट्ठा करने की प्रेरणा भी है)।
Glen_b -Reinstate मोनिका

1
आपके द्वारा सूचीबद्ध लगभग हर चीज के उदाहरण अच्छे इंट्रो सांख्यिकी ग्रंथों में प्रदान किए जाते हैं, जैसे कि फ्रीडमैन, पिसानी, और पर्स । (मैं तीसरा संस्करण है, जो आप आसानी से नीचे के लिए इस्तेमाल किया पा सकते हैं से जुड़ा हुआ $ ; नवीनतम संस्करण अधिक अप-टू-डेट उदाहरण हो सकता है 10 अमेरिका किसी भी संस्करण ठीक नहीं होगा।।)
whuber

जवाबों:


1

एक अच्छा तरीका यह हो सकता है कि आप R ( http://www.r-project.org/ ) स्थापित करें और शिक्षण के लिए इसके उदाहरणों का उपयोग करें। आप R के साथ कमांड में मदद कर सकते हैं "? T.test" आदि। प्रत्येक हेल्प फ़ाइल के अंत में उदाहरण हैं। उदाहरण के लिए t.test के लिए:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

यहाँ छवि विवरण दर्ज करें


1

मैं एक नमूना आकार के पूर्व-निर्धारण के लिए केंद्रीय सीमा प्रमेय के एक आवेदन का सुझाव देता हूं और "क्या मैंने पर्याप्त प्रश्नावली भेजा है" आदि सवालों का जवाब ढूंढ रहा है।

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf केंद्रीय सीमा प्रमेय को कैसे लागू करना है, इसका एक वास्तविक वास्तविक उदाहरण प्रदान करता है। एक रणनीति रणनीति हो सकती है:

ए) सिद्धांत

* एक नमूना वितरण और एक अनुमान के वितरण के बीच अंतर स्पष्ट करें, उदाहरण के लिए "फ्लैट" के वितरण से एक मरने के वितरण का बनाम बनाम एन पासा का उपयोग करें (आर का उपयोग करें या छात्रों को खुद को एक्सेल ड्राइंग सिंगल के साथ खेलने दें -वितरण वितरण बनाम साधनों का वितरण)

* माध्य के वितरण के लिए प्रतिशतकों का सूत्र-आधारित गणना दिखाएं (जैसा कि आप गणित में गहरे हैं, आप सूत्र प्राप्त करना चाह सकते हैं) - यह बिंदु ऊपर दी गई प्रस्तुति में स्लाइड 10-17 से मेल खाती है

और फिर (ऊपर दिए गए प्रेजेंटेशन से स्लाइड 20 के अनुसार):

बी) आवेदन

* दिखाते हैं कि केंद्रीय सीमा प्रमेय कैसे मतलब के अनुमानों में वांछित सटीकता के लिए नमूना आकार निर्धारित करने में मदद करता है

यह एप्लिकेशन बी) मेरे अनुभव में ऐसा क्या है जो गैर-सांख्यिकीविदों को एक सांख्यिकीविद से उम्मीद है - "क्या मेरे पास पर्याप्त डेटा है?"


1

जब से आप सीएस छात्रों को पढ़ा रहे हैं, केंद्रीय सीमा प्रमेय का एक अच्छा अनुप्रयोग बड़े पैमाने पर डेटासेट से मतलब का अनुमान लगाने के लिए हो सकता है (अर्थात> 100 मिलियन रिकॉर्ड)। यह दिखाना शिक्षाप्रद हो सकता है कि संपूर्ण डेटासेट के लिए माध्य की गणना करना आवश्यक नहीं है, बल्कि डेटासेट से नमूना लेने के लिए और संपूर्ण डेटासेट / डेटाबेस से माध्य का अनुमान लगाने के लिए नमूना माध्य का उपयोग करें। यदि आप चाहते हैं और एक डेटासेट का अनुकरण कर सकते हैं, जो अलग-अलग उपसमूहों के लिए बहुत भिन्न मान है, तो आप इसे एक कदम आगे ले जा सकते हैं। आप तब छात्रों को अधिक सटीक अनुमान प्राप्त करने के लिए स्तरीकृत नमूने का पता लगा सकते थे।

फिर से, चूंकि सीएस छात्र हैं, इसलिए आप विश्वास अंतराल प्राप्त करने के लिए कुछ बूटस्ट्रैपिंग भी कर सकते हैं या अधिक जटिल आंकड़ों के प्रकार का अनुमान लगा सकते हैं। यह मेरी राय में सांख्यिकी और कंप्यूटर का एक अच्छा चौराहा है, और इससे विषय में अधिक रुचि हो सकती है।


1

मैंने एक टिप्पणी लिखकर शुरुआत की लेकिन यह बहुत लंबी हो गई ...

ध्यान रखें कि वे सीएस के छात्र हैं। आप उन्हें जिस तरह से आप गणितज्ञों (कृपया के साथ) कृपया नहीं करेंगेσबीजगणित) या जीवविज्ञानी, चिकित्सक (जैविक या चिकित्सा डेटा के साथ, और अच्छे पुराने अशक्त परिकल्पनाओं के परीक्षण के लिए शास्त्रीय व्यंजनों)। यदि आपको व्याख्यान के उन्मुखीकरण का निर्णय लेने के लिए पर्याप्त स्वतंत्रता है, अगर बिंदु यह है कि वे बुनियादी अवधारणाओं को सीखते हैं, तो मेरी सलाह है कि अभिविन्यास का एक मौलिक परिवर्तन करें। बेशक, अगर अन्य शिक्षक चाहते हैं कि वे कुछ पूर्वनिर्धारित कार्यों को करने में सक्षम हों, तो आप थोड़े अटक जाते हैं।

इसलिए, मेरी राय में, यदि आप "सीखने के" दृष्टिकोण से अनुमान प्रस्तुत करते हैं, तो आप इसे पसंद करेंगे, और यदि आप "निर्णय सिद्धांत" या "वर्गीकरण" दृष्टिकोण से परीक्षण प्रस्तुत करते हैं - संक्षेप में, वे माना जाता है एल्गोरिदम को पसंद करने के लिए। एल्गोरिदम को टटोलने के लिए!

इसके अलावा, सीएस से संबंधित डेटासेट खोजने की कोशिश करें; जैसे कनेक्शन की अवधि और HTML सर्वर के लिए प्रति यूनिट अनुरोध की संख्या कई अवधारणाओं को स्पष्ट करने में मदद कर सकती है।

वे सिमुलेशन तकनीक सीखना पसंद करेंगे। लेहमर जनरेटर को लागू करना आसान है। उन्हें दिखाओ कि कैसे cdf inverting द्वारा अन्य वितरण का अनुकरण करें। यदि आप इसमें हैं, तो उन्हें मार्साग्लिया के जिग्गुरैट एल्गोरिथ्म को दिखाएं। ओह, और मार्साग्लिया द्वारा MWC256 जनरेटर थोड़ा रत्न है। मार्साग्लिया (वर्दी जनरेटर की निष्पक्षता के लिए परीक्षण) द्वारा दिहार्ड परीक्षण संभावना और सांख्यिकी की कई अवधारणाओं को स्पष्ट करने में मदद कर सकते हैं। आप रैंडम डबल्स, ऊप्स, आई मीन रियल्स के "(स्वतंत्र) धाराओं के आधार पर प्रायिकता सिद्धांत पेश करने के लिए भी चुन सकते हैं - यह थोड़ा चुटीला है, लेकिन यह भव्य हो सकता है।

यह भी याद रखें कि पेज रैंक एक मार्कोव श्रृंखला पर आधारित है। यह आसान मामला नहीं है, लेकिन आर्थर एंगेल की प्रस्तुति के बाद (मुझे लगता है कि संदर्भ संभाव्य अबैकस है - यदि आप फ्रेंच पढ़ते हैं, तो यह पुस्तक बिल्कुल पढ़नी चाहिए ), आप आसानी से कुछ खिलौना उदाहरण पेश कर सकते हैं जो उन्हें पसंद आएंगे । मुझे लगता है कि सीएस विज्ञान के छात्र डिस्क्रेट मार्कोव श्रृंखला को अधिक पसंद करेंगेt-टैस्ट, भले ही यह अधिक कठिन सामग्री लगती हो (एंगेल की प्रस्तुति इसे बहुत आसान बना देती है)।

यदि आप अपने विषय में महारत हासिल करते हैं, तो मूल होने में संकोच न करें। "शास्त्रीय" व्याख्यान ठीक हैं जब आप कुछ सिखाते हैं तो आप पूरी तरह से परिचित नहीं होते हैं। सौभाग्य, और यदि आप कुछ व्याख्यान नोट्स जारी करते हैं तो कृपया मुझे बताएं!


1

आप कहते हैं कि यह कंप्यूटर-विज्ञान के छात्र हैं। उनके हित क्या हैं, क्या यह मुख्य रूप से सैद्धांतिक कंप्यूटर विज्ञान है, या छात्रों को मुख्य रूप से नौकरियों की तैयारी के लिए प्रेरित किया गया है? आप हमें यह भी बता सकते हैं कि पाठ्यक्रम का वर्णन क्या है!

लेकिन, उन प्रश्नों के बारे में आपका जो भी उत्तर है, आप सूचना विज्ञान संदर्भों में होने वाले कुछ व्यावहारिक आंकड़ों के साथ शुरू कर सकते हैं, जैसे (उदाहरण के लिए) वेब डिज़ाइन। इस साइट पर समय-समय पर इस बारे में प्रश्न होते हैं, जैसे कि समय के साथ रूपांतरण दर या /stats/96853/comparing-sales-person-conversion-rates या AB परीक्षण रूपांतरण दर के अन्य कारकों के बारे में

यहाँ बहुत सारे प्रश्न हैं जैसे कि, वेब डिज़ाइन में शामिल लोगों से प्रतीत होता है। स्थिति यह है कि आपके पास कुछ वेब पेज हैं (कहते हैं, आप कुछ बेचते हैं)। "रूपांतरण दर", जैसा कि मैं इसे समझता हूं, आगंतुकों का प्रतिशत है जो किसी पसंदीदा कार्य पर जाते हैं (जैसे कि खरीदना, या कुछ अन्य लक्ष्य जो आपके आगंतुकों के लिए हैं)। तब आप वेब डिजाइनर के रूप में पूछते हैं कि क्या आपके पेज का लेआउट इस व्यवहार को प्रभावित करता है। इसलिए आप वेब पेज के दो (या अधिक) संस्करणों को प्रोग्राम करते हैं, कुछ नए ग्राहक को पेश करने के लिए बेतरतीब ढंग से कौन सा संस्करण चुनते हैं, और इसलिए रूपांतरण दरों की तुलना कर सकते हैं, और अंत में उच्चतम रूपांतरण दर वाले संस्करण को लागू करने का विकल्प चुन सकते हैं।

यह तुलनात्मक प्रयोग के डिजाइन की एक समस्या है, और आपको प्रतिशत की तुलना करने के लिए सांख्यिकीय तरीकों की आवश्यकता होती है, या शायद सीधे डिजाइन की आकस्मिक तालिका बनाम कन्वर्ट / नो कन्वर्ट। यह उदाहरण उन्हें दिखा सकता है कि आंकड़े वास्तव में कुछ वेब विकास कार्य में उनके लिए उपयोगी हो सकते हैं! और, सांख्यिकीय पक्ष से, यह मान्यताओं की वैधता के बारे में बहुत सारे दिलचस्प सवालों के लिए खुलता है ...

केंद्रीय सीमा प्रमेय के बारे में आप जो कहते हैं, उससे जुड़ने के लिए, आप पूछ सकते हैं कि सामान्य रूप से वितरित किए गए प्रतिशत का इलाज करने से पहले आपको कितनी टिप्पणियों की आवश्यकता होगी, और क्या उन्होंने अनुकरण का उपयोग करते हुए अध्ययन किया है ...

आप प्रोग्रामर प्रकारों द्वारा प्रस्तुत अन्य आँकड़े प्रश्नों के लिए इस साइट को खोज सकते हैं ...


-2

मेरा सुझाव है कि किसी भी अच्छे उदाहरण से पहले, स्पष्ट-परिभाषाओं पर ध्यान देना बेहतर है। मेरे अनुभव में, स्नातक संभाव्यता और सांख्यिकी एक ऐसा शब्द है जो ऐसे शब्दों से भरा हुआ है जिसे कोई भी छात्र नहीं समझता है। प्रयोग के रूप में, उन छात्रों से पूछें, जिन्होंने एक प्रायिकता पाठ्यक्रम पूरा किया है कि "यादृच्छिक चर" क्या है। वे आपको उदाहरण दे सकते हैं, लेकिन मुझे संदेह है कि अधिकांश आपको इसकी स्पष्ट परिभाषा देंगे। वास्तव में "संभावना" क्या है? "वितरण" क्या है? आंकड़ों में शब्दावली और भी भ्रामक है। अधिकांश स्नातक पुस्तकों को मैंने यह बताते हुए बहुत बुरा काम किया। उदाहरण और अभिकलन अच्छे हैं, लेकिन स्पष्ट परिभाषाओं के बिना यह उतना उपयोगी नहीं है जितना कोई सोचता है। अपने अनुभव से बोलते हुए, यह बिल्कुल इसलिए था क्योंकि मुझे स्नातक के रूप में संभावना सिद्धांत से नफरत थी। भले ही मेरे हितों के रूप में जहाँ तक संभावना से हटा दिया गया है, मैं अब इस विषय की सराहना कर सकता हूँ, क्योंकि मैंने अंततः खुद को सिखाया कि सभी शब्दावली वास्तव में क्या मतलब है। मैं माफी माँगता हूँ कि यह वही नहीं है जो आपने पूछा था, लेकिन यह देखते हुए कि आप ऐसी कक्षा को पढ़ा रहे हैं, मुझे लगा कि यह उपयोगी सलाह होगी।


1
मुझे यकीन नहीं है कि मैं सहमत हूं - कम से कम अधिकांश / सभी मामलों में नहीं। कुछ के लिए, वैचारिक समझ, जैसा कि आप सुझाव देते हैं, आवेदन को विशेष उदाहरणों से पहले कर सकते हैं, लेकिन अन्य छात्रों के लिए, वैचारिक समझ (विशेष रूप से जटिल विषयों के लिए) विशेष रूप से रोशन उदाहरण के उपयोग के बारे में ही आ सकती है।
जसालुक

जब मैं एक स्नातक था, तो मैं आमतौर पर बहुत मुश्किल से स्नातक गणित नहीं पढ़ता था और वहां की समस्याओं को हल करता था। मुझे पता था कि मैं क्या कर रहा हूं और मुझे क्या करना है। संभावना सिद्धांत, या आंकड़े, उन विषयों की तुलना में "आसान" हैं जो मैं सीख रहा था। लेकिन मुझे नहीं पता था कि मैं क्या कर रहा था या मुझे क्यों करना था। पाठ्यपुस्तकें खुद मेरे लिए पूरी तरह से अनपेक्षित थीं। उन्हें पढ़ने के बाद मुझे वास्तव में शब्दावली समझ में नहीं आई। निश्चित रूप से, मैं गणना कर सकता हूं लेकिन दिन के अंत में, मैंने इसे एक खाली विषय के रूप में देखा। अगर मुझे यह भ्रम होता, तो अलविदा, गैर-गणित के इच्छुक छात्र भी करते।
निकोलस बोर्बाकी

5
मुझे आश्चर्य है कि अगर यह सीएस गणित के लिए लागू आँकड़ों को पढ़ाने की तुलना में शुद्ध गणित की डिग्री पर बहुत उज्ज्वल छात्रों को पढ़ाने के लिए अधिक उपयोगी सलाह हो सकती है।
सिल्वरफिश

@Silverfish मुझे यकीन नहीं है कि मेरी सलाह केवल गणित के छात्रों के लिए लागू है। कोई माप सिद्धांत की भाषा विकसित कर सकता है और यह दिखा सकता है कि सिद्धांत में जाने के बिना, उसमें संभावना कैसे व्यक्त की जाती है। यह वास्तव में बुनियादी पथरी से अलग नहीं है। अधिकांश पुस्तकें कम से कम अपनी शर्तों को परिभाषित करती हैं लेकिन वे उनके सिद्धांत में नहीं जाती हैं। यदि छात्रों ने यह समझा कि आँकड़े प्रायिकता की विपरीत समस्या है, और उदाहरण के लिए, हम इस अर्थ के बारे में "देखभाल" करते हैं क्योंकि यह एक यादृच्छिक चर के अपेक्षित मूल्य का अनुमान लगाता है, तो वे इसकी अधिक सराहना कर सकते हैं।
निकोलस बॉर्बकी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.