एक काम के माहौल में सही आँकड़े करना?


20

मुझे यकीन नहीं है कि यह सवाल कहाँ है: क्रॉस मान्य, या कार्यस्थल। लेकिन मेरा सवाल आंकड़ों से संबंधित है।

यह सवाल (या मुझे लगता है कि प्रश्न) "डेटा साइंस इंटर्न" के रूप में काम करने के दौरान उत्पन्न हुआ था। मैं इस रैखिक प्रतिगमन मॉडल का निर्माण कर रहा था और अवशिष्ट भूखंड की जांच कर रहा था। मैंने विषमलैंगिकता का स्पष्ट संकेत देखा। मुझे याद है कि विषमलैंगिकता कई परीक्षण आँकड़ों जैसे कि विश्वास अंतराल और टी-परीक्षण को विकृत करती है। इसलिए मैंने कॉलेज में जो कुछ भी सीखा है, मैंने कम से कम वर्ग का उपयोग किया। मेरे प्रबंधक ने उसे देखा और मुझे ऐसा न करने की सलाह दी क्योंकि "मैं चीजों को जटिल बना रहा था", जो मेरे लिए बिल्कुल ठोस कारण नहीं था।

एक अन्य उदाहरण "एक व्याख्यात्मक चर को हटाना होगा क्योंकि इसका पी-मान महत्वहीन है"। होने के लिए, यह सलाह सिर्फ तार्किक दृष्टिकोण से समझ में नहीं आती है। जो मैंने सीखा है, उसके अनुसार, महत्वहीन पी-मूल्य अलग-अलग कारणों से हो सकता है: मौका, गलत मॉडल का उपयोग करना, मान्यताओं का उल्लंघन करना, आदि।

फिर भी एक और उदाहरण है, मैंने अपने मॉडल का मूल्यांकन करने के लिए k- गुना क्रॉस सत्यापन का उपयोग किया। परिणाम के अनुसार, से बेहतर है । लेकिन हमारे पास मॉडल 1 के लिए कम , और इसका कारण अवरोधक के साथ कुछ करना है । हालाँकि, मेरे पर्यवेक्षक को मॉडल 2 पसंद है क्योंकि इसमें उच्च । उसके कारण (जैसे कि मजबूत है, या क्रॉस-वैरिफिकेशन मशीन लर्निंग अप्रोच है, स्टेटिस्टिकल अप्रोच नहीं है) बस मेरे दिमाग को बदलने के लिए पर्याप्त आश्वस्त नहीं लगता। सी वी एम डी एल 2 आर 2CVmodel1CVmodel2R2आर 2R2R2

जैसा कि किसी ने कॉलेज से स्नातक किया है, मैं बहुत भ्रमित हूं। मैं वास्तविक दुनिया की समस्याओं को हल करने के लिए सही आँकड़े लागू करने के बारे में बहुत भावुक हूं, लेकिन मुझे नहीं पता कि निम्नलिखित में से कौन सा सच है:

  1. मैंने खुद से जो आंकड़े सीखे हैं, वे सिर्फ गलत हैं, इसलिए मैं सिर्फ गलतियां कर रहा हूं।
  2. कंपनियों में सैद्धांतिक आंकड़ों और निर्माण मॉडल के बीच बहुत अंतर है। और यद्यपि सांख्यिकी सिद्धांत सही है, लोग इसका पालन नहीं करते हैं।
  3. प्रबंधक आंकड़ों का सही उपयोग नहीं कर रहा है।

4/17/2017 पर अपडेट करें: मैंने पीएचडी करने का फैसला किया है। आंकड़ों में। आपके उत्तर के लिए आप सभी का धन्यवाद।


1
आपके प्रश्न से संबंधित इस उत्तर के नीचे टिप्पणी (विशेष रूप से अंत में) हैं: आंकड़े.stackexchange.com/questions/229193/…

यह चर्चा प्रासंगिक भी हो सकती है । व्यवहार में, आप कभी-कभी उन मॉडलों का उपयोग कर सकते हैं जहां आपका डेटा कुछ आवश्यक मान्यताओं का उल्लंघन करता है (उदाहरण के लिए, आश्रित चर पर बेवेब) और अभी भी दिलचस्प परिणाम हैं। लेकिन फिर आपको अपने निष्कर्ष निकालने के बारे में बहुत सावधान रहना चाहिए, और यही वह जगह है जहां मुख्य समस्या है: ज्यादातर लोग केवल अपने परिणामों के अर्थ के बारे में परवाह नहीं करते हैं जब तक आपको परिणाम मिलते हैं। प्रकाशित करें या नष्ट करें ...
विस्तृत

1
जवाब "आप सही हैं और वह गलत है" शायद सही हैं और आपके मामले पर लागू होते हैं। वैसे भी, सावधान रहें कि कभी-कभी इसका उत्तर "वह गलत हो सकता है लेकिन उसका गलत तरीका उसके उद्देश्यों के लिए काम करता है - शायद यह सही तरीके से काम करने से भी बेहतर है कि वह चल रहे व्यवसाय के अपने गैर सांख्यिकीय उद्देश्यों के लिए क्या करेगा"। मुझे लगता है कि यह सभी प्रकार के वैज्ञानिक ज्ञान के साथ होता है, केवल आंकड़े नहीं। शायद एसई कार्यस्थल में वे आपको गैर सांख्यिकीय उदाहरण दे सकते हैं।
पेरेस

3
@ अक्षल: ओपी सांख्यिकीय रूप से जो वर्णन करता है उससे वह अधिक सही है। आपका व्यक्तिगत किस्सा, केवल एक किस्सा है। मैं यह कहकर इसका मुकाबला कर सकता हूं कि मैं एक नौकरी में स्थानांतरित हो गया जहां ए / बी परीक्षण सिर्फ 30 नमूनों के साथ किया जाएगा; बुनियादी शक्ति-गणनाओं को दिखाने से टीमों के नमूने आकार और निर्णय लेने की पूरी मानसिकता बदल गई। ओपी के सवाल पर लौटते हुए, मैं मानता हूं कि जो वर्णन किया गया है, उसका मतलब यह नहीं है कि ओपी के पर्यवेक्षक ने गलत कॉल किया। व्यावसायिक वर्कफ़्लोज़ में उनके साथ एक विशेष जड़ता जुड़ी होती है और "नए आदमी" को भविष्यवक्ता बनने से पहले खुद को एक उपदेशक के रूप में साबित करना
पड़ता है

1
@ us @r11852, मेरी टिप्पणी एक शेख़ी :) थी, लेकिन इसका एक बिंदु है, मुझे लगता है: किसी के लिए जो नए क्षेत्र में है, यह मान लेना सुरक्षित है कि एक बॉस बेहतर जानता है। अनुभव के साथ वह इस धारणा को शांत कर सकता है, हो सकता है कि वह अपनी राय में अधिक वजन दे और बॉस को कम। ' एक राय के लिए खुद की राय पर वजन ZERO के करीब होना चाहिए।
अक्कल

जवाबों:


12

संक्षेप में, आप सही हैं और वह गलत है। डेटा विश्लेषण की त्रासदी यह है कि बहुत सारे लोग इसे करते हैं, लेकिन केवल कुछ लोग ही इसे अच्छी तरह से करते हैं, आंशिक रूप से डेटा विश्लेषण में कमजोर शिक्षा के कारण और आंशिक रूप से उदासीनता के कारण। किसी भी प्रकाशित शोध लेख के लिए एक महत्वपूर्ण नज़र डालें, जिसमें लेखक की सूची में एक सांख्यिकीविद या मशीन-सीखने वाला विशेषज्ञ नहीं है और आप इस तरह की प्राथमिक गलतियों को जल्द ही हल कर देंगे, जैसे कि व्याख्याओं की संभावना के रूप में कि शून्य परिकल्पना सच है ।p

मुझे लगता है कि इस तरह की स्थिति के साथ सामना करने के लिए केवल एक चीज है, ध्यान से समझाना है कि गलत व्यवहार के बारे में क्या गलत है, उदाहरण या दो के साथ।


3
उत्तर के लिए धन्यवाद। मुझे लगता है कि "नेक्स्ट-स्टेप प्रश्न" है, क्या वहाँ कोई नौकरी है जो वास्तव में सही आँकड़े करती है? मैं समझता हूं कि आजकल डेटा विज्ञान बहुत लोकप्रिय है, लेकिन किसी तरह मुझे यह धारणा है कि कई "डेटा वैज्ञानिक" वास्तव में सही आँकड़े करने के बारे में परवाह नहीं करते ...
3x89g2

1
@ मिसाकोव मुझे लगता है कि यह वास्तव में व्यक्ति या संगठन पर निर्भर करता है। लेकिन "डेटा साइंस", "एनालिटिक्स" और "बिजनेस इंटेलिजेंस" जैसे buzzwords लाल झंडे हैं। और यह मत भूलो कि एक नौकरी के साक्षात्कार में, आप उनका साक्षात्कार कर रहे हैं, भी। यह सिर्फ आपको नहीं बताता है। चीजों के बारे में विस्तृत प्रश्न पूछना अच्छा लगता है; यह आपको यह देखने देता है कि डेटा विश्लेषण के बारे में वे कितने गंभीर हैं।
कोडियालॉजिस्ट

यदि आप वास्तव में सही आँकड़े करना चाहते हैं तो @Misakov को आपको अकादमिया में जाने की आवश्यकता होगी। औद्योगिक उपयोग का विशाल बहुमत (ऊपर मेरा उत्तर देखें) गलत होगा।
Mooks

@ शरीर विज्ञानी: मुझे लगता है कि आप इस पर थोड़ा " धर्मी " दृष्टिकोण अपना रहे हैं और आप उद्योग के आंकड़ों के खिलाफ अपने पूर्वाग्रह की पुष्टि करके ओपी की मदद नहीं कर रहे हैं। इसके अलावा एक वरिष्ठ सदस्य के विरोधाभासी विचार के बाद उन्होंने एक प्रत्यक्ष निर्णय दिया (" उच्च साथ जाओ "R2 ) थोड़ा भोला है ... यह देखते हुए कि उद्यम अभी भी मौजूद है प्रबंधक के निर्णय इतने गलत नहीं हैं और अति-सरलीकरण कुछ नियमों में उनके काम के संदर्भ में बहुत अधिक विनाशकारी नहीं हो सकता है। नए लोग (जैसे ओपी) बोर्ड पर आते हैं और टीम विकसित होती है; विकास एक वीनर प्रक्रिया है, हालांकि एक लेवी उड़ान नहीं है!
us --r11852

1
@ us @r11852 एक अच्छा (यानी, गैर-नुकीले बालों वाला) प्रबंधक कर्मचारियों को तब निराश करेगा जब वे उसके बारे में बेहतर जानते हैं। "यह देखते हुए कि उद्यम अभी भी मौजूद है प्रबंधक के निर्णय इतने गलत नहीं हैं " - दौड़ तेजी से नहीं है।
कोडियालॉजिस्ट

11

कोडियोलॉजिस्ट सही है - आप सही हैं, वह गलत है। हालांकि दुख की बात है कि यह एक और आम समस्या है जो आप सामना कर रहे हैं। आप वास्तव में एक ऐसे उद्योग में हैं जो अपेक्षाकृत अच्छा कर रहा है ।

उदाहरण के लिए, मैं वर्तमान में एक ऐसे क्षेत्र में काम करता हूं जहां उत्पादों पर विशिष्टताओं को सेट करने की आवश्यकता है। यह लगभग हमेशा कुछ तरीकों से उत्पादों / प्रक्रियाओं की निगरानी और रिकॉर्डिंग साधनों और एसटीडी विचलन द्वारा किया जाता है - फिर अच्छे पुराने ।mean+3σ

अब, इस तथ्य के अलावा कि यह आत्मविश्वास अंतराल उन्हें यह नहीं बता रहा है कि उन्हें वास्तव में क्या जरूरत है (उन्हें इसके लिए सहिष्णुता अंतराल की आवश्यकता है), यह उन मापदंडों पर अंधाधुंध तरीके से किया जाता है जो कुछ अधिकतम या न्यूनतम मूल्य के पास मंडरा रहे हैं (लेकिन जहां अंतराल जीता ' टी वास्तव में उन मूल्यों से अधिक है)। क्योंकि एक्सेल गणना करेगा कि उन्हें क्या ज़रूरत है (हाँ, मैंने एक्सेल कहा), उन्होंने अपने चश्मे को उसी के अनुसार सेट किया, इस तथ्य के बावजूद कि पैरामीटर सामान्य रूप से वितरित होने के आसपास कहीं भी नहीं जा रहा है। इन लोगों को बुनियादी आँकड़े सिखाए गए हैं, लेकिन क़ुबूल या ऐसे नहीं। सबसे बड़ी समस्याओं में से एक यह है कि आँकड़े आपको एक नंबर देंगे, तब भी जब अनुचित तरीके से उपयोग किया जाता है- इसलिए अधिकांश लोग यह नहीं जानते कि उन्होंने ऐसा कब किया है।

दूसरे शब्दों में, उद्योगों के विशाल बहुमत में उत्पादों के विशाल बहुमत पर विनिर्देश, बकवास हैं।

सबसे बुरे उदाहरणों में से एक है, मैं बिना समझे, बिना किसी आँकड़ों के लोगों का आँख बंद करके, मोटर वाहन उद्योग में Cpk का उपयोग करता हूँ। एक कंपनी ने अपने आपूर्तिकर्ता के साथ एक उत्पाद पर बहस करते हुए लगभग एक साल बिताए, क्योंकि उन्हें लगा कि आपूर्तिकर्ता अपने उत्पाद को एक स्तर तक नियंत्रित कर सकता है जो कि संभव नहीं था। वे एक पैरामीटर पर केवल एक अधिकतम युक्ति (कोई न्यूनतम नहीं) सेट कर रहे थे और अपने दावे को सही ठहराने के लिए Cpk का उपयोग किया था - जब तक कि यह नहीं बताया गया था कि उनकी गणना (जब एक सैद्धांतिक न्यूनतम स्तर सेट करने के लिए उपयोग किया जाता है - वे नहीं चाहते थे कि जाँच नहीं हुई थी ) एक बड़े पैमाने पर नकारात्मक मूल्य निहित है। यह, ऐसे पैरामीटर पर, जो कभी भी 0. से कम नहीं जा सकता है। सीपीके सामान्य मान लेता है, प्रक्रिया सामान्य डेटा के पास कहीं भी नहीं देती है। इसे प्राप्त करने में एक लंबा समय लगा। यह सब समय और पैसा बर्बाद कर दिया क्योंकि लोगों ने नहीं किया ' t समझें कि वे क्या गणना कर रहे थे - और यह बहुत बुरा हो सकता था इस पर ध्यान नहीं दिया गया था। यह एक महत्वपूर्ण कारक हो सकता है कि मोटर वाहन उद्योग में नियमित रूप से रिकॉल क्यों होते हैं!

मैं, स्वयं, एक विज्ञान पृष्ठभूमि से आता हूं, और, स्पष्ट रूप से, विज्ञान और इंजीनियरिंग में पढ़ाने वाले आंकड़े चौंकाने वाले अपर्याप्त हैं। मैंने कभी भी इस बारे में नहीं सुना कि मुझे क्या उपयोग करना है - यह सब स्वयं सिखाया गया है और मेरे ज्ञान में बड़े पैमाने पर अंतराल की तुलना में अब भी हैं। इस कारण से, मैं लोगों को आंकड़ों का दुरुपयोग करने के लिए मना नहीं करता (मैं शायद अभी भी इसे नियमित रूप से करता हूं), यह खराब शिक्षा है।

इसलिए, अपने मूल प्रश्न पर वापस जाना, यह वास्तव में आसान नहीं है। मैं कोडियोलॉजिस्ट की इन बातों को धीरे-धीरे समझाने की कोशिश करने की सिफारिश से सहमत हूँ ताकि सही आँकड़ों का इस्तेमाल किया जाए। लेकिन , मैं इसमें एक अतिरिक्त चेतावनी जोड़ूंगा और आपको सलाह भी दूंगा कि आप अपने करियर की खातिर समझदारी से अपनी लड़ाई लड़ें।

यह दुर्भाग्यपूर्ण है, लेकिन यह एक सच्चाई है कि आप हर बार हर किसी को सर्वश्रेष्ठ आँकड़े प्राप्त करने में सक्षम नहीं होंगे। उन्हें सही करने के लिए चुनें जब यह वास्तव में अंतिम समग्र निष्कर्ष के लिए मायने रखता है (जिसका अर्थ है कभी-कभी चीजों को जांचने के दो अलग-अलग तरीके करना)। कई बार (उदाहरण के लिए आपका मॉडल 1,2 उदाहरण) जहां "गलत" तरीके का उपयोग करके समान निष्कर्ष निकाला जा सकता है। बहुत से लोगों को बहुत बार सही करने से बचें।

मुझे पता है कि यह बौद्धिक रूप से निराशाजनक है और दुनिया को अलग तरह से काम करना चाहिए - दुख की बात यह है कि ऐसा नहीं है। एक हद तक आपको अपने सहयोगियों के व्यक्तिगत व्यक्तित्व के आधार पर अपनी लड़ाई का न्याय करना सीखना होगा। आपका (करियर) लक्ष्य वह विशेषज्ञ होना है जो वे तब जाते हैं जब उन्हें वास्तव में मदद की आवश्यकता होती है, न कि पिकी व्यक्ति हमेशा उन्हें सही करने की कोशिश करते हैं। और, वास्तव में, यदि आप उस व्यक्ति बन जाते हैं, तो शायद यही वह जगह है जहाँ आपको लोगों को चीजों को सही तरीके से सुनने और करने में सबसे अधिक सफलता मिल रही है। सौभाग्य।


एक्सेल संभवतः सबसे व्यापक रूप से उपयोग किया जाने वाला डेटा विश्लेषण सॉफ्टवेयर है। " हाँ, मैंने कहा! " टिप्पणी की कोई आवश्यकता नहीं है । जब तक कोई शिक्षाविद (और शायद बड़ी फार्मा) से बाहर नहीं गया है, तब तक वह आपके मूल कथन पर नजर नहीं रखेगा। (अच्छा जवाब, +1)
usεr11852

1
यह सबसे व्यापक रूप से उपयोग किया जाता है, और मुझे लगता है कि मेरे मूल बिंदु पर प्रकाश डाला गया है। एक्सेल में डेटा विश्लेषण की भारी कमी है। यदि आप जो कुछ कर रहे हैं, वह एक्सेल पर किया जा रहा है, तो आप वास्तव में इसे डेटा विश्लेषण नहीं कह सकते - जब तक कि आप स्वयं सभी गणनाओं को दर्ज नहीं कर रहे हैं। एक स्प्रेडशीट के रूप में एक्सेल के खिलाफ कुछ भी नहीं है, लेकिन यह सबसे अच्छा में एक अल्पविकसित डेटा विश्लेषण उपकरण है। लेकिन लोग किसी भी बेहतर को नहीं जानते, क्योंकि उन्हें कोई बेहतर नहीं सिखाया जाता है। मैं आंकड़ों की पृष्ठभूमि से नहीं आता, लेकिन मैं भाग्यशाली था कि किसी ने मुझे बेहतर रेखांकन बनाने के लिए R का उल्लेख किया - और वह, संयोग से, मुझे बेहतर आँकड़ों में ले गया।
Mooks

"मैं कोडियोलॉजिस्ट की इन चीजों को धीरे-धीरे समझाने की कोशिश करने की सिफारिश से सहमत हूँ ताकि सही आँकड़ों का उपयोग किया जाए।" - मैं गवाह बनना चाहता हूं। अपने नियोक्ता को व्यापार करने के तरीके के बारे में बताते हुए एक इंटर्न।
अक्कल

1
यह मदद करेगा, # 9 की जाँच करें। यह एक सामान्य सलाह है जो इस प्रकार की सूचियों में हर समय आती है। नौकरी पर पहले 100 दिन: चीजों को बदलने का सुझाव न दें, पहले यह पता लगाएं कि लोग जिस तरह से काम कर रहे हैं, वह क्यों कर रहे हैं, अक्सर एक वैध कारण होता है। आप खुद को मूर्ख बना लेंगे, और मैंने नए लोगों के साथ ऐसा होते देखा है। बस कुछ महीनों के लिए चुप
रहें

@ अक्षल आपने जो कहा वह निश्चित रूप से समझ में आता है। मैं अपनी स्थिति में मुख्य रूप से थोड़ा "बोल्ड" अभिनय कर रहा हूं क्योंकि मैं एक प्रशिक्षु हूं और मुझे पता है कि मैं वैसे भी बहुत जल्द ही जा रहा हूं।
3x89g2 20

3

जो वर्णन किया गया है वह कुछ हद तक बुरे अनुभव जैसा प्रतीत होता है। फिर भी यह कुछ ऐसा नहीं होना चाहिए जो किसी को तुरंत अपनी शैक्षिक पृष्ठभूमि और न ही उनके पर्यवेक्षक / प्रबंधक के सांख्यिकीय निर्णय पर सवाल खड़ा करता है।

R2काम, भविष्य में कहीं भी अस्वाभाविक व्यवहार के बजाय ज्यादा मायने नहीं रखता। लोग इसे स्वीकार करने के लिए अनिच्छुक होंगे; जब सब कुछ (कुछ) काम कर रहा है तो ऊर्जा को बदलने के लिए क्यों खर्च करें? व्यवसाय के दृष्टिकोण से आपका प्रबंधक गलत नहीं है। वह सांख्यिकीय के साथ-साथ आपके विभाग के व्यावसायिक निर्णयों के लिए जिम्मेदार है; यह निर्णय जरूरी नहीं है कि हमेशा और काफी संभावनाएं अल्पकालिक डिलिवरेबल्स पर मेल न खाएं (समय की कमी उद्योग डेटा एनालिटिक्स में एक बहुत महत्वपूर्ण कारक है)।

मेरी सलाह है कि आप अपनी (सांख्यिकीय) बंदूकों से चिपके रहें लेकिन लोग क्या करते हैं, इसके लिए खुले रहें, नए सांख्यिकीय अभ्यासों से अलग हो सकते हैं और पूछे जाने पर सलाह / राय दे सकते हैं , एक मोटी त्वचा विकसित करें और अपने वातावरण से सीखें। यदि आप सही सामान कर रहे हैं, तो यह धीरे-धीरे दिखाई देगा, लोग आपकी राय चाहते हैं क्योंकि वे पहचान लेंगे कि आप उन समाधानों की पेशकश कर सकते हैं जहां उनका वर्तमान कार्य-प्रवाह नहीं है। अंत में, हाँ, निश्चित रूप से, अगर समय की एक उचित राशि (कम से कम कुछ महीने) के बाद, आपको लगता है कि आप अवमूल्यन कर रहे हैं और अनादर कर रहे हैं।

यह बिना कहे चला जाता है कि अब आप उद्योग में हैं, आप वापस नहीं बैठ सकते हैं और सोचते हैं कि आपको अपनी सांख्यिकी शिक्षा को सुधारने की आवश्यकता नहीं है। प्रिडिक्टिव मॉडलिंग, रिग्रेशन स्ट्रैटेजी, क्लस्टरिंग एल्गोरिदम सिर्फ विकसित होते रहते हैं। उदाहरण के लिए, एक औद्योगिक सेटिंग में गाऊसी प्रोसेस रिग्रेशन का उपयोग करना 10 साल पहले विज्ञान कथा के करीब था; अब यह लगभग कोशिश करने के लिए एक बंद शेल्फ की तरह देखा जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.