"आधुनिक" आंकड़ों के लिए अंगूठे के नियम


85

मुझे थम्ब के सांख्यिकीय नियमों पर जी वैन बेले की पुस्तक पसंद है , और कुछ हद तक कॉमन एरर्स इन स्टैटिस्टिक्स (और हाउ टू अवॉयड देम) फिलिप आई गुड और जेम्स डब्ल्यू हार्डिन से। प्रायोगिक और अवलोकन अध्ययनों के परिणामों की व्याख्या करते समय वे आम नुकसान को संबोधित करते हैं और सांख्यिकीय निष्कर्ष, या खोज डेटा विश्लेषण के लिए व्यावहारिक सिफारिशें प्रदान करते हैं। लेकिन मुझे लगता है कि "आधुनिक" दिशानिर्देशों में कुछ कमी है, विशेष रूप से विभिन्न क्षेत्रों में कम्प्यूटेशनल और मजबूत आँकड़ों के लगातार बढ़ते उपयोग के साथ, या मशीन सीखने वाले समुदाय से तकनीकों का परिचय, जैसे नैदानिक ​​जैव प्रौद्योगिकी या आनुवंशिक महामारी विज्ञान।

डेटा विज़ुअलाइज़ेशन में कम्प्यूटेशनल ट्रिक्स या सामान्य नुकसान के अलावा, जिसे कहीं और संबोधित किया जा सकता है, मैं पूछना चाहता हूँ: कुशल डेटा विश्लेषण के लिए आप अंगूठे के शीर्ष नियम क्या सुझाएंगे? ( प्रति उत्तर एक नियम, कृपया )।

मैं उन दिशानिर्देशों के बारे में सोच रहा हूं जो आप किसी सहकर्मी को प्रदान कर सकते हैं, सांख्यिकीय मॉडलिंग में मजबूत पृष्ठभूमि के बिना एक शोधकर्ता, या उन्नत पाठ्यक्रम के लिए मध्यवर्ती में एक छात्र। यह डेटा विश्लेषण के विभिन्न चरणों से संबंधित हो सकता है, उदाहरण के लिए नमूनाकरण रणनीति, सुविधा चयन या मॉडल निर्माण, मॉडल तुलना, उत्तर-आकलन, आदि।

जवाबों:


62

विश्लेषण शुरू करने से पहले कुछ बुनियादी डेटा जाँच करना न भूलें। विशेष रूप से, प्रत्येक चर का एक बिखरा हुआ प्लॉट देखें जिसे आप आईडी नंबर, दिनांक / डेटा संग्रह के समय या इसी तरह का विश्लेषण करना चाहते हैं। आंख अक्सर ऐसे पैटर्न उठा सकती है जो समस्याओं को प्रकट करते हैं जब सारांश आँकड़े कुछ भी असामान्य नहीं दिखाते हैं। और अगर आप विश्लेषण के लिए लॉग या अन्य परिवर्तन का उपयोग करने जा रहे हैं, तो इसका उपयोग प्लॉट के लिए भी करें।


6
मैंने इसे एक कठिन तरीका सीखा। दो बार।
OneStop

2
हाँ! छलांग मारने से पहले देखो। कृपया, डेटा को देखें।
vqv

7
यदि निर्णय पश्चात किए जाते हैं तो डेटा का दृश्य निरीक्षण टाइप I त्रुटि को बढ़ा सकता है । मैं पुष्टिकरण विश्लेषणों को चलाना चाहता हूं क्योंकि वे निर्धारित किए गए थे और इसमें वे परिणाम शामिल थे जो खोजपूर्ण या संवेदनशीलता विश्लेषणों के रूप में निरीक्षण से प्रभावित थे।
एडम

51

अपना विश्लेषण प्रतिलिपि प्रस्तुत करने योग्य रखें। एक समीक्षक या आपका बॉस या कोई और अंततः आपसे पूछेगा कि आप अपने परिणाम पर वास्तव में कैसे पहुंचे - विश्लेषण करने के छह महीने या उससे अधिक समय के बाद। आपको याद नहीं होगा कि आपने डेटा को कैसे साफ किया, आपने क्या विश्लेषण किया, आपने जो विशिष्ट मॉडल का इस्तेमाल किया, उसे क्यों चुना ... और यह सब फिर से बनाना एक दर्द है।

कोरोलरी: किसी प्रकार की स्क्रिप्टिंग भाषा का उपयोग करें, अपनी विश्लेषण लिपियों में टिप्पणियां डालें और उन्हें रखें। आप क्या उपयोग करते हैं (आर, एसएएस, स्टैटा, जो भी) पूरी तरह से प्रतिलिपि प्रस्तुत करने योग्य स्क्रिप्ट होने से कम महत्वपूर्ण नहीं है। ऐसे वातावरण को अस्वीकार करें जिसमें यह असंभव या अजीब है।


24
यदि आप R का उपयोग करने जा रहे हैं, तो मैं आपकी रिपोर्ट तैयार करने वाले Sweave दस्तावेज़ में आपका R कोड एम्बेड करने की सलाह दूंगा। इस तरह से आर कोड रिपोर्ट के साथ रहता है।
जॉन डी। कुक 14

36

दुनिया में कोई भी चीज मुफ्त में नहीं मिलती

सांख्यिकीय विफलताओं का एक बड़ा हिस्सा छिपी हुई मान्यताओं के बोझ को ध्यान में रखे बिना "महत्व की गणना" नामक एक बड़े चमकदार बटन पर क्लिक करके बनाया गया है।

दोहराना

यहां तक ​​कि अगर एक यादृच्छिक जनरेटर के लिए एक एकल कॉल शामिल है, तो किसी को भाग्य या बुरी किस्मत हो सकती है और इसलिए गलत निष्कर्ष पर कूद सकते हैं।


29

प्रति उत्तर एक नियम ;-)

अध्ययन करने से पहले सांख्यिकीविद् से बात करें । यदि संभव हो तो अनुदान के लिए आवेदन करने से पहले। उसकी समस्या को समझने में उसकी मदद करें, उसका डेटा प्राप्त करने के तरीके के बारे में उसका / उसकी इनपुट प्राप्त करें और अपने अध्ययन के डिजाइन और डेटा आवश्यकताओं के लिए इसका क्या अर्थ है, इसके बारे में सोचें। शायद आँकड़े आदमी / लड़की को पता चलता है कि रोगियों का निदान करने के लिए एक पदानुक्रमित मॉडल करने का सुझाव है - फिर आपको यह ट्रैक करने की आवश्यकता है कि किसने निदान किया है। तुच्छ लगता है, लेकिन डेटा एकत्रित करने से पहले इस बारे में सोचना बेहतर है (और बाद में कुछ महत्वपूर्ण इकट्ठा करने में विफल)।

संबंधित नोट पर: शुरू करने से पहले एक शक्ति विश्लेषण करें। पर्याप्त रूप से बड़े नमूना आकार के लिए बजट नहीं होने के कारण कुछ भी उतना निराशाजनक नहीं है। यह सोचकर कि आप किस प्रभाव के आकार की अपेक्षा कर रहे हैं, प्रकाशन पूर्वाग्रह को याद रखें - आप जिस प्रभाव का आकार खोजने जा रहे हैं, वह संभवतः आपके (पक्षपाती) साहित्य को दिए गए अपेक्षा से छोटा होगा।


28

एक बात जो मैं अपने छात्रों को बताता हूं, वह है कि हर पी-वैल्यू के लिए एक उपयुक्त ग्राफ तैयार किया जाए। उदाहरण के लिए, एक स्कैल्पलॉट यदि वे सहसंबंध का परीक्षण करते हैं, तो साइड-बाय-साइड बॉक्सप्लॉट यदि वे एक-तरफ़ा एएनएए, आदि करते हैं।


28

यदि आप अपने डेटा के विश्लेषण के दो तरीकों के बीच निर्णय ले रहे हैं, तो इसे दोनों तरीकों से आज़माएँ और देखें कि क्या इससे कोई फर्क पड़ता है।

यह कई संदर्भों में उपयोगी है:

  • रूपांतरित होना या न होना
  • गैर पैरामीट्रिक या पैरामीट्रिक परीक्षण
  • स्पीयरमैन या पियर्सन का सहसंबंध
  • पीसीए या कारक विश्लेषण
  • चाहे अंकगणित माध्य का उपयोग करें या माध्य का एक मजबूत अनुमान
  • कोवरेट शामिल करना है या नहीं
  • चाहे सूची-वार विलोपन, जोड़ी-वार विलोपन, प्रतिरूपण, या गुम मानों के प्रतिस्थापन की कोई अन्य विधि का उपयोग करना हो

इस मुद्दे के माध्यम से सोच से एक को भी नहीं हटाना चाहिए, लेकिन यह कम से कम उस डिग्री की भावना देता है, जो विकल्प के लिए महत्वपूर्ण निष्कर्षों को मजबूत करता है।


4
क्या यह एक उद्धरण है? मैं सोच रहा हूँ कि वैकल्पिक परीक्षण प्रक्रियाओं की कोशिश कैसे की जाए (विश्लेषण की रणनीतियाँ नहीं!) टाइप I त्रुटि या प्रारंभिक विद्युत गणना का नियंत्रण कुछ हद तक नहीं टूट सकता है। मुझे पता है कि एसएएस व्यवस्थित रूप से पैरामीट्रिक और गैर-पैरामीट्रिक परीक्षणों (कम से कम दो-नमूना तुलना और एनोवा) की तुलना में परिणाम देता है, लेकिन मुझे हमेशा यह पेचीदा लगता है: क्या परिणाम देखने से पहले हमें यह तय नहीं करना चाहिए कि क्या परीक्षण लागू किया जाना चाहिए?
chl

4
@ अच्छी बात। मैं सहमत हूं कि अंगूठे के उपरोक्त नियम का उपयोग गलत कारणों से किया जा सकता है। यानी, कई तरीकों की कोशिश कर रहा है और केवल उस परिणाम की रिपोर्टिंग कर रहा है जो अधिक मनभावन उत्तर देता है। मैं निर्णायक निष्कर्ष पर विश्लेषण निर्णयों के प्रभाव को जानने के लिए डेटा विश्लेषक प्रशिक्षण उपकरण के रूप में अंगूठे के नियम को उपयोगी मानता हूं। मैंने देखा है कि कई छात्रों को निर्णयों के साथ हार मिली, खासकर जहां साहित्य में प्रतिस्पर्धा करने की सलाह दी जाती है (उदाहरण के लिए, रूपांतरित करने या न करने के लिए) जो अक्सर निर्णायक निष्कर्षों पर कम से कम प्रभाव डालते हैं।
जेरोमे एंग्लीम

1
@chl नहीं यह कोई उद्धरण नहीं है। लेकिन मैंने सोचा कि इसके औचित्य और गुहाओं से अंगूठे के शासन का सीमांकन करना अच्छा है। मैंने इसे स्पष्ट करने के लिए इसे बोल्ड में बदल दिया।
जेरोमे एंगलिम

1
ठीक है, मुझे अलग-अलग परिवर्तनों की कोशिश करने और यह देखने के लिए समझ में आता है कि क्या यह अध्ययन किए गए रिश्तों के लिए बेहतर तरीका प्रदान करता है; मुझे समझ में नहीं आता है कि अलग-अलग विश्लेषण रणनीतियों की कोशिश करना है, हालांकि यह वर्तमान अभ्यास है (लेकिन प्रकाशित लेख :-), एस्प में रिपोर्ट नहीं किया गया है। जब वे विभिन्न मान्यताओं पर भरोसा करते हैं (ईएफए बनाम पीसीए में, आप एक अतिरिक्त त्रुटि शब्द मानते हैं; गैर-पैरामीट्रिक बनाम पैरामीट्रिक परीक्षण में, आप मान्यताओं का हिस्सा फेंक देते हैं, आदि)। लेकिन, मैं मानता हूं कि खोजपूर्ण और पुष्टित्मक विश्लेषण के बीच सीमांकन इतना स्पष्ट नहीं है ...
chl

2
यह मुझे केवल खोजपूर्ण विश्लेषण या प्रशिक्षण और सत्यापन चरणों के दौरान उपयोगी लगता है। आपको हमेशा एक अंतिम सत्यापन परीक्षण चरण की आवश्यकता होगी या अन्यथा आप कुछ महत्वपूर्ण परिणामों द्वारा खुद को बेवकूफ बना सकते हैं जो आपके 'व्यक्तिपरक' विश्वासों के अनुसार वांछित अंतर प्राप्त करने के बाद अच्छी तरह से काम करते हैं । कौन न्यायाधीश है जो विधि बेहतर काम करती है? मैं व्यक्तिगत रूप से, अगर मुझे अलग-अलग तरीकों पर संदेह है, तो मैं इसे नकली डेटा पर परीक्षण करता हूं, ताकि अनुमानकर्ताओं के विचरण या मजबूती, आदि जैसी चीजों का परीक्षण करने के लिए
मार्टिजेन वेटरिंग्स

22

अपने डेटा पर सवाल उठाएं। सस्ते रैम के आधुनिक युग में, हम अक्सर बड़ी मात्रा में डेटा पर काम करते हैं। एक 'वसा-उंगली' त्रुटि या 'खोया दशमलव स्थान' एक विश्लेषण पर आसानी से हावी हो सकता है। कुछ बुनियादी पवित्रता की जाँच के बिना, (या अन्य लोगों द्वारा सुझाए गए डेटा की साजिश रचते हुए) एक समय बर्बाद कर सकता है। यह आउटलेर्स को 'मजबूती' के लिए कुछ बुनियादी तकनीकों का उपयोग करने का भी सुझाव देता है।


2
कोरोलरी: देखो कि क्या किसी ने "एनए" के बजाय एक लापता मूल्य को "9999" के रूप में कोडित किया है। यदि आपका सॉफ़्टवेयर अंकित मूल्य पर इस मूल्य का उपयोग करता है, तो यह आपके विश्लेषण को गड़बड़ कर देगा।
Stephan Kolassa

21

सॉफ़्टवेयर का उपयोग करें जो कच्चे डेटा से अंतिम विश्लेषण / परिणामों के माध्यम से प्रोग्रामिंग तर्क की श्रृंखला को दर्शाता है। एक्सेल जैसे सॉफ़्टवेयर से बचें जहां एक उपयोगकर्ता एक सेल में एक undetectable त्रुटि कर सकता है, जो केवल मैनुअल चेकिंग उठाएगा।


1
VisTrails एक प्रणाली है जो इस प्रक्रिया में मदद करती है। (मैंने केवल होमब्रेव सिस्टम का उपयोग किया है; एक विशेष उपकरण की तुलना में सामान्य समूह के लक्ष्य अधिक महत्वपूर्ण हैं।)
डेनिस

18

हमेशा अपने आप से पूछें "इन परिणामों का क्या मतलब है और उनका उपयोग कैसे किया जाएगा?"

आमतौर पर आँकड़ों का उपयोग करने का उद्देश्य अनिश्चितता के तहत निर्णय लेने में सहायता करना है। इसलिए आपके दिमाग के सामने यह होना जरूरी है कि "इस विश्लेषण के परिणामस्वरूप कौन से निर्णय लिए जाएंगे और यह विश्लेषण इन फैसलों को कैसे प्रभावित करेगा?" (उदाहरण के लिए एक लेख प्रकाशित करें, एक नई विधि का उपयोग करने की सलाह दें, Y को फंडिंग में $ X प्रदान करें, अधिक डेटा प्राप्त करें, एक अनुमानित मात्रा की रिपोर्ट करें जैसे E, etcetc .....)

यदि आपको ऐसा नहीं लगता है कि कोई निर्णय लिया जाना है, तो आपको आश्चर्य होता है कि आप पहले स्थान पर विश्लेषण क्यों कर रहे हैं (क्योंकि विश्लेषण करना काफी महंगा है)। मैं आंकड़ों को एक "उपद्रव" के रूप में समझता हूं कि यह एक अंत के बजाय एक अंत का साधन है। मेरे विचार में हम केवल अनिश्चितता की मात्रा निर्धारित करते हैं ताकि हम इसका उपयोग उन निर्णयों को करने के लिए कर सकें जो इस अनिश्चितता का सटीक रूप से वर्णन करते हैं।

मुझे लगता है कि यह एक कारण है कि चीजों को सरल रखना सामान्य तौर पर एक अच्छी नीति है, क्योंकि आमतौर पर वास्तविक दुनिया के लिए एक सरल समाधान (और इसलिए उस वातावरण में जिसमें निर्णय किया जा रहा है) से जटिल समाधान की तुलना में बहुत आसान है । आमतौर पर सरल उत्तर की सीमाओं को समझना भी आसान होता है। आप तब और अधिक जटिल समाधानों की ओर बढ़ते हैं जब आप सरल समाधान की सीमाओं को समझते हैं, और जटिल उन्हें कैसे संबोधित करता है।


3
मैं चीजों को सरल रखने के लिए धारणा को छोड़कर हर चीज से सहमत हूं। मेरे लिए सादगी या जटिलता अनुचित निर्णय की लागत का एक फ़ंक्शन होना चाहिए जिसे आपने स्पष्ट रूप से समझाया है। एक क्षेत्र में सादगी की नगण्य लागत हो सकती है (जैसे एक ग्राहक को गलत विज्ञापन देना) और दूसरे में बेतहाशा अलग लागत (किसी मरीज को गलत इलाज देना)।
थॉमस स्पिडेल

18

एक लंबी सूची हो सकती है लेकिन कुछ का उल्लेख करने के लिए: (कोई विशिष्ट क्रम में नहीं)

  1. P- मान प्रायिकता नहीं है। विशेष रूप से, यह टाइप I त्रुटि करने की संभावना नहीं है। इसी तरह, CI के पास दिए गए डेटा की कोई संभावित व्याख्या नहीं है। वे दोहराया प्रयोगों के लिए लागू होते हैं।

  2. व्यवहार में ज्यादातर समय विचरण से संबंधित समस्या पूर्वाग्रह पर हावी रहती है, इसलिए छोटे विचरण के साथ एक पूर्वाग्रहित अनुमान बड़े विचरण (ज्यादातर समय) के साथ एक निष्पक्ष अनुमान से बेहतर होता है।

  3. मॉडल फिटिंग एक पुनरावृत्त प्रक्रिया है। डेटा का विश्लेषण करने से पहले डेटा के स्रोत और संभावित मॉडल को समझें जो विवरण को फिट या फिट नहीं करते हैं। इसके अलावा, अपने मॉडल में किसी भी डिजाइन के मुद्दों का प्रयास करें।

  4. विश्लेषण करने से पहले विज़ुअलाइज़ेशन टूल का उपयोग करें, डेटा को देखें (संभव असामान्यताएं, स्पष्ट रुझान आदि)। यह देखने के लिए कि मॉडल कैसे फिट बैठता है, यह देखने के लिए विज़ुअलाइज़ेशन के तरीकों (यदि संभव हो) का उपयोग करें।

  5. अंतिम लेकिन कम से कम नहीं, सांख्यिकीय सॉफ्टवेयर का उपयोग करें कि वे क्या बना रहे हैं (गणना के अपने काम को आसान बनाने के लिए), वे मानव सोच का विकल्प नहीं हैं।


14
आपका आइटम 1 गलत है: P मान शून्य परिकल्पना को देखते हुए डेटा को चरम या अधिक चरम के रूप में प्राप्त करने की संभावना है। जहां तक ​​मुझे पता है कि P का मतलब संभावना है - सशर्त लेकिन फिर भी एक संभावना। आपका कथन उन परिस्थितियों में सही है, जो त्रुटियों के नेमन-पियर्सन प्रतिमान के भीतर काम कर रहे हैं, लेकिन कोई भी फिशरियन प्रतिमान के भीतर काम नहीं कर रहा है जहां पी मान शून्य परिकल्पना के खिलाफ सबूतों के आइडियल हैं। यह सच है कि प्रतिमानों को नियमित रूप से एक असंगत मिश-मैश में मिलाया जाता है, लेकिन अकेले और अक्षत का उपयोग करने पर दोनों 'सही' होते हैं।
माइकल ल्यू

2
विश्वास के अंतराल के लिए, आप फिर से, केवल नेमानियन आत्मविश्वास के अंतराल के भीतर ही सही हैं। फिशर (और उससे पहले अन्य) ने भी उन चीजों को तैयार किया और उनका इस्तेमाल किया, जो आत्मविश्वास अंतराल के रूप में व्याख्या करते थे, और ऐसे अंतराल की पूरी तरह से वैध व्याख्या होती है, जो विशेष प्रयोग को अंतराल को संदर्भित करता है। मेरी राय में, वे नेमैन के लिए बहुत बेहतर हैं। प्रश्न का मेरा उत्तर देखें असतत कार्य: विश्वास अंतराल कवरेज? अधिक विस्तार के लिए: आंकड़े.stackexchange.com/questions/8844/…
माइकल ल्यू

@ मिचेल आप सही हैं, लेकिन देखते हैं: नल कितनी बार सही है? या बेहतर: क्या कोई साबित कर सकता है कि नल सही है? हम इस बारे में गहरी दार्शनिक बहस भी कर सकते हैं लेकिन वह बात नहीं है। गुणवत्ता नियंत्रण में पुनरावृत्तियाँ मायने रखती हैं, लेकिन विज्ञान में किसी भी अच्छे निर्णय नियम में डेटा की स्थिति होनी चाहिए
सनकूल्सू

1
फिशर को यह पता था (अवलोकन किए गए आंकड़ों पर कंडीशनिंग और गुणवत्ता नियंत्रण के बारे में टिप्पणी उसी पर आधारित है)। उन्होंने इसके आधार पर कई काउंटर उदाहरण प्रस्तुत किए। बेयसियन इस बारे में लड़ रहे हैं, कहते हैं, आधी सदी से अधिक समय तक।
सनकूलू

1
μ=0

13

डेटा संगठन / प्रबंधन के लिए, सुनिश्चित करें कि जब आप डाटासेट में नए चर उत्पन्न करते हैं (उदाहरण के लिए, ऊंचाई और वजन से बॉडी मास इंडेक्स की गणना), तो मूल चर कभी नष्ट नहीं होते हैं। एक गैर-विनाशकारी दृष्टिकोण एक प्रतिलिपि प्रस्तुत करने योग्य परिप्रेक्ष्य से सबसे अच्छा है। आप कभी नहीं जानते हैं कि आप कब गलत कमांड दर्ज कर सकते हैं और बाद में अपनी परिवर्तनशील पीढ़ी को फिर से करना होगा। मूल चर के बिना, आप बहुत समय खो देंगे!


11

अंतर्निहित डेटा जनरेटिंग प्रक्रिया (DGP) के बारे में कठिन सोचें । यदि आप जिस मॉडल का उपयोग करना चाहते हैं, वह DGP को प्रतिबिंबित नहीं करता है, तो आपको एक नया मॉडल खोजने की आवश्यकता है।


आप कैसे जानते हैं, आप कैसे जान सकते हैं, डीजीपी क्या है। उदाहरण के लिए, मैं एक ऐसे क्षेत्र में समय श्रृंखला चलाता हूं जहां मुझे अभी तक अच्छी तरह से विकसित सिद्धांत (कुछ प्रकार के सार्वजनिक व्यय क्यों होते हैं) देखने हैं। मुझे नहीं लगता कि इस मामले में सही प्रक्रिया जानना संभव है।
user54285

8

हिस्टोग्राम के लिए, हिस्टोग्राम में डिब्बे की संख्या के लिए अंगूठे का एक अच्छा नियम :

डेटा बिंदुओं की संख्या का वर्गमूल


6

तेजी से बड़े डेटासेट और अधिक शक्तिशाली सॉफ्टवेयर के बावजूद, ओवर-फिटिंग मॉडल शोधकर्ताओं के लिए एक बड़ा खतरा है, खासकर उन लोगों के लिए जो अभी तक ओवर-फिटिंग द्वारा जलाए नहीं गए हैं। ओवर-फिटिंग का मतलब है कि आपने अपने डेटा और कला की स्थिति से कुछ अधिक जटिल बना दिया है। प्यार या सुंदरता की तरह, इसे परिभाषित करना कठिन है, अकेले औपचारिक रूप से परिभाषित करने के लिए, लेकिन पहचानना आसान है।

अंगूठे का एक न्यूनतम नियम शास्त्रीय प्रतिगमन जैसी किसी भी चीज के लिए अनुमानित प्रत्येक पैरामीटर के लिए 10 डेटा बिंदु हैं, और यदि आप इसे अनदेखा करते हैं, तो परिणामों के लिए देखें। अन्य विश्लेषणों के लिए, आपको आमतौर पर एक अच्छा काम करने के लिए बहुत अधिक आवश्यकता होती है, खासकर यदि डेटा में दुर्लभ श्रेणियां हैं।

यहां तक ​​कि अगर आप एक मॉडल को आसानी से फिट कर सकते हैं, तो आपको लगातार चिंता करना चाहिए कि इसका क्या मतलब है और यहां तक ​​कि एक समान समान डेटासेट के साथ यह कैसे प्रतिलिपि प्रस्तुत करने योग्य है।


यह आमतौर पर उन मॉडलों के लिए अंगूठे के एक नियम के रूप में देखा जाता है जहां प्रतिक्रिया सशर्त रूप से सामान्य होती है। अन्य मामलों में, यह बहुत उदार है। उदाहरण के लिए, बाइनरी वर्गीकरण के लिए, अंगूठे का संगत नियम हर चर के लिए कम सामान्यतः होने वाली श्रेणी में 15 अवलोकन होगा; उत्तरजीविता विश्लेषण के लिए, यह प्रत्येक चर के लिए 10 ईवेंट (यानी, सेंसर किए गए डेटा नहीं) होगा।
गंग

मैं सहमत हूँ। मैं संपादित करूँगा, लेकिन विस्तारित टिप्पणी के साथ अंगूठे का अपना नियम क्यों नहीं पोस्ट करूंगा।
निक कॉक्स

1
आपको अंतिम वाक्य को उजागर करना चाहिए "यहां तक ​​कि अगर आप एक मॉडल को आसानी से फिट कर सकते हैं, तो आपको लगातार चिंता करनी चाहिए कि इसका क्या मतलब है और यहां तक ​​कि यह एक समान समान डेटासेट के साथ प्रतिलिपि प्रस्तुत करने योग्य भी है।"
मार्टिनेज वेटरिंग्स


5

यदि मॉडल आसानी से और जल्दी से परिवर्तित नहीं होगा, तो यह सॉफ्टवेयर की गलती हो सकती है। हालाँकि, यह अधिक सामान्य है कि आपका डेटा मॉडल के लिए उपयुक्त नहीं है या मॉडल डेटा के लिए उपयुक्त नहीं है। यह बताना कठिन हो सकता है कि कौन से और अनुभववादी और सिद्धांतकार अलग-अलग विचार रख सकते हैं। लेकिन विषय-वस्तु सोच, वास्तव में डेटा को देख रही है, और लगातार मॉडल की व्याख्या के बारे में सोच रही है जितना कुछ भी हो सकता है। इन सबसे ऊपर, एक सरल मॉडल का प्रयास करें यदि एक जटिल एक अभिसरण नहीं करेगा।

अभिसरण के लिए मजबूर करने या जीत की घोषणा करने और कई पुनरावृत्तियों के बाद परिणाम लेने में कोई लाभ नहीं है लेकिन इससे पहले कि आपका मॉडल वास्तव में परिवर्तित हो गया है। यदि आप ऐसा करते हैं तो आप अपने आप को मूर्ख बनाते हैं।


"वास्तव में डेटा को देख रहा है" यह बहुत अच्छा होगा जब हम एक एनएन प्राप्त करते हैं जो हमारे लिए यह काम करता है।
मार्टिनेज वेटरिंग्स

इसे JWT कहा जाता था।
निक कॉक्स

5

वाद्य चर में प्रतिगमन हमेशा आपके उपकरणों के संयुक्त महत्व की जांच करते हैं। अंगूठे का स्टैगर-स्टॉक नियम कहता है कि 10 से कम का एफ-स्टेटिस्टिक चिंताजनक है और इंगित करता है कि आपके उपकरण कमजोर हो सकते हैं, अर्थात वे अंतर्जात चर के साथ पर्याप्त रूप से सहसंबद्ध नहीं हैं। हालांकि, यह स्वचालित रूप से इसका मतलब नहीं है कि 10 से ऊपर एक एफ मजबूत उपकरणों की गारंटी देता है। Staiger और Stock (1997) ने दिखाया है कि 2SLS जैसे इंस्ट्रुमेंटल वैरिएबल तकनीक "छोटे" नमूनों में बुरी तरह से पक्षपाती हो सकते हैं यदि उपकरण केवल अंतर्जात चर के साथ कमजोर रूप से सहसंबद्ध हैं। उनका उदाहरण एग्रीस्ट और क्रुएगर (1991) का अध्ययन था जिनके पास 300,000 से अधिक अवलोकन थे - "छोटे" नमूनों की धारणा के बारे में एक परेशान तथ्य।


मैंने लेख में लिंक जोड़ दिया है, लेकिन मेरा मानना ​​है कि इस उत्तर को कुछ और स्वरूपण की आवश्यकता है, मैंने लेख को बहुत तेज़ी से स्कैन करने के आधार पर 'अंगूठे के नियम' पर ज़ोर देना बहुत मुश्किल पाया, और यह उत्तर बहुत सहज नहीं है।
मार्टिज़न वेटरिंग्स

3

सूचना मानदंड चुनने के लिए कोई मापदंड नहीं हैं।

एक बार जब कोई व्यक्ति "द! IC!" जैसा कुछ कहता है, लेकिन यह अक्सर गलत परिणाम देने के लिए जाना जाता है "(जहाँ पर कोई भी पत्र आपको पसंद है), तो आप जानते हैं कि आपको मॉडल के बारे में भी सोचना होगा और विशेष रूप से यह बनता है कि नहीं वैज्ञानिक या व्यावहारिक अर्थ।

कोई भी बीजगणित आपको यह नहीं बता सकता है।


2

मैंने इसे कहीं पढ़ा है (शायद क्रॉस वैरिफाईड पर) और मैं इसे कहीं भी खोजने में सक्षम नहीं हूं, इसलिए यहाँ जाता है ...

यदि आपने एक दिलचस्प परिणाम खोजा है, तो यह शायद गलत है।

एक चौंका देने वाला पी-मूल्य या एक सही पार सत्यापन त्रुटि की संभावना से उत्साहित होना बहुत आसान है। मैंने व्यक्तिगत रूप से सहकर्मियों को केवल उन्हें वापस लेने के लिए भयानक (झूठे) परिणाम प्रस्तुत किए हैं। सबसे अधिक बार, अगर यह सच होने के लिए बहुत अच्छा लगता है ...

'सच है। 'बिल्कुल सच।


2

पुण्य के बजाय वीरता बरतने की कोशिश करें , यानी गैर-सामान्यता, गैर-स्वतंत्रता या गैर-रैखिकता आदि के छोटे संकेत न दें, यदि डेटा को ज़ोर से और स्पष्ट रूप से बोलने के लिए इस तरह के संकेतों की अवहेलना करने की ज़रूरत है, तो अपनी सड़क को अवरुद्ध करें। । - डेनिश में, 'ड्रिस्टिग' बनाम 'डायडिग' विशेषण हैं।


1

अनुदैर्ध्य डेटा का विश्लेषण करते समय यह जांचना सुनिश्चित करें कि चर प्रत्येक समय अवधि में उसी तरह कोडित हैं।

मेरे शोध प्रबंध को लिखते समय, जिसमें माध्यमिक डेटा का विश्लेषण शामिल था, एक या एक वर्ष की अवधि में अवसादग्रस्तता स्कोर में 1-इकाई बदलाव का एक या अधिक द्विध्रुव था, जो कि वर्ष के दौरान अन्यथा स्थिर होता है: यह मेरे वर्षों में से एक था। डेटा सेट, किसी मान्य इंस्ट्रूमेंट के लिए स्केल आइटम 0–3 के बजाय 1-4 कोडित किए गए थे।


1

आपकी परिकल्पना को आपकी पसंद के मॉडल को चलाना चाहिए, न कि दूसरे तरीके से।

मास्लो को paraphrase करने के लिए, यदि आप एक हथौड़ा हैं, तो सब कुछ एक नाखून की तरह दिखता है। विशिष्ट मॉडल नेत्रहीन और दुनिया के बारे में मान्यताओं के साथ आते हैं: उदाहरण के लिए, गैर-गतिशील मॉडल उपचार-परिणाम प्रतिक्रिया पर चोक करते हैं।


1

यह जाँचने के लिए कि आपके मॉडल की संरचना "परिणाम" पैदा कर रही है, जो आपके मॉडल की मान्यताओं की गणितीय कलाकृतियाँ हैं

अपने विश्लेषण को फिर से व्यवस्थित चर पर, या एक दूसरे से असंबद्ध होने के लिए ज्ञात नकली चर पर करें । क्या यह कई बार और वास्तविक डेटा पर प्राप्त परिणामों के साथ औसत अनुमानित बिंदु अनुमान (और आत्मविश्वास या विश्वसनीय अंतराल) होता है: क्या वे सभी अलग-अलग हैं?


0

मैं सांख्यिकीविद् की बजाय एक डेटा विश्लेषक हूं लेकिन ये मेरे सुझाव हैं।

1) इससे पहले कि आप डेटा का विश्लेषण करें सुनिश्चित करें कि आपकी विधि की धारणाएं सही हैं। एक बार जब आप परिणाम देखेंगे तो समस्याओं को ठीक करने और परिणाम बदलने के बाद भी उन्हें भूलना मुश्किल हो सकता है।

2) यह आपके डेटा को जानने में मदद करता है। मैं टाइम सीरीज़ चलाता हूं और एक परिणाम मिला है जिसने हाल के वर्षों के आंकड़ों को थोड़ा सा महसूस किया है। मैंने उस के प्रकाश में विधियों की समीक्षा की और पता लगाया कि विधि में मॉडल का औसत एक अवधि के लिए परिणाम विकृत कर रहा था (और एक संरचनात्मक ब्रेक हुआ है)।

3) अंगूठे के नियमों के बारे में सावधान रहें। वे अपने स्वयं के डेटा से व्यक्तिगत शोधकर्ताओं के अनुभवों को दर्शाते हैं और यदि उनका क्षेत्र आपसे बहुत अलग है, तो आपके निष्कर्ष आपके डेटा के लिए सही नहीं हो सकते हैं। इसके अलावा, और यह मेरे लिए एक झटका था, सांख्यिकीय अक्सर महत्वपूर्ण बिंदुओं पर असहमत होते हैं।

4) विभिन्न तरीकों से डेटा का विश्लेषण करने की कोशिश करें और देखें कि क्या परिणाम समान हैं। यह समझें कि कोई भी तरीका सही नहीं है और जब आप मान्यताओं के उल्लंघन के लिए जांच कर सकते हैं तो सावधान रहें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.