सांख्यिकीय फोरेंसिक: बेनफोर्ड और उससे आगे


23

तृतीय पक्ष द्वारा निर्मित वैज्ञानिक कार्यों में धोखाधड़ी, विसंगतियों, फ्रॉडिंग आदि का पता लगाने के लिए क्या व्यापक तरीके हैं? (मुझे हाल ही में मार्क हाउजर के संबंध में यह पूछने के लिए प्रेरित किया गया था ।) आमतौर पर चुनाव और लेखांकन धोखाधड़ी के लिए, बेनफोर्ड के कानून के कुछ प्रकार का हवाला दिया जाता है। मुझे यकीन है कि कैसे नहीं यह करने के लिए लागू किया जा सकता हूँ जैसे , मार्क हौसेर मामले क्योंकि बेन्फोर्ड के नियम संख्या की आवश्यकता है लगभग वर्दी लॉग ऑन किया जाना है।

एक ठोस उदाहरण के रूप में, मान लीजिए कि एक पेपर ने बड़ी संख्या में सांख्यिकीय परीक्षणों के लिए पी-मूल्यों का हवाला दिया। क्या कोई इन्हें एकरूपता में परिवर्तित कर सकता है, फिर बेनफोर्ड के नियम को लागू कर सकता है? ऐसा लगता है कि इस दृष्टिकोण के साथ सभी प्रकार की समस्याएं होंगी ( जैसे कुछ अशक्त परिकल्पनाएं वैध रूप से गलत हो सकती हैं, सांख्यिकीय कोड पी-मान दे सकता है जो केवल लगभग सही हैं, परीक्षण केवल पी-मान दे सकते हैं जो समान हैं अशक्त asymptotically के तहत, आदि)


2
इस सवाल के सख्त जवाब की जरूरत है जो सांख्यिकीय फोरेंसिक के वास्तविक उदाहरण प्रदान करेगा! स्वीकृत उत्तर ऐसा बिल्कुल नहीं करता है। महान उदाहरण हैं, जैसे कि साइमनोशन 2013 , कार्लिसल 2012 (और 2015 फॉलोअप ), पिट और हिल 2013 , और शायद अधिक।
अमीबा का कहना है कि मोनिका

जवाबों:


11

महान प्रश्न!

वैज्ञानिक संदर्भ में समस्याग्रस्त रिपोर्टिंग और समस्याग्रस्त व्यवहार के विभिन्न प्रकार हैं:

  • धोखाधड़ी : मैं धोखाधड़ी को लेखक या विश्लेषक की ओर से जानबूझकर इरादों के रूप में परिभाषित करूंगा ताकि परिणामों को गलत तरीके से पेश किया जा सके और जहां गलत बयानी पर्याप्त रूप से गंभीर प्रकृति की हो। मुख्य उदाहरण कच्चे डेटा या सारांश आंकड़ों का पूर्ण निर्माण है।
  • त्रुटि : डेटा विश्लेषक डेटा प्रविष्टि से डेटा विश्लेषण, डेटा हेरफेर, विश्लेषण करने, रिपोर्टिंग करने, व्याख्या करने के लिए डेटा विश्लेषण के कई चरणों में त्रुटियां कर सकते हैं।
  • अनुचित व्यवहार : अनुचित व्यवहार के कई रूप हैं। सामान्य तौर पर, यह एक अभिविन्यास द्वारा संक्षेपित किया जा सकता है जो सत्य की खोज के बजाय किसी विशेष स्थिति की पुष्टि करना चाहता है।

अनुचित व्यवहार के सामान्य उदाहरणों में शामिल हैं:

  • संभावित आश्रित चर की एक श्रृंखला की जांच करना और केवल उसी की रिपोर्टिंग करना जो सांख्यिकीय रूप से महत्वपूर्ण है
  • मान्यताओं के महत्वपूर्ण उल्लंघनों का उल्लेख नहीं करना
  • डेटा जोड़तोड़ और बाहरी निष्कासन प्रक्रियाओं का उल्लेख किए बिना, विशेष रूप से जहां ये प्रक्रियाएं दोनों अनुचित और विशुद्ध रूप से चुनी जाती हैं, ताकि परिणाम बेहतर हो सकें।
  • एक मॉडल को पुष्टिकरण के रूप में प्रस्तुत करना जो वास्तव में खोजपूर्ण है
  • वांछित तर्क के खिलाफ जाने वाले महत्वपूर्ण परिणामों को स्वीकार करना
  • केवल इस आधार पर एक सांख्यिकीय परीक्षण चुनना कि यह परिणाम बेहतर दिखते हैं
  • पांच या दस अंडर-संचालित अध्ययनों की एक श्रृंखला चलाना जहां केवल एक ही सांख्यिकीय रूप से महत्वपूर्ण है (शायद पी = .04 पर) और फिर अन्य अध्ययनों का उल्लेख किए बिना अध्ययन की रिपोर्ट करना

सामान्य तौर पर, मैं परिकल्पना करता हूं कि अक्षमता समस्याग्रस्त व्यवहार के सभी तीन रूपों से संबंधित है। एक शोधकर्ता जो यह नहीं समझता है कि अच्छा विज्ञान कैसे करना है, लेकिन अन्यथा सफल होना चाहता है, उनके परिणामों को गलत तरीके से पेश करने के लिए अधिक से अधिक प्रोत्साहन होगा, और नैतिक डेटा विश्लेषण के सिद्धांतों का सम्मान करने की संभावना कम है।

उपर्युक्त भेदों में समस्याग्रस्त व्यवहार का पता लगाने के निहितार्थ हैं। उदाहरण के लिए, यदि आप यह पता लगाने का प्रबंधन करते हैं कि रिपोर्ट किए गए परिणामों का एक सेट गलत है, तो यह अभी भी पता लगाया जाना चाहिए कि क्या परिणाम धोखाधड़ी, त्रुटि या अनुचित व्यवहार से उत्पन्न हुए हैं। इसके अलावा, मुझे लगता है कि अनुचित व्यवहार के विभिन्न रूप धोखाधड़ी से कहीं अधिक सामान्य हैं।

समस्यात्मक व्यवहार का पता लगाने के संबंध में, मुझे लगता है कि यह काफी हद तक एक कौशल है जो डेटा के साथ काम करने , किसी विषय के साथ काम करने और शोधकर्ताओं के साथ काम करने के अनुभव से आता है। ये सभी अनुभव आपकी उम्मीदों को मजबूत करते हैं कि डेटा कैसा दिखना चाहिए। इस प्रकार, उम्मीदों से प्रमुख विचलन स्पष्टीकरण की खोज की प्रक्रिया शुरू करते हैं। शोधकर्ताओं के साथ अनुभव आपको अनुचित व्यवहार के प्रकारों का एहसास दिलाता है जो कम या ज्यादा सामान्य हैं। संयोजन में यह परिकल्पना की पीढ़ी की ओर जाता है। उदाहरण के लिए, यदि मैं एक जर्नल लेख पढ़ता हूं और मैं परिणामों से आश्चर्यचकित हूं, तो अध्ययन ज़ोरदार है, और लेखन की प्रकृति बताती है कि लेखक एक बिंदु बनाने पर सेट है, मैं परिकल्पना उत्पन्न करता हूं कि परिणाम शायद नहीं होने चाहिए पर भरोसा किया।

अन्य संसाधन


4

दरअसल, बेनफोर्ड का कानून एक अविश्वसनीय रूप से शक्तिशाली तरीका है। ऐसा इसलिए है क्योंकि पहले अंक के बेनफोर्ड की आवृत्ति वितरण वास्तविक या प्राकृतिक दुनिया में होने वाले सभी प्रकार के डेटा सेट पर लागू होती है।

आप सही हैं कि आप कुछ निश्चित परिस्थितियों में ही बेनफोर्ड के नियम का उपयोग कर सकते हैं। आप कहते हैं कि डेटा को एक समान लॉग वितरण करना है। तकनीकी रूप से, यह बिल्कुल सही है। लेकिन, आप आवश्यकता का वर्णन बहुत सरल और उदार तरीके से कर सकते हैं। आपको बस इतना चाहिए कि डेटा सेट रेंज परिमाण के कम से कम एक क्रम को पार करती है। मान लीजिए 1 से 9 या 10 से 99 या 100 से 999 तक। यदि यह परिमाण के दो आदेशों को पार करता है, तो आप व्यवसाय में हैं। और, बेनफोर्ड का कानून काफी मददगार होना चाहिए।

बेनफोर्ड के नियम की सुंदरता यह है कि यह आपकी जांच को डेटा के घास के ढेर के भीतर सुई (ओं) पर जल्दी से संकीर्ण करने में मदद करता है। आप उन विसंगतियों की तलाश करते हैं, जिनमें पहले अंक की आवृत्ति बेनफोर्ड आवृत्तियों की तुलना में बहुत अलग है। एक बार जब आप नोटिस करते हैं कि दो कई 6s हैं, तो आप केवल 6s पर ध्यान केंद्रित करने के लिए बेनफोर्ड के नियम का उपयोग करें; लेकिन, अब आप इसे पहले दो अंकों (60, 61, 62, 63, आदि ...) तक ले जाते हैं। अब, शायद आपको पता चले कि वहाँ बहुत अधिक 63 हैं तो बेनफोर्ड क्या सुझाव देता है (आप ऐसा करेंगे कि बेनफोर्ड की आवृत्ति की गणना करके: लॉग (1 + 1/63) जो आपको 0% के करीब मूल्य देता है)। तो, आप पहले तीन अंकों के लिए बेनफोर्ड का उपयोग करते हैं। जब तक आपको पता चलता है कि वैसे तो बहुत सारे 632s हैं (या जो कुछ भी बेनफोर्ड की आवृत्ति की गणना करके: लॉग (1 + 1/632)) की अपेक्षा से आप शायद किसी चीज़ पर हैं। सभी विसंगतियां धोखाधड़ी नहीं हैं। परंतु,

यदि मार्क होसर ने जो डेटा सेट किया है, वह संबंधित सीमा के साथ प्राकृतिक असंबंधित डेटा है जो पर्याप्त विस्तृत था, तो बेनफोर्ड लॉ एक बहुत अच्छा नैदानिक ​​उपकरण होगा। मुझे यकीन है कि अन्य अच्छे डायग्नोस्टिक टूल भी हैं जो बिना किसी पैटर्न का पता लगाए और बेन्फोर्ड के कानून के साथ संयोजन करके आप शायद सबसे ज्यादा मार्क हॉजर प्रकरण की जांच कर सकते हैं (बेन्फोर्ड के कानून की उल्लिखित डेटा आवश्यकता को ध्यान में रखते हुए)।

मैं इस संक्षिप्त प्रस्तुति में बेनफोर्ड के नियम को थोड़ा और समझाता हूँ जो आप यहाँ देख सकते हैं: http://www.slideshare.net/gaetanlion/benfords-law-4669483

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.