क्या सांख्यिकी.कॉम ने गलत उत्तर प्रकाशित किया है?


28

सांख्यिकी.कॉम ने सप्ताह की एक समस्या प्रकाशित की: आवासीय बीमा धोखाधड़ी की दर 10% है (दस दावों में से एक धोखाधड़ी है)। एक सलाहकार ने दावों की समीक्षा करने और उन्हें धोखाधड़ी या नो-फ्रॉड के रूप में वर्गीकृत करने के लिए एक मशीन लर्निंग सिस्टम का प्रस्ताव दिया है। यह प्रणाली कपटपूर्ण दावों का पता लगाने में 90% प्रभावी है, लेकिन गैर-धोखाधड़ी दावों को सही ढंग से वर्गीकृत करने में केवल 80% प्रभावी है (यह गलती से एक को "धोखाधड़ी" के रूप में लेबल करता है)। यदि सिस्टम एक दावे को धोखाधड़ी के रूप में वर्गीकृत करता है, तो क्या संभावना है कि यह वास्तव में धोखाधड़ी है?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

मेरे सहकर्मी और मैं दोनों एक ही जवाब के साथ स्वतंत्र रूप से आए और यह प्रकाशित समाधान से मेल नहीं खाता।

हमारा समाधान:

(.9 * .1) / ((। 9 * .1) + (। 2 * .9)) = 1/3

उनका समाधान:

यह सशर्त संभावना में एक समस्या है। (यह एक बायेसियन समस्या भी है, लेकिन बेयस नियम में सूत्र को लागू करने से केवल यह पता लगाने में मदद मिलती है कि क्या चल रहा है।) 100 दावों पर विचार करें। 10 फर्जी होंगे, और सिस्टम उनमें से 9 को "धोखाधड़ी" के रूप में सही ढंग से लेबल करेगा। 90 दावे ठीक होंगे, लेकिन सिस्टम गलत तरीके से 72 (80%) को "धोखाधड़ी" के रूप में वर्गीकृत करेगा, इसलिए कुल 81 दावों को लेबल किया गया है। धोखाधड़ी के रूप में, लेकिन उनमें से केवल 9, 11%, वास्तव में धोखेबाज हैं।

कौन सही था


4
वे की तरह दिखता है अपनी वेबसाइट पर समाधान को सही तुम क्या गणना के साथ लाइन में होना करने के लिए
नहीं

2
@ नहीं, चुपचाप जवाब सही दिया। डरपोक
अक्षकाल

सामान्य ज्ञान: व्यवहार संबंधी निर्णय लेने में, इस समस्या को अक्सर "मैमोग्राम समस्या" के रूप में जाना जाता है, क्योंकि इसकी सामान्य प्रस्तुति एक मरीज को एक सकारात्मक मैमोग्राम दिए जाने वाले कैंसर की संभावना के बारे में है।
कोडियोलॉजिस्ट

"अच्छी खबर यह है कि हमारी प्रणाली 90% धोखाधड़ी को धोखाधड़ी के रूप में वर्गीकृत करती है। बुरी खबर यह है कि यह 80% गैर-धोखाधड़ी को धोखाधड़ी के रूप में वर्गीकृत करती है।" नोट 11% वे गणना 10% आधार दर की तुलना में केवल थोड़ा अधिक है। एक मशीन लर्निंग मॉडल जहां ध्वजांकित मामलों में धोखाधड़ी की दर आधार दर से केवल 10% अधिक है, काफी भयानक है।
संचय

जवाबों:


41

मेरा मानना ​​है कि आप और आपके सहयोगी सही हैं। आँकड़े.कॉम की सोच की सही लाइन है, लेकिन एक साधारण गलती करता है। 90 "ओके" दावों में से, हम उम्मीद करते हैं कि उनमें से 20% को गलत तरीके से धोखाधड़ी के रूप में वर्गीकृत किया जाएगा, न कि 80%। 90 का 20% 18 है, 9 को सही ढंग से पहचाने गए दावों और 18 गलत दावों के कारण, 1/3 के अनुपात के साथ, बेयर्स ने पैदावार का अनुमान लगाया।


11

तुम सही हो। जिस समाधान के लिए वेबसाइट पोस्ट की गई है, वह इस समस्या के गलत प्रसार पर आधारित है जिसमें दिए गए 20% के बजाय गैर-कपटपूर्ण दावों के 80% को धोखाधड़ी के रूप में वर्गीकृत किया गया है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.