जॉन स्नो कोलेरा समस्या को हल करने के लिए किस सांख्यिकीय मॉडल या एल्गोरिथ्म का उपयोग किया जा सकता है?


23

मुझे यह जानने में दिलचस्पी है कि जॉन स्नो चोलरा के प्रकोप के आंकड़ों के आधार पर किसी तरह के उपकेंद्र का भौगोलिक अनुमान कैसे विकसित किया जाए। इस तरह की समस्या के समाधान के लिए सांख्यिकीय मॉडलिंग का इस्तेमाल किया जा सकता है, जहां कुएं स्थित हैं, पूर्व ज्ञान के बिना।

एक सामान्य समस्या के रूप में, आपके पास समय, ज्ञात बिंदुओं का स्थान और पर्यवेक्षक के चलने का रास्ता उपलब्ध होगा। जिस विधि की मुझे तलाश है वह "प्रकोप" के उपरिकेंद्र का अनुमान लगाने के लिए इन तीन चीजों का उपयोग करेगी।


2
भौगोलिक भविष्यवाणी के लिए क्रिंगिंग मॉडल का उपयोग किया जाता है। यह शुरू करने के लिए एक जगह हो सकती है। समय की जानकारी शामिल करने के लिए आपको एक कदम आगे जाना होगा और एक स्पैटो-टेम्पोरल मॉडल का उपयोग करना होगा (हालांकि मैंने इनका उपयोग नहीं किया है)।
ग्रेट38

4
@ ग्रिग क्रिगिंग यहां लागू करना कठिन होगा: यह एक्स्ट्रेमा का अनुमान लगाने के लिए नहीं है, और न ही यह सड़कों के साथ चलने के समय की ज्यामिति के लिए अच्छी तरह से अनुकूल है जो प्रासंगिक है, और न ही यह जनसंख्या घनत्व जैसे महत्वपूर्ण कोवरियों के लिए नियंत्रित करने के लिए अच्छी तरह से अनुकूलित है या इमारतों में श्रमिकों की संख्या।
whuber

यह R पैकेज ब्याज github.com/lindbrook/cholera का हो सकता है ।
डेविड सी। नौरिस

जवाबों:


25

एक पूर्ण या आधिकारिक जवाब देने के लिए नहीं, बल्कि सिर्फ विचारों को उत्तेजित करने के लिए, मैं एक त्वरित विश्लेषण पर रिपोर्ट करूँगा जो मैंने एक स्थानिक आँकड़े पाठ्यक्रम में एक प्रयोगशाला अभ्यास के लिए किया था जो मैं दस साल पहले सिखा रहा था। उद्देश्य यह देखना था कि यूक्लिडियन दूरियों का उपयोग करने की तुलना में संभावित यात्रा मार्गों (पैदल) के सटीक लेखांकन का क्या प्रभाव पड़ता है, अपेक्षाकृत सरल खोज विधि पर होगा: कर्नेल घनत्व का अनुमान। घनत्व का शिखर (या चोटियां) उस पंप के सापेक्ष कहां होगा जिसका हैंडल हिमपात हटा दिया गया है?

स्नो के नक्शे (ठीक से भू-संदर्भित) के एक उच्च-रिज़ॉल्यूशन रेखापुंज प्रतिनिधित्व (3160 कॉलम द्वारा 2946 पंक्तियों) का उपयोग करते हुए, मैंने मानचित्र पर दिखाए गए सैकड़ों छोटे काले ताबूतों में से प्रत्येक को डिजिटाइज़ किया (308 पते पर 558 को ढूंढते हुए, प्रत्येक को असाइन करते हुए) अपने पते के अनुसार सड़क के किनारे, और प्रत्येक स्थान पर एक गिनती में पते द्वारा संक्षेप।

इनपुट डेटा का डॉट मैप

गलियों और गली-मोहल्लों की पहचान करने के लिए कुछ इमेज प्रोसेसिंग के बाद, मैंने उन क्षेत्रों तक सीमित एक सरल गाऊसी प्रसार का आयोजन किया (जीआईएस में बार-बार फोकल साधनों का उपयोग करके)। यह केडीई है।

परिणाम खुद के लिए बोलता है - यह स्पष्ट रूप से इसे समझाने के लिए एक किंवदंती की आवश्यकता है। (नक्शा कई अन्य पंपों को दिखाता है, लेकिन वे सभी इस दृश्य के बाहर स्थित हैं, जो उच्चतम घनत्व वाले क्षेत्रों पर केंद्रित है।)

बर्फ का नक्शा रंग के साथ घनत्व दिखा रहा है।


वाह। तो संक्षेप करने के लिए; 1. यात्रा पथ को रेखीय करें, 2. एक आयाम में चौरसाई करें, 3. दो आयामों में चौरसाई का विस्तार करें, 4. पथ यात्राओं में केडी औसत करें?
21

1
चौरसाई 2 डी में किया गया था, लेकिन रंग में दिखाए गए क्षेत्र तक ही सीमित था। इसे करने के अन्य तरीके भी हैं, आपके विवरण के समान। हालांकि, "पथ यात्राएं" (जो भी हो सकती हैं) पर औसत करने की आवश्यकता नहीं है। यह मानचित्र भाग में दिलचस्प है क्योंकि यह एक और दो-आयामी ज्यामिति के गुणों को साझा करता है।
whuber

सड़कों पर प्रत्येक बिंदु A के लिए, पता स्थानों के बीच एक दूसरे बिंदु B पर चरणों की संख्या गिनें। गॉसियन घनत्व में चरणों की संख्या को प्लग करें, और बी में मौतों की संख्या से उस मूल्य को गुणा करें। उन सभी उत्पादों को जोड़ें (यानी सभी पते बिंदुओं पर बी) कर्नेल घनत्व को बिंदु ए पर प्राप्त करें। सभी बिंदुओं के लिए ऐसा करें। सड़क पर। यही वह घनत्व है जो हम मानचित्र पर प्रत्येक बिंदु पर देख रहे हैं। हाँ?
हत्शेपसुत

2
@ हत्शेपसुत यह एक उचित प्रस्ताव है। मैंने जो किया वह थोड़ा अलग था। पते (स्रोत) स्थानों पर प्रत्येक बिंदु लिए, मैंने उस बिंदु से दूरी का एक गॉसियन फ़ंक्शन बनाया, जैसा कि आप वर्णन करते हैं, और फिर मैंने इसे सामान्य किया, इसलिए सड़क ग्रिड पर इसका अभिन्न अंग उस स्रोत स्थान पर गिनती के बराबर होगा। इस फैशन में प्रत्येक मौत अपने पड़ोस में "फैल गई" थी। इन मूल्यों को दिखाए गए चित्र का उत्पादन करने के लिए सभी स्रोत स्थानों पर अभिव्यक्त किया गया था। B
whuber

2
@ यह मामला नहीं है कि सड़क और पैदल मार्ग के लिए विवश होने पर गौसियन की एक इकाई अभिन्न है! इस प्रकार इसे काट दिया जाता है और इसे फिर से असामान्य बनाना पड़ता है।
व्हिबर

19

[१, [3.2] में, डेविड फ्रीडमैन आपके प्रश्न का अनिवार्य रूप से नकारात्मक उत्तर देते हैं। यही है, कोई (मात्र) सांख्यिकीय मॉडल या एल्गोरिथ्म जॉन स्नो की समस्या को हल नहीं कर सकता है। स्नो की समस्या को अपने सिद्धांत का समर्थन करते हुए एक महत्वपूर्ण तर्क विकसित करना था कि हैजा एक जल-जनित संक्रामक रोग है, जो उनके दिन के प्रचलित मायामा सिद्धांत के खिलाफ है। (अध्याय 1 में [1], "सांख्यिकीय मॉडल और जूता चमड़ा," शीर्षक भी पहले प्रकाशित रूप में उपलब्ध है [2] यहाँ ।)

इन कुछ छोटे पन्नों में [1, pp.47-53], जिनमें से ज्यादातर जॉन स्नो का एक विस्तारित उद्धरण है, फ्रीडमैन का तर्क है कि "1853-54 में वास्तव में स्नो ने जो किया था वह व्यापक की तुलना में अधिक दिलचस्प है [ स्ट्रीट पंप]। " जहाँ तक मार्शलों के सांख्यिकीय साक्ष्य (इंडेक्स केस आइडेंटिफिकेशन आदि जैसे अन्य प्रीलिमिनरी के अलावा चर्चा की जाती है), स्नो ने वास्तव में उल्लेखनीय अर्ध-प्रयोग को प्रभावित करने के लिए प्राकृतिक भिन्नता का दोहन किया।

यह पता चलता है कि पहले के समय में, लंदन में पानी की आपूर्ति कंपनियों के बीच एक जोरदार प्रतिस्पर्धा थी, और इसके परिणामस्वरूप पानी की आपूर्ति का स्थानिक मिश्रण हुआ था (स्नो के शब्दों में) "सबसे अंतरंग तरह का।"

प्रत्येक कंपनी के पाइप सभी गलियों और लगभग सभी अदालतों और गलियों में जाते हैं। जल कंपनी सक्रिय प्रतिस्पर्धा में थे, उस समय मालिक या व्यवसायी के निर्णय के अनुसार, एक कंपनी द्वारा और दूसरे द्वारा कुछ घरों की आपूर्ति की जाती है।

...

जैसा कि घरों या दो जल कंपनियों की आपूर्ति प्राप्त करने वाले लोगों में कोई अंतर नहीं है, या किसी भी भौतिक स्थिति में जिसके साथ वे घिरे हुए हैं, यह स्पष्ट है कि कोई भी प्रयोग तैयार नहीं किया जा सकता था जो अधिक अच्छी तरह से परीक्षण करेगा हैजा की प्रगति पर पानी की आपूर्ति का प्रभाव, किन परिस्थितियों को पर्यवेक्षक के समक्ष तैयार रखा गया।

- जॉन स्नो

इस अर्ध-प्रयोग में जॉन स्नो का एक और गंभीर रूप से महत्वपूर्ण 'प्राकृतिक रूपांतर' था, जो यह था कि एक जल कंपनी के सीवेज के बहाव के नीचे टेम्स पर पानी की मात्रा कम थी , जबकि दूसरे में इसके अपस्ट्रीम को स्थानांतरित करने से कुछ साल पहले था । मैं आपको अनुमान लगाता हूँ कि जॉन स्नो की डेटा टेबल से कौन सी बात थी!

                     | की संख्या | हैजा | प्रति मौत
कंपनी | मकान | मौतें | 10,000 घर
-------------------------------------------------- --------
साउथवार्क और Vauxhall | 40,046 | 1263 | 315
लम्बेथ | 26,107 | 98 | 37
बाकी लंदन | 256,423 | 1422 | 59

जैसा कि फ्रीडमैन ने नोटबंदी के साथ,

सांख्यिकीय प्रौद्योगिकी के एक टुकड़े के रूप में, [ऊपर दी गई तालिका] किसी भी तरह से उल्लेखनीय नहीं है। लेकिन यह जो कहानी बताती है वह बहुत प्रेरक है। तर्क का बल पूर्व तर्क की स्पष्टता, सबूत की कई अलग-अलग रेखाओं को एक साथ लाने और जूता चमड़े स्नो की मात्रा डेटा प्राप्त करने के लिए उपयोग करने के लिए तैयार था। [१, पृष्ठ ५१]

स्नो द्वारा शोषित प्राकृतिक भिन्नता का एक और बिंदु समय आयाम में हुआ : उपर्युक्त पानी का सेवन स्थानांतरण दो महामारियों के बीच हुआ , जिससे स्नो को एक ही कंपनी के पानी के साथ और बिना सीवेज की तुलना करने में सक्षम किया गया। ( ट्विटर के माध्यम से इस जानकारी के लिए [1] के एक लेखक फिलिप बी। स्टार्क का धन्यवाद । देखें उनका यह ऑनलाइन व्याख्यान ।)


इस मामले को भी बीच विपरीत एक शिक्षाप्रद अध्ययन प्रदान करता है deductivism और inductivism के रूप में चर्चा की, इस सवाल का जवाब

  1. फ्रीडमैन डी, कोलियर डी, सेखों जेएस, स्टार्क पीबी। सांख्यिकीय मॉडल और कारण आविष्कार: सामाजिक विज्ञान के साथ एक संवाद। कैम्ब्रिज; न्यूयॉर्क: कैम्ब्रिज यूनिवर्सिटी प्रेस; 2010।

  2. फ्रीडमैन डीए। सांख्यिकीय मॉडल और जूता चमड़ा। समाजशास्त्रीय पद्धति । 1991; 21: 291-313। डोई: 10.2307 / 270,939। पूर्ण पाठ


1
यह इंगित करने के लिए कि "जॉन स्नो की समस्या" को हल करने के लिए केवल एक उपरिकेंद्र की पहचान करना अपर्याप्त है। मियासमा सिद्धांत उस समय का एक ऐसा प्रचलित सिद्धांत था, जैसा कि डेविड बताते हैं। मायामा सिद्धांत को गलत साबित करने के लिए, किसी को यह दिखाना होगा कि भौगोलिक दर नदी के निकटता के साथ नहीं बढ़ती है। इस समस्या के लिए एक आधुनिक दृष्टिकोण ने सिंचाई का उपयोग किया हो सकता है।
एडमो

धन्यवाद, @ अदमो; लेकिन मुझे आश्चर्य है कि किसिंग इस मामले में "अंतरंग" स्थानिक मिश्रण को कैसे समायोजित करेगा, जो लगभग एक प्रक्षेप तकनीक को लागू करने के लिए आवश्यक निरंतरता के लिए एक टकराव लगता है (जैसे कि मैं समझता हूं कि क्रिगिंग होना चाहिए)।
डेविड सी। नोरिस

शायद मैंने स्नो के शब्दों को गलत समझा: मेरा अनुमान था कि "अंतरंग मिश्रण [पानी के पंपों की आपूर्ति के स्रोतों]] को लगभग पूर्ण ब्लॉक डिजाइन के रूप में संदर्भित किया गया है, जहां नदी से दूरी से स्तरीकृत है, शहर के ब्लॉक के प्रत्येक संकेंद्रित स्ट्रेटम कम से कम कुछ आपूर्तिकर्ताओं ए, बी, सी ... के पंपों को इस सिद्धांत का समर्थन करना है कि दूषित पानी हैजा का कारण बनता है। क्रिगिंग ने नदी के निकटता को दिखाते हुए माया की परिकल्पना को खारिज कर दिया कि यह बढ़े हुए हैजा की घटना से जुड़ा नहीं है। यह पंप पर पानी पिलाने वाले लोगों द्वारा समर्थित है: मायामा पाइप द्वारा यात्रा नहीं करता है।
18

2
@ अदमो वास्तव में, विलियम फर्र ने हैजा (1849 से) के लिए मृत्यु दर का अध्ययन किया था और उनकी तुलना टेम्स नदी से ऊपर उठने से की थी। उन चर के बीच पत्राचार हड़ताली है और लगभग पूरी तरह से मायामा सिद्धांत से भविष्यवाणियों के अनुरूप है। लैंगमुइर ईस्वी देखें। बैक्टीरिया की समीक्षा 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 )। यह लेख बताता है कि 1858 में डॉ। स्नो की मृत्यु के समय तक, उनका सिद्धांत "आधिकारिक हलकों में स्वीकार नहीं किया गया था।"
whuber

1
उन संदर्भों के लिए बहुत धन्यवाद, @whuber। क्यूरेशन के माध्यम से, मैं ध्यान देता हूं कि लैंगमुइर लेख खुली पहुंच है
डेविड सी। नोरिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.