निष्कासन वर्कफ़्लो में विज़ुअलाइज़ेशन


9

मैं एक सार्वजनिक स्वास्थ्य विभाग के लिए सांख्यिकीय सहायता प्रदान करता हूं। जैसा कि आप कल्पना कर सकते हैं, हमने नियमित रूप से बहुत सारे नक्शे एक साथ रखे हैं। मेरे लिए, नक्शे केवल एक अन्य प्रकार के डेटा विज़ुअलाइज़ेशन हैं - डेटा के लिए एक भावना प्राप्त करने के लिए उपयोगी हैं, परिकल्पनाओं को उत्पन्न करने और जांचने के लिए आदि, लेकिन हम अक्सर वास्तविक मॉडलिंग और परिकल्पना परीक्षण के माध्यम से पालन नहीं करते हैं ।

आप / आपका संगठन इस बारे में कैसे जाते हैं? एक वर्कफ़्लो जिसमें अंतर्वेशन शामिल है जैसे दिखता है? कौन शामिल है? आप किन उपकरणों का उपयोग करते हैं? यह आदर्श रूप से कैसा दिखेगा, अगर आपके पास अपना रास्ता था?

धन्यवाद!

संपादित करें

स्पष्ट होने के लिए, मैं स्थानिक डेटा से औपचारिक, सांख्यिकीय परिकल्पनाओं की दुनिया में क्या चल रहा है, के लिए जाने के लिए विभिन्न रणनीतियों के बारे में उत्सुक हूं। उदाहरण के लिए, मान लीजिए कि मैं तपेदिक परीक्षण को बढ़ाने के लिए एक शैक्षिक अभियान को लक्षित करने का प्रयास कर रहा हूं। मैं (व्यक्तिगत रूप से) कोवेट्स ऑफ इंटरेस्ट के खिलाफ टीबी के मामलों का नक्शा तैयार करूंगा (जैसे, औसत आय या प्रतिशत में जन्मे विदेशी निवासी) और यह देखने का प्रयास करें कि क्या कोई पैटर्न था।

मुझे कोई मिल भी सकता है और नहीं भी; लेकिन मैं अंततः उन कोवरिएट्स और जनसांख्यिकी की संख्या के बीच संबंध का अनुमान लगाने के लिए एक मॉडल का निर्माण करूंगा। यह इस बात के लिए एक महत्वपूर्ण कदम है कि मानव कितने अच्छे पैटर्न खोज रहा है जहाँ कोई भी मौजूद नहीं है, या कोई खोज नहीं करता है। मुझे पता है कि मुझे यह कैसे करना है, लेकिन मैं इस बारे में उत्सुक हूं कि विभिन्न संगठन इसे संस्थागत कैसे बनाते हैं (यदि बिल्कुल भी)।


बड़ा अच्छा सवाल!
whuber

क्या आप कह रहे हैं कि आपको वर्कफ़्लो की ज़रूरत है ताकि अगर किसी बीमारी का प्रकोप हो जिसके लिए टीके की सीमित आपूर्ति उपलब्ध है, तो आपको यह दिखाने में सक्षम होने की आवश्यकता है कि आप वैक्सीन का वितरण कर रहे हैं?
किर्क कुएकेन्डल

मोटे तौर पर, मुझे बस इस बात में दिलचस्पी है कि लोग अपनी मानचित्रण प्रक्रियाओं में सांख्यिकीय निष्कर्ष को कैसे शामिल करते हैं। आप जो वर्णन करते हैं वह निश्चित रूप से एक संभावित परिदृश्य है, लेकिन बहुत सारे अन्य हैं और मैं महामारी विज्ञान से प्रतिक्रियाओं में विशेष रूप से दिलचस्पी नहीं रखता हूं।
मैट पार्कर

जवाबों:


2

बहुत दिलचस्प सवाल!

सबसे पहले, आपका प्रश्न 'डेटा माइनिंग' को मैं क्या कहता हूं, और मुझे लगता है कि समस्या को स्पष्ट रूप से समझने के लायक है क्योंकि यहां कुछ लोगों को यह नहीं मिला होगा: किसी भी डेटा सेट के साथ (स्थानिक होना आवश्यक नहीं है) एक सांख्यिकीय रूप से मान्य संबंध यह है कि यह 95% या उससे अधिक संभावना वाला होना चाहिए। हालाँकि, यदि आप 20 परीक्षण करते हैं तो मौका अधिक होता है कि कम से कम एक 'सांख्यिकीय मान्य' परिणाम जो आपको प्राप्त होता है वह शुद्ध मौका के कारण होता है। चरों के बीच कई संभावित संबंधों की कल्पना करने के लिए, डेटा सेट के साथ खेलने के लिए इसकी खराब प्रैक्टिस (जीआईएस में इसे मैप करना होगा), एक दिलचस्प एक ढूंढें और आंकड़ों में प्लग करें और परिणाम को उद्धृत करें जैसे कि यह एकमात्र परीक्षण था किया था। आप अभी भी परिणाम का उपयोग कर सकते हैं लेकिन आपको अपने द्वारा किए गए परीक्षणों की संख्या का ध्यान रखना होगा।

क्या आप जो गाड़ी चला रहे थे?

आपका प्रश्न यह पूछने के लिए प्रकट होता है कि लोग इस समस्या से बचने के लिए कैसे औपचारिक हैं। मेरा उत्तर यह है कि आपके द्वारा उल्लिखित 'बिल्कुल नहीं' विकल्प आम है। मेरे अनुभव में मेडिकल सांख्यिकीविदों (जैसे मेरी प्रेमिका) अन्य क्षेत्रों में पाए जाने वाले इस तरह की प्रक्रिया के लिए बहुत उच्च स्तर की कठोरता लागू करते हैं, मुझे संदेह है कि सार्वजनिक स्वास्थ्य के बाहर सभी प्रकार के डेटा मैपिंग बिना किसी प्रकार के औपचारिक विचार के किए जाते हैं। प्रक्रिया को ठीक से समझे बिना आँकड़ों के साथ समस्याएँ सूत्र रूप से लागू की जा रही हैं। एक भूवैज्ञानिक उदाहरण मन में आता है:

मैंने अफ्रीका में एक पीयर रिव्यू पेपर पढ़ा जिसमें लेखकों ने देखा कि अफ्रीका में भूवैज्ञानिक और स्थानिक प्रभावों से संबंधित बोरहोल उपज (पानी की मात्रा कितनी है जिसे पंप किया जा सकता है) जैसे कि बजरी की परत की मोटाई जो बिस्तर की चट्टान से पहले खोदी गई थी। यह विचार बोरहोल ड्रिलरों की मदद करने के लिए था ताकि वे बोरहोल के लिए सर्वश्रेष्ठ स्थानों को लक्षित कर सकें। लेखकों ने स्पष्ट रूप से सभी प्रकार के चर को मिलाकर डेटा का खनन किया, यह देखने के लिए कि कौन लोग 95% आत्मविश्वास के स्तर के साथ आए हैं और (मुझे लगता है) किसी भी समीक्षक ने परिणामों की वैधता पर सवाल नहीं उठाया था। उनके निष्कर्ष इसलिए पूरी तरह अविश्वसनीय थे।

आशा है कि ब्याज की


क्या आप थोड़ा और समझा सकते हैं कि आपके द्वारा वर्णित पेपर अविश्वसनीय क्यों है? मेरे लिए यह स्पष्ट नहीं है कि ऐसा क्यों है। यदि संबंध सांख्यिकीय रूप से मौजूद है, तो क्या इससे कोई फर्क पड़ता है कि आपने इसे पहचानने के लिए किस 'मानसिक मॉडल' का इस्तेमाल किया था? मैं समझता हूं कि यह तंत्र की व्याख्या नहीं करता है, लेकिन यह एक अलग मुद्दा है।
djq
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.