प्रायोगिक डेटा का प्रतिनिधित्व करना


9

डेटा विज़ुअलाइज़ेशन पर मेरे सलाहकार के साथ मेरा तर्क है। उनका दावा है कि प्रायोगिक परिणामों का प्रतिनिधित्व करते समय, मानों को " मार्कर " के साथ ही प्लॉट किया जाना चाहिए , जैसा कि छवि बॉलो में प्रस्तुत किया गया है। जबकि घटता केवल " मॉडल " का प्रतिनिधित्व करना चाहिए

Markers.png

दूसरी ओर मेरा मानना ​​है कि पठनीयता को सुविधाजनक बनाने के लिए कई मामलों में एक वक्र अनावश्यक है, जैसा कि दूसरी छवि में दिखाया गया है:

Lines.png

क्या मैं गलत हूं या मेरे प्रोफेसर? अगर बाद में ऐसा होता है, तो मैं उसे कैसे समझाऊं।


5
बिंदु डेटा हैं। आप जिन बिंदुओं पर फिट होते हैं, वे डेटा नहीं हैं। तो अगर आपका इरादा डेटा दिखाने का है ...

3
जैसा कि जेफ़ कहते हैं। और भी स्पष्ट होने के लिए: आपके द्वारा प्लॉट किए गए वक्र एक मॉडल हैं, क्योंकि आपने उन्हें बनाते समय एक विशेष आकार ग्रहण किया था, और इस आकृति के लिए आपके पास कुछ तर्क था। यह तर्क एक विशेष मॉडल पर आधारित है।
जेरिट

1
मैंने एक माइग्रेशन अनुरोध सबमिट किया है; यह वास्तव में यहाँ नहीं, बल्कि क्रमानुसार है।

2
मुझे लगता है कि यह क्रॉस-अमान्य पर ऑन-टॉपिक हो सकता है, लेकिन यह निश्चित रूप से यहां विषय पर भी है । माइग्रेशन पर केवल तभी विचार किया जाना चाहिए जब वह यहां ऑफ-टॉपिक हो, (दो साइट पर ऑन-टॉपिक होने वाले प्रश्न हों, यह ठीक है)। यह मान्य उत्तरों के साथ एक वास्तविक प्रश्न है, यह निश्चित रूप से कई शिक्षाविदों के लिए प्रासंगिक है।

2
आपका दूसरा चार्ट संदिग्ध है। यदि आप सीधी रेखा के साथ उन बिंदुओं में शामिल हो गए हैं जो आपके (शायद) दृश्य स्पष्टता के लिए एक तर्क है। लेकिन एक वक्र का उपयोग करके आप दावा कर रहे हैं कि नीली रेखा का शिखर 740 ° है, और बैंगनी रेखा न्यूनतम 840 ° पर है, भले ही आपके पास उन तापमानों पर कोई प्रयोगात्मक डेटा न हो। मापा डेटा के बाहर न्यूनतम / अधिकतम का परिचय लाल झंडा है।
डैरेन कुक

जवाबों:


10

मुझे अंगूठे का यह नियम पसंद है:

यदि आपको आंख को निर्देशित करने के लिए लाइन की आवश्यकता है (यानी एक प्रवृत्ति दिखाने के लिए कि बिना रेखा स्पष्ट रूप से दिखाई नहीं देगी), तो आपको लाइन नहीं डालनी चाहिए ।

मनुष्य पैटर्न को पहचानने में बहुत अच्छे हैं (हम ऐसी प्रवृत्तियों को देखने के पक्ष में हैं जो मौजूदा प्रवृत्ति को याद करने से नहीं हैं)। यदि हम बिना लाइन के रुझान प्राप्त करने में सक्षम नहीं हैं, तो हम इस बात के लिए सुनिश्चित हो सकते हैं कि कोई भी आंकड़ा डेटा सेट में निर्णायक रूप से नहीं दिखाया जा सकता है।

दूसरे ग्राफ के बारे में बात करते हुए, आपके मापन बिंदुओं की अनिश्चितता का एकमात्र संकेत C: O 1.2 के 700 ° C पर दो लाल वर्ग हैं। इन दोनों के प्रसार का मतलब है कि मैं उदाहरण के लिए स्वीकार नहीं करूंगा

  • वहाँ C: O 1.2 के लिए एक प्रवृत्ति है
  • कि 2.0 और 3.6 के बीच अंतर है
  • और यह सुनिश्चित करने के लिए कि घुमावदार मॉडल डेटा से अधिक हैं।

बहुत अच्छे कारणों के बिना। हालांकि, फिर से एक मॉडल होगा।


संपादित करें: इवान की टिप्पणी का जवाब:

मैं रसायनज्ञ हूं और मैं कहूंगा कि त्रुटि के बिना कोई माप नहीं है - जो स्वीकार्य है वह प्रयोग और उपकरण पर निर्भर करेगा।

यह उत्तर प्रायोगिक त्रुटि दिखाने के खिलाफ नहीं है, लेकिन सभी इसे दिखाने और लेने के लिए है।

मेरे तर्क के पीछे विचार यह है कि ग्राफ़ बिल्कुल एक बार-बार माप दिखाता है, इसलिए जब चर्चा होती है कि एक मॉडल कितना जटिल होना चाहिए (यानी क्षैतिज रेखा, सीधी रेखा, द्विघात, ...) यह हमें माप का विचार दे सकता है त्रुटि। आपके मामले में, इसका मतलब है कि आप एक सार्थक द्विघात (तख़्ता) नहीं कर पाएंगे, भले ही आपके पास एक हार्ड मॉडल (जैसे थर्मोडायनामिक या काइनेटिक समीकरण) हो, यह सुझाव देता है कि यह द्विघात होना चाहिए - आपके पास केवल पर्याप्त डेटा नहीं है ।

इसे समझने के लिए:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

यहाँ C: O अनुपात में से प्रत्येक के लिए अपने 95% विश्वास अंतराल के साथ एक रैखिक फिट है:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

रैखिक मॉडल

ध्यान दें कि उच्चतर C के लिए: O अनुपात में विश्वास अंतराल 0. से नीचे होता है। इसका मतलब है कि रैखिक मॉडल की अंतर्निहित धारणा गलत है। हालांकि, आप यह निष्कर्ष निकाल सकते हैं कि उच्च सी: ओ सामग्री के लिए रैखिक मॉडल पहले से ही ओवरफिट हैं।

तो, वापस कदम रखना और केवल एक स्थिर मूल्य (यानी कोई टी निर्भरता) फिटिंग:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

कोई टी निर्भरता नहीं

पूरक सी: ओ पर निर्भरता मॉडल करने के लिए है:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

नहीं सी: ओ निर्भरता

फिर भी, आत्मविश्वास अंतराल एक क्षैतिज या थोड़ी सी आरोही रेखाओं को भी कवर करेगा।

आप जा सकते हैं और कोशिश कर सकते हैं जैसे तीन सी: ओ अनुपात के लिए अलग-अलग ऑफसेट की अनुमति, लेकिन समान ढलान का उपयोग करना।

हालांकि, पहले से ही कुछ और माप स्थिति में काफी सुधार करेंगे - ध्यान दें कि C: O = 1: 1 के लिए आत्मविश्वास अंतराल कितना कम है, जहां आपके पास केवल 3 के बजाय 4 माप हैं।

निष्कर्ष: यदि आप मेरे बिंदुओं की तुलना करते हैं कि मैं किस निष्कर्ष पर संदेह करूंगा, तो वे कुछ उपलब्ध बिंदुओं में बहुत अधिक पढ़ रहे थे!


आप बहुत अच्छी बात करते हैं। हालांकि इंजीनियरिंग में, प्रायोगिक त्रुटि (अनिश्चितता) बहुत आम है और यह माना जाता है कि 3 ~ 5% सापेक्ष त्रुटि स्वीकार्य है। फिर भी मुझे MAX, MIN और AVG परिणाम दिखाना आवश्यक है। तो मेरे मामले में मार्कर चरम हैं और रेखा औसत है।
इवान पी।

बहुत अच्छा और अत्यंत सहायक उदाहरण (आपको आर में मेरी दिलचस्पी थी)। तो, निश्चित रूप से सही काम करने के लिए अधिक डेटा पॉइंट मिलते हैं।
इवान पी।

12

JeffE कहते हैं: अंक हैं डेटा । सामान्य तौर पर, जितना संभव हो उतना घटता जोड़ने से बचने के लिए अच्छा है। वक्र जोड़ने का एक कारण यह है कि यह ग्राफ को आंख को अच्छा बनाता है, अंकों को और बिंदुओं के बीच की प्रवृत्ति को अधिक पठनीय बनाता है। यह विशेष रूप से सच है यदि आपके पास कुछ डेटा बिंदु हैं।

हालांकि, विरल डेटा प्रदर्शित करने के अन्य तरीके भी हैं , जो स्कैटर प्लॉट से बेहतर हो सकते हैं। एक संभावना एक बार चार्ट है, जहां विभिन्न बार आपके एकल बिंदुओं की तुलना में बहुत अधिक दिखाई देते हैं। एक रंग कोड (जो आपके पास पहले से ही आपके आंकड़े में है) प्रत्येक डेटा श्रृंखला के रुझान को देखने में मदद करेगा (या डेटा श्रृंखला को विभाजित किया जा सकता है, और छोटे व्यक्तिगत बार चार्ट में एक दूसरे के बगल में प्रस्तुत किया जा सकता है)।

अंत में, यदि आप वास्तव में अपने प्रतीकों के बीच किसी प्रकार की रेखा जोड़ना चाहते हैं, तो दो मामले हैं:

  1. यदि आप अपने डेटा (रैखिक, हार्मोनिक, जो भी) के लिए एक निश्चित मॉडल के वैध होने की उम्मीद करते हैं, तो आपको मॉडल पर अपना डेटा फिट करना चाहिए, पाठ में मॉडल की व्याख्या करें और डेटा और मॉडल के बीच समझौते पर टिप्पणी करें।

  2. यदि आपके पास डेटा के लिए कोई उचित मॉडल नहीं है, तो आपको अपने ग्राफ़ में अतिरिक्त मान्यताओं को शामिल नहीं करना चाहिए । विशेष रूप से, इसका मतलब है कि आपको स्ट्रेट लाइनों को छोड़कर अपने बिंदुओं के बीच किसी भी प्रकार की लाइनों को शामिल नहीं करना चाहिए। एक्सेल (और अन्य सॉफ्टवेयर) आकर्षित कर सकते हैं कि अच्छा "तख़्ता फिट" प्रक्षेप एक झूठ हैं । आपके डेटा के लिए उस विशेष गणितीय मॉडल का अनुसरण करने का कोई वैध कारण नहीं है, इसलिए आपको सीधी रेखा के खंडों से चिपके रहना चाहिए।

    इसके अलावा, उस मामले में यह आंकड़ा कैप्शन में कहीं भी एक अस्वीकरण जोड़ने के लिए अच्छा हो सकता है, जैसे "लाइनें केवल आंख के लिए गाइड हैं"।


2
यह उत्कृष्ट सलाह है कि सलाखों के बारे में टिप्पणी अधिक उपयुक्त होगी। इससे संबंधित इसी तरह की चर्चा के लिए वैकल्पिक ग्राफिक्स को "हैंडल बार" भूखंड देखें । ओपी द्वारा एक क्लस्टर बार चार्ट के रूप में सूचीबद्ध कथानक की कल्पना करें, यह अस्थायी सीमाओं के पार प्रवृत्ति की कल्पना करना कठिन होगा। अंक को अधिक आसानी से देखने का एक तरीका उन्हें एक्स-एक्सिस के साथ घबराना है, और क्लीवलैंड का काम हमें सुझाव देगा कि हमें किसी भी तरह से सलाखों के लिए पसंद करना चाहिए।
एंडी डब्ल्यू

@ एंडी डब्ल्यू, "एक्स-एक्सिस के साथ उन्हें घबराना" से आपका क्या मतलब है?
इवान पी।

1
@ आईवीपी।, मेरा मतलब है कि एब्सकाइसा पर उस विशेष मान को निर्धारित करने के बजाय उन्हें दाएं या बाएं स्थानांतरित करने के लिए अंक एक दूसरे को कवर नहीं करते हैं। बाकी ग्राफ से यह स्पष्ट होना चाहिए कि वे वास्तव में x- अक्ष पर समूहों के लिए सटीक मानों को संदर्भित करते हैं, और मामूली घबराहट का मानों के बीच की प्रवृत्ति को देखने पर कोई प्रभाव नहीं होना चाहिए।
एंडी डब्ल्यू

6

1-आपका प्रोफेसर एक वैध बिंदु बना रहा है।

2-आपका प्लॉट निश्चित रूप से पठनीयता IMHO नहीं बढ़ाता है।

3-मेरी समझ से यह इस प्रकार का प्रश्न वास्तव में पूछने का सही मंच नहीं है और आपको इसे क्रॉस-वैरिफाइड में पूछना चाहिए।


मुझे यह जानने में दिलचस्पी है कि पठनीयता में समस्या कहाँ है और सुधार के लिए किसी भी सुझाव का बहुत स्वागत है
इवान पी।

1

कभी-कभी जॉइनिंग पॉइंट्स समझ में आते हैं, खासकर यदि वे बहुत घने होते हैं।

और फिर इसे प्रक्षेप करने के लिए समझ में आता है (उदाहरण के लिए एक तख़्ता के साथ )। हालांकि, यदि यह ऑर्डर एक की सीमा से अधिक उन्नत है (जिसके लिए यह स्पष्ट रूप से स्पष्ट है कि यह केवल बिंदुओं में शामिल हो रहा है), तो आपको इसका उल्लेख करने की आवश्यकता है।

हालांकि, कुछ बिंदुओं, या एक दर्जन, बिंदुओं के मामले के लिए, यह मामला नहीं है। अंक को वैसे ही छोड़ दें जैसे वे मार्करों के साथ हैं। यदि आप एक पंक्ति (या एक और वक्र) फिट करना चाहते हैं, तो यह एक मॉडल है। आप इसे जोड़ सकते हैं, लेकिन स्पष्ट होना चाहिए - जैसे "लाइन रैखिक प्रतिगमन फिट का प्रतिनिधित्व करता है"।


0

मुझे लगता है कि ऐसे मामले हैं जहां एक स्पष्ट मॉडल का प्रस्ताव नहीं है, फिर भी आंख को किसी तरह के मार्गदर्शक की आवश्यकता है। मेरा नियम तब प्लेग जैसे घटता से बचना है और श्रृंखला की क्रमिक बिंदुओं के बीच सीधी रेखाओं से चिपकना है।

एक के लिए, यह धारणा पाठकों के लिए अधिक स्पष्ट है। इसके अलावा स्पिकनेस पाठकों को डेटा द्वारा असमर्थित रुझानों से दूर रखने में अच्छा है। अगर सब पर, यह केवल शोर और आउटलेर को उजागर करता है।

सामान जो मैं सावधान हूं वह सरस (गैर-कठोर, गैर-स्पष्ट) स्प्लीन, क्वाड्रैटिक्स, प्रतिगमन आदि का उपयोग है। बहुत बार ऐसा लगता है कि यह रुझान हैं जहां कोई नहीं है। दुरुपयोग का एक अच्छा उदाहरण @Ivan द्वारा तैयार किए गए वक्र हैं। 3 आंकड़ों के साथ मुझे नहीं लगता कि अंतर्निहित मॉडल में कोई भी अधिकतम या मिनीमा स्पष्ट है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.