रिपोर्ट करने के लिए महत्वपूर्ण अंकों की संख्या


12

क्या किसी माध्य या विश्वास अंतराल के लिए रिपोर्ट करने के लिए महत्वपूर्ण अंकों की संख्या निर्धारित करने का एक अधिक वैज्ञानिक तरीका है जो काफी मानक है - जैसे कॉलेज में प्रथम वर्ष की कक्षा।

मैंने एक तालिका में डालने के लिए महत्वपूर्ण आंकड़ों की संख्या देखी है , क्यों हम एक चि चौकोर फिट में महत्वपूर्ण अंकों और महत्वपूर्ण आंकड़ों का उपयोग नहीं करते हैं , लेकिन ये समस्या पर अपनी उंगली नहीं डालते हैं।

अपनी कक्षाओं में मैं अपने छात्रों को यह समझाने की कोशिश करता हूं कि 15 महत्वपूर्ण अंकों की रिपोर्ट करना स्याही की बर्बादी है जब उनके परिणामों में इतनी व्यापक मानक त्रुटि होती है - मेरी आंत की भावना यह थी कि इसे कहीं के क्रम के बारे में बताया जाए । यह ASTM द्वारा कही गई बात से बहुत अलग नहीं है - E29 का उल्लेख करते हुए टेस्ट परिणाम की रिपोर्ट करें जहां वे कहते हैं कि यह और बीच होना चाहिए ।0.05 σ 0.5 σ0.25σ0.05σ0.5σ

संपादित करें:

जब मेरे पास xनीचे की तरह संख्याओं का एक सेट होता है, तो मुझे औसत और मानक विचलन को प्रिंट करने के लिए कितने अंकों का उपयोग करना चाहिए?

set.seed(123)
x <- rnorm(30) # default mean=0, sd=1
# R defaults to 7 digits of precision options(digits=7)
mean(x) # -0.04710376 - not far off theoretical 0
sd(x) # 0.9810307 - not far from theoretical 1
sd(x)/sqrt(length(x)) # standard error of mean 0.1791109

प्रश्न: इसमें माध्य और मानक विचलन के लिए सटीक (जब दोहरी परिशुद्धता संख्याओं का एक सदिश हो) विस्तार से बताया गया है और एक सरल आर शैक्षणिक फ़ंक्शन लिखें जो महत्वपूर्ण अंकों की औसत संख्या और मानक विचलन को प्रिंट करेगा। वेक्टर में परिलक्षित होता है x


मुझे समझ में नहीं आता कि "एक तालिका में डालने के लिए महत्वपूर्ण आंकड़ों की संख्या" आपके प्रश्न को पूरी तरह से संबोधित क्यों नहीं करती है: उस प्रश्न का क्या मतलब है?
whuber

मुझे उस प्रश्न @ उत्तर के लिए आपका उत्तर पसंद है, लेकिन मैं थोड़ा और विस्तार चाहूंगा।
सीन 18

1
लेकिन विस्तार से क्या? किसी भी घटना में, यह लग रहा है कि आपका प्रश्न वास्तव में उस एक का एक सटीक डुप्लिकेट है और आप इसके उत्तर में सुधार देखना चाहते हैं क्या मैं सही हूँ? BTW, यदि आप शैक्षणिक मार्गदर्शन की तलाश में हैं, तो मैं आपको एक (विशेष) उदाहरण की ओर इशारा करना चाहूंगा , जिसे मैंने gis.stackexchange.com/questions/8650 पर पोस्ट किया है, जो भौगोलिक निर्देशांक की रिपोर्टिंग कर रहा है : विचार यह है कि महत्वपूर्ण संख्याओं को संबद्ध करना है। वस्तुओं के साथ अंक जिनके आकार अधिकांश पाठक आसानी से और सहज ज्ञान युक्त समझेंगे। एक समान दृष्टिकोण अन्य अनुप्रयोगों में अच्छी तरह से काम कर सकता है।
whuber

1
@whuber हाँ आप सही हैं, और मुझे वह उदाहरण पसंद है। मुझे लगता है कि मैं मानक विचलन से संबंधित कैसे परिशुद्धता के बारे में अधिक विस्तार की तलाश कर रहा हूं। जैसे आर में, एक्स <- rnorm (30); (x) मतलब; sd (x) # यहाँ स्पष्ट रूप से sd लगभग 1 है, लेकिन R में माध्य को सटीक रूप से 7 अंको के साथ मुद्रित किया जाता है। sd (x) / 30 लगभग 0.18 है। साभार
सीन

में R(साथ ही लगभग सभी सॉफ्टवेयर) मुद्रण को वैश्विक मूल्य (देखें options(digits=...)) द्वारा नियंत्रित किया जाता है , न कि किसी भी सटीकता के विचार से।
व्हीबर

जवाबों:


9

माप में अनिश्चितता के लिए गाइड (GUM) की सिफारिश है कि अनिश्चितता को 2 अंकों से अधिक नहीं के साथ रिपोर्ट किया जाना चाहिए और परिणाम को अनिश्चितता के अनुरूप बनाने के लिए आवश्यक महत्वपूर्ण अंकों की संख्या के साथ रिपोर्ट किया जाना चाहिए। नीचे अनुभाग 7.2.2 देखें

http://www.bipm.org/utils/common/documents/jcgm/JCGM_100_2008_E.pdf

निम्नलिखित कोड आर नोए में इस सिफारिश को लागू करने का मेरा प्रयास था कि आर आउटपुट में अनुगामी शून्य को बनाए रखने के प्रयासों के साथ असहयोगी हो सकता है, भले ही वे महत्वपूर्ण हों।

gumr <- function(x.n,x.u) {
  z2 <- trunc(log10(x.u))+1
  z1 <- round(x.u/(10^z2),2)
  y1 <- round(x.n*10^(-z2),2)
  list(value=y1*10^z2,uncert=z1*10^z2)
}

x.val <- 8165.666
x.unc <- 338.9741
gumr(x.val,x.unc)

पूर्णता के लिए: > gumr(x.val,x.unc) $value [1] 8170 $uncert [1] 340
rhombidodecahedron

@rhombidodecahedron क्या अनिश्चितता का केवल एक महत्वपूर्ण आंकड़ा नहीं होना चाहिए ? 82
jfs

@jfs अनिश्चितता में दो महत्वपूर्ण आंकड़ों का उपयोग करने के लिए कहता है, क्या ऐसा नहीं होता है?
rhombidodecahedron

@rhombidodecahedron का उत्तर है "2 से अधिक नहीं" GUM में मानदंड मेरे लिए अस्पष्ट हैं। Arxiv.org/pdf/1301.1034.pdf से तालिका 3 , 7 से कम मापों के लिए रिपोर्ट करने के लिए 1 महत्वपूर्ण अंक का सुझाव देती है।
12

उदाहरण कोड सुझाए गए GUM नियम का पालन नहीं करता है। तो val = 8165.666और unc = 338.9741, माप के रूप में सूचित किया जाना चाहिए val = 8.17(34)*10^3(नहीं val = 8170के साथ unc = 340के रूप में दिया), स्पष्ट करना है कि अनिश्चितता के केवल दो अंक महत्वपूर्ण हैं।
divenex

6

यदि आप विश्वास अंतराल के साथ-साथ आँकड़ा के मूल्य को भी दिखाते हैं, तो आपकी इच्छा के अनुसार कई महत्वपूर्ण आंकड़े देने में कोई समस्या नहीं है, क्योंकि उस मामले में बड़ी संख्या में महत्वपूर्ण आंकड़े सटीक रूप से सटीक नहीं होते हैं क्योंकि आत्मविश्वास अंतराल देता है संभावित वास्तविक परिशुद्धता का एक संकेत (एक विश्वसनीय अंतराल बेहतर होगा)। यह तब अनिवार्य रूप से तालिका को साफ, संक्षिप्त और पठनीय बनाने की बात है, इसलिए अनिवार्य रूप से एक सरल नियम होने की संभावना नहीं है जो सभी अवसरों के अनुरूप हो।

वैज्ञानिक अध्ययनों में पुनरावृत्ति महत्वपूर्ण है, इसलिए आदर्श रूप से किसी भी संख्या में सिगिनिफेकेंट आंकड़े (चाहे वे व्यावहारिक महत्व के हों या नहीं) के परिणामों को पुन: उत्पन्न करना संभव है। कम संख्या में महत्वपूर्ण आंकड़ों का अध्ययन एक अध्ययन की प्रतिकृति में आत्मविश्वास को कम कर सकता है क्योंकि परिणामों के दौर से त्रुटियों का सामना किया जा सकता है, इसलिए कुछ परिस्थितियों में राउंडिंग के लिए एक संभावित नकारात्मक पहलू है।

एक और कारण बहुत दूर तक नहीं है, यह वास्तव में इसे दोहराए बिना दूसरों के लिए अपने अध्ययन का विस्तार करना असंभव बना सकता है। उदाहरण के लिए, मैं एक पेपर प्रकाशित कर सकता हूं जो कि फ्रीडमैन टेस्ट का उपयोग करके विभिन्न मशीन लर्निंग एल्गोरिदम की तुलना करता है, जो बेंचमार्क डेटासेट के सेट पर विभिन्न एल्गोरिदम की रैंकिंग पर निर्भर करता है। यदि प्रत्येक डेटासेट पर अलग-अलग क्लासिफायर के आंकड़े उनके मानक त्रुटियों के आधार पर कई महत्वपूर्ण आंकड़े दिए जाते हैं, तो यह निस्संदेह रैंकिंग में कई स्पष्ट संबंध बनाएगा। इसका मतलब यह है कि (i) पेपर के एक पाठक / समीक्षक, पेपर में दिए गए परिणामों से फ्रीडमैन टेस्ट को दोहराने में असमर्थ होंगे और (ii) कोई और व्यक्ति बेंचमार्क डेटासेट पर अपने एल्गोरिथ्म का मूल्यांकन करने और फ्रीडमैन का उपयोग करने में असमर्थ होगा मेरे अध्ययन से परिणामों के संदर्भ में इसे रखने के लिए परीक्षण करें।


4

निश्चित रूप से किसी भी निर्णय, उद्देश्यपूर्ण या विषयगत रूप से, यह इस बात पर निर्भर करेगा कि आप क्या माप रहे हैं, और माप का आपका उपकरण कितना सटीक है। उत्तरार्द्ध मनाया भिन्नता का सिर्फ एक हिस्सा है, और इसके लिए मौजूदा सबूतों को समझने या खोजने के लिए हमेशा आसान नहीं होता है। इस प्रकार मुझे दृढ़ता से संदेह है कि कोई उद्देश्य, सार्वभौमिक रूप से लागू निर्णय नहीं है। आपको बस अपने मस्तिष्क का उपयोग करना है और प्रत्येक स्थिति में सबसे अच्छा निर्णय लेना है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.