सांख्यिकीय परीक्षण यह देखने के लिए कि क्या संबंध रैखिक या गैर-रैखिक है


9

मेरे पास एक उदाहरण डेटा सेट निम्नानुसार है:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

यहाँ छवि विवरण दर्ज करें

आकृति से, यह सुझाव दिया जा सकता है कि 'वॉल्यूम' और 'पावर' की एक निश्चित सीमा के बीच संबंध रैखिक है, फिर जब 'वॉल्यूम' अपेक्षाकृत छोटा हो जाता है तो संबंध गैर-रैखिक हो जाता है। क्या इसे दर्शाने के लिए कोई सांख्यिकीय परीक्षण है?

ओपी के जवाबों में दिखाई गई कुछ सिफारिशों के संबंध में:

यहां दिखाया गया उदाहरण केवल एक उदाहरण है, मेरे द्वारा देखे गए डेटासेट यहां देखे गए रिश्ते के समान हैं, हालांकि नोइज़ियर। मैंने अब तक किए गए विश्लेषण से पता चलता है कि जब मैं किसी विशिष्ट तरल की मात्रा का विश्लेषण करता हूं, तो कम मात्रा होने पर एक सिग्नल की शक्ति काफी बढ़ जाती है। तो, मान लीजिए कि मेरे पास केवल एक ऐसा वातावरण था जहां मात्रा 15 और 20 के बीच थी, यह लगभग एक रैखिक संबंध जैसा दिखेगा। हालांकि, अंकों की सीमा में वृद्धि करने से यानी छोटे वॉल्यूम होने से, हम देखते हैं कि संबंध बिल्कुल रैखिक नहीं है। मैं अब कुछ सांख्यिकीय सलाह की तलाश कर रहा हूं कि यह कैसे सांख्यिकीय रूप से दिखाया जाए। आशा है कि यह समझ में आता है।


5
यहां कई चीजें चल रही हैं। सबसे पहले, निश्चित रूप से एक संबंध रैखिक दिखाई देगा, बशर्ते कि चर की सीमाएं उपयुक्त रूप से प्रतिबंधित हों। दूसरा, डेटा की विषमता लगभग गैर-प्रमुख संबंध के रूप में एक विशेषता है: बिखराव उच्च मात्रा में अधिक होता है और कम मात्रा और उच्च शक्तियों की तुलना में कम शक्तियों में होता है। भले ही, आप वास्तव में क्या परीक्षण करना चाहते हैं? संपूर्ण श्रेणी में संबंध की रैखिकता?
whuber

4
दरअसल, मैं विषमलैंगिकता के बारे में टिप्पणी वापस लेना चाहूंगा: साजिश इस तरह की उपस्थिति देती है , लेकिन यह कम मात्रा में अपेक्षाकृत खड़ी ढलानों के कारण एक भ्रम है। (शक्ति के संदर्भ में वॉल्यूम, हालांकि, एक अत्यंत विषमलैंगिक संबंध है।) एक बार जब हम यह निर्धारित करते हैं कि सत्ता में भिन्नता विषमलैंगिक नहीं है , तो यह कुछ प्रकार के विश्लेषणों को नियमबद्ध करता है (हम सत्ता के गैर-रूपांतरणों को लागू नहीं करना चाहेंगे) और सुझाव देते हैं दूसरों के पक्ष में (जैसे कि नॉनलाइनियर कम से कम वर्ग या एक सामान्यीकृत रैखिक मॉडल), एक बार ग़ैर-स्पष्टता स्थापित हो जाती है।
whuber

मैंने अब हाथ में समस्या का एक संक्षिप्त विवरण जोड़ा है। आपकी टिप्पणियों के लिए अब तक धन्यवाद, ये वास्तव में सराहना कर रहे हैं और मुझे समस्या के माध्यम से सोचने में मदद कर रहे हैं।
KatyB

द्विघात प्रभाव के लिए परीक्षण क्यों नहीं?
आदमो

2
@ साइमन मैंने किसी भी परीक्षण का उपयोग नहीं किया है, लेकिन फिर भी आप देख सकते हैं कि यह वॉल्यूम के खिलाफ अवशिष्ट के विशिष्ट आकार की साजिश रचकर समरूपता है। यहाँ कुछ है Rकोड: plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue")। यह पूरी श्रृंखला में लगभग स्थिर अवशिष्ट आकार दिखाता है।
whuber

जवाबों:


4

यह मूल रूप से एक मॉडल चयन समस्या है। मैं आपको शारीरिक रूप से प्रशंसनीय मॉडल (रैखिक, घातांक, शायद एक अव्यवस्थित रैखिक संबंध) के एक सेट का चयन करने के लिए प्रोत्साहित करता हूं और सबसे अच्छा चयन करने के लिए Akaike Information Criterion या Bayesian Information Criterion का उपयोग करता है - यह ध्यान में रखते हुए कि @whuber इंगित करता है।


2

क्या आपने इसे देखने की कोशिश की है !? ऐसा करने का एक तरीका उच्च शक्ति या अन्य गैर रेखीय शर्तों को अपने मॉडल में फिट करना है और परीक्षण करना है कि क्या उनके गुणांक 0 से काफी भिन्न हैं।

यहाँ कुछ उदाहरण http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf

आपके मामले में आप अपने डेटा को दो खंडों में विभाजित करने के लिए गैर-रैखिकता के लिए परीक्षण करना चाहते हैं <5 और मात्रा> 5 के लिए रैखिकता।

आपके पास दूसरी समस्या यह है कि आपका डेटा हेट्रोसेकेडिक है, जो प्रतिगमन डेटा के लिए सामान्य धारणा का उल्लंघन करता है। प्रदान किया गया लिंक इसके लिए परीक्षण के उदाहरण भी देता है।


लिंक टूट गया है।
जतिन

2

मैं आपके सभी डेटा के लिए एक मॉडल को फिट करने के लिए नॉनलाइनर रिग्रेशन का उपयोग करने का सुझाव देता हूं। मनमाना आयतन चुनने और एक मॉडल को उससे कम मात्रा में और दूसरे मॉडल को बड़े संस्करणों में फिट करने का क्या मतलब है? क्या कोई कारण है, आकृति की नज़र से परे, एक तेज दहलीज के रूप में 5 का उपयोग करने के लिए? क्या आप वास्तव में मानते हैं कि एक विशेष वॉल्यूम सीमा के बाद, आदर्श वक्र रैखिक है? क्या यह अधिक संभावना नहीं है कि यह मात्रा में वृद्धि के रूप में क्षैतिज है, लेकिन कभी भी रैखिक नहीं है?

बेशक, विश्लेषण उपकरण का चयन इस बात पर निर्भर करता है कि आप किन वैज्ञानिक सवालों के जवाब देने की कोशिश कर रहे हैं और सिस्टम के पूर्व ज्ञान।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.