ट्रांसफ़ॉर्मिंग डेटा: सभी चर या केवल गैर-सामान्य वाले?


14

एंडी फील्ड की खोज सांख्यिकी में एसपीएसएस का उपयोग करते हुए वह कहता है कि सभी चर को बदलना होगा।

हालांकि प्रकाशन में: "भौगोलिक रूप से भारित प्रतिगमन I: मॉडल डिजाइन और मूल्यांकन का उपयोग करते हुए भूमि उपयोग और पानी की गुणवत्ता के बीच स्थानिक रूप से भिन्न रिश्तों की जांच" वे विशेष रूप से बताते हैं कि केवल गैर-सामान्य चर को रूपांतरित किया गया था।

क्या यह विश्लेषण विशिष्ट है? उदाहरण के लिए, साधनों की तुलना में, कच्चे डेटा में लॉग की तुलना करना स्पष्ट रूप से एक महत्वपूर्ण अंतर पैदा करेगा, जबकि चर जैसे संबंधों के बारे में जांच करने के लिए प्रतिगमन जैसी किसी चीज का उपयोग करते समय यह कम महत्वपूर्ण हो जाता है।

संपादित करें: यहां "डेटा परिवर्तन" अनुभाग में पूर्ण पाठ पृष्ठ है:

और यहाँ पेपर का लिंक है: http://www.sciencedirect.com/science/article/pii/S0048969708009121


16
आपके द्वारा पोस्ट की गई नई छवि के आधार पर, लेखक "अवलोकन" के साथ "चर" को भ्रमित करता है। पी के शीर्ष पर। 154 वह सही रूप से इस बात पर जोर देता है कि जब आप एक चर को बदलते हैं, तो आपको उसके सभी मूल्यों (टिप्पणियों) को उसी तरह बदलना होगा, अन्यथा किसी भी चीज की तुलना करना असंभव हो जाता है। (यह मानते हुए कि "चरों के बीच संबंधों को नहीं बदलेगा" को सही होने के लिए एक अत्यंत उदार व्याख्या की आवश्यकता होती है।) पी के नीचे। 154 इतना स्पष्ट रूप से गलत है, वाक्य द्वारा वाक्य (यहां तक ​​कि फुटनोट्स में), कि इसके साथ सभी समस्याओं की गणना करने का समय भी नहीं है।
whuber

जवाबों:


17

आप सलाह के कई टुकड़े उद्धृत करते हैं, जिनमें से सभी को मदद करने में कोई संदेह नहीं है, लेकिन इसमें से किसी में बहुत अधिक योग्यता प्राप्त करना मुश्किल है।

प्रत्येक मामले में मैं पूरी तरह से इस बात पर निर्भर करता हूं कि आप सारांश के रूप में क्या कहते हैं। लेखकों के बचाव में मैं यह मानना ​​चाहूंगा कि वे आसपास या अन्य सामग्री में उचित योग्यता जोड़ते हैं। (सामान्य नाम (ओं), तिथि, शीर्षक, (प्रकाशक, स्थान) या (जर्नल शीर्षक, आयतन, पृष्ठ) प्रारूप में पूर्ण ग्रंथ सूची संदर्भ प्रश्न को बढ़ाते हैं।)

खेत

यह सलाह मददगार है, लेकिन सबसे बड़े पैमाने पर बड़े पैमाने पर है। फील्ड की सलाह आम तौर पर अभिप्रेत लगती है; उदाहरण के लिए, लेवेने के परीक्षण का संदर्भ विचरण के विश्लेषण पर कुछ अस्थायी ध्यान केंद्रित करता है।

(1,0)

अधिक आम तौर पर, यह सामान्य है - कई क्षेत्रों में सामान्य स्थिति - कि कुछ भविष्यवाणियों को बदल दिया जाना चाहिए और बाकी को उसी तरह छोड़ दिया जाना चाहिए।

यह सच है कि एक कागज़ात का सामना करना या अलग-अलग भविष्यवक्ताओं के लिए अलग-अलग रूप से लागू किए गए परिवर्तनों के मिश्रण का शोध करना (एक विशेष मामले के रूप में, पहचान परिवर्तन या जैसा है छोड़ना) अक्सर एक पाठक के लिए चिंता का विषय होता है। क्या मिश्रण विकल्पों में से एक अच्छी तरह से सोचा गया सेट है, या यह मनमाना और आकर्षक था?

इसके अलावा, अध्ययन की एक श्रृंखला में दृष्टिकोण की स्थिरता (हमेशा एक प्रतिक्रिया के लिए लघुगणक को लागू करना, या कभी नहीं करना) परिणामों की तुलना करने में बहुत सहायता करता है, और अलग-अलग दृष्टिकोण इसे और अधिक कठिन बना देता है।

लेकिन यह कहना नहीं है कि परिवर्तनों के मिश्रण के कारण कभी नहीं हो सकते हैं।

मैं नहीं देखता कि आपके द्वारा उद्धृत अधिकांश अनुभाग पीले रंग में आपके द्वारा बताई गई प्रमुख सलाह पर बहुत अधिक असर डालते हैं। यह अपने आप में एक चिंता का विषय है: एक निरपेक्ष नियम की घोषणा करना एक अजीब व्यवसाय है और फिर वास्तव में इसे समझाने के लिए नहीं। इसके विपरीत, निषेध "याद" से पता चलता है कि फील्ड के मैदान को पहले किताब में आपूर्ति की गई थी।

अनाम कागज

यहाँ संदर्भ प्रतिगमन मॉडल है। जैसा कि अक्सर, ओएलएस की बात करना मॉडल के बजाय अनुमान पद्धति पर जोर देता है, लेकिन हम समझ सकते हैं कि क्या इरादा है। जीडब्ल्यूआर I भौगोलिक रूप से भारित प्रतिगमन के रूप में विवश है।

यहां तर्क यह है कि आपको गैर-सामान्य भविष्यवाणियों को बदलना चाहिए और दूसरों को छोड़ देना चाहिए। फिर, यह एक सवाल उठाता है कि आप संकेतक चर के साथ क्या कर सकते हैं और क्या करना चाहिए, जो सामान्य रूप से वितरित नहीं किया जा सकता है (जो कि ऊपर बताया जा सकता है कि उस मामले में गैर-सामान्यता इंगित नहीं की जाती है)। लेकिन निषेधाज्ञा का अर्थ यह है कि यह अनुमान लगाने वालों की गैर-सामान्यता है कि समस्या है। ऐसा नहीं; यह भविष्यवाणियों के सीमांत वितरण के बारे में कुछ भी मानने के लिए प्रतिगमन मॉडलिंग का कोई हिस्सा नहीं है।

व्यवहार में, यदि आप भविष्यवाणियों को लगभग सामान्य बनाते हैं, तो आप अक्सर ऐसे परिवर्तनों को लागू करेंगे जो कार्यात्मक रूप बनाते हैंएक्सβ डेटा है, जो मैं परिवर्तन के लिए प्रमुख कारण होने के लिए जोर होगा, त्रुटि पर भारी जोर के बावजूद के लिए सही अधिक लगभग कई ग्रंथों में संरचना। दूसरे शब्दों में, उन्हें सामान्यता के करीब लाने के लिए भविष्यवाणियों को लॉग करना गलत स्थान के लिए सही काम कर सकता है यदि आप परिवर्तित स्थान में रैखिकता के करीब पहुंचते हैं।

इस मंच में परिवर्तनों पर इतनी असाधारण रूप से अच्छी सलाह है कि मैंने इस बात पर ध्यान केंद्रित किया है कि आप क्या चर्चा करते हैं।

पुनश्च आप एक बयान शुरू करते हैं "उदाहरण के लिए, साधनों की तुलना में, लॉग की तुलना कच्चे डेटा से जाहिर तौर पर एक महत्वपूर्ण अंतर होगा।" मुझे स्पष्ट नहीं है कि आपके मन में क्या है, लेकिन एक समूह के लिए मूल्यों की तुलना दूसरे समूह के मानों के लघुगणक के साथ करना केवल निरर्थक होगा। मैं आपके बयान के बाकी हिस्सों को बिल्कुल नहीं समझता।


निक, मैं अपनी बात जल्दी और संक्षिप्त रूप से प्राप्त करना चाहता था, जो मुझे लगता है कि मैंने किया। Google की दुनिया में, मैंने मूल दस्तावेजों तक आसानी से पहुंचने के लिए पर्याप्त जानकारी प्रदान की है, क्या उन्हें आवश्यक होना चाहिए। जवाब देने के लिए धन्यवाद, वैसे भी एक दौर में, आपने मुझे वही जानकारी प्रदान की जो मैं चाह रहा था: सभी चरों को बदलना, जैसा कि फ़ील्ड द्वारा सुझाव दिया गया है, उनके डेटा परिवर्तन अनुभाग में डेटा परिवर्तन के लिए एक गलत दृष्टिकोण है।
मैं हार्ट बीट

14
+1। मैं इस बात पर अचंभित हूं कि आपने कितनी चतुराई से उस सामग्री को संबोधित करने में कामयाबी हासिल की है जो इतनी गलत है। SPSS पुस्तक में यहाँ और वहाँ स्किमिंग पृष्ठ इस साइट पर हमें प्राप्त होने वाले कुछ वास्तव में भ्रमित प्रश्नों की अंतर्दृष्टि प्रदान करते हैं: मुझे लगता है कि उन्हें उस पुस्तक के पाठकों से अवश्य आना चाहिए। यह त्रुटियों, गलत सूचनाओं और एकमुश्त मिलाप से भरा है।
whuber

@ हार्ट बीट्स ने प्रसन्नता जताई कि आपको उत्तर उपयोगी लगा, लेकिन उचित संदर्भ के लिए मेरा अनुरोध उचित है। आप यह भी कह सकते हैं कि अधूरे संदर्भ हमेशा रक्षात्मक होते हैं क्योंकि इच्छुक लोग हमेशा Google कर सकते हैं। इसके विपरीत, अच्छी छात्रवृत्ति और विज्ञान में अच्छी ग्रंथ सूची अभ्यास द्वारा मदद की जाती है, पूर्ण विवरण देने और बनाने के लिए (कई) पाठक अनावश्यक काम नहीं करते हैं।
निक कॉक्स

@ मेरे सवाल में संपादन देखें। मेरा मानना ​​है कि लेख खुला स्रोत है, और मैंने संदर्भ के लिए पाठ का एक पूरा पृष्ठ जोड़ा।
मैं हार्ट बीट

8
संदर्भों को बढ़ाने के लिए धन्यवाद। आपने फ़ील्ड से अधिक उद्धृत किया है। मुखरता सहित एक अतिरिक्त खंड दिखाई देता है जो "डेटा को परिवर्तित करने से चर के बीच संबंधों को नहीं बदलेगा"। या तो "रिश्ते" के एक अज्ञात अर्थ पर pivots, या (अधिक संभावना है, मुझे डर है) यह अनैच्छिक है, वास्तव में काफी गलत है। मुझे खेद है (एक अर्थ में) हमारे सामने सबूत के बारे में सवाल में किताब के बारे में @whuber से सहमत हूं । (अपडेट: व्हीबर अनिवार्य रूप से एक ही बिंदु एक साथ बना रहा था: प्रश्न पर उसकी टिप्पणी देखें।)
निक कॉक्स

10

सबसे पहले, दोनों ही उद्धरण भ्रामक हैं, क्योंकि प्रतिगमन मॉडल में उपयोग के लिए इच्छित डेटा पर लागू किसी भी परिवर्तन को वैरिएबल पीडीएफ को अधिक सामान्य रूप से वितरित करने के लिए नहीं किया जाता है , यह क्लासिक अवशिष्ट में एक अनुमान के बाद से मॉडल अवशिष्ट को अधिक सममित बनाने के लिए किया जाता है। कि गॉसियन त्रुटियां हैं। इसका मतलब है कि एक पीडीएफ को केवल सममित करने की तुलना में कठोरता और कठोरता का गहरा स्तर।

इसके अलावा दोनों उद्धरण इस बात में कमजोर हैं कि दोनों में से कोई भी अपने नुस्खे के लिए प्रेरणा में नहीं आता है (कम से कम उपलब्ध जानकारी के आधार पर)। जैसा कि होता है, मैं दोनों से असहमत हूं।

आपके द्वारा हाइलाइट किए गए मार्ग में, SPSS पुस्तक का दावा है कि परिवर्तनों का मिश्रण (उदाहरण के लिए, एक चर के लिए प्राकृतिक लॉग, दूसरे के लिए वर्गमूल) की अनुमति नहीं है। यह अवैध क्यों है? परिवर्तनों का मिश्रण कोई प्रतिगमन धारणा का उल्लंघन नहीं करता है जिससे मैं अवगत हूं। कृपया पुष्टि करें कि यह मामला है कि पुष्टि करने के लिए प्रतिगमन मान्यताओं पर किसी भी प्रतिगमन ग्रंथों की जांच करें। परिवर्तन मिश्रण उनकी व्याख्या के संदर्भ में एक महत्वपूर्ण वर्णनात्मक समस्या पेश कर सकते हैं , लेकिन यह मिश्रण अवैध है या नहीं, यह सवाल नहीं है। SPSS आदमी गलत है।

जहां तक ​​दूसरा पाठ जाता है, फिर से, रूपांतरण पूरी तरह से विश्लेषक की पसंद का मामला है - चाहे कोई उन्हें बिल्कुल भी करता है, सभी इनपुट या कुछ चर को बदल देता है और दूसरों को नहीं। इसमें से कोई भी किसी भी धारणा का उल्लंघन नहीं करता है।

जहां मुझे लगता है कि दूसरा उद्धरण रेल बंद हो जाता है, "... संभावित बहुसंस्कृति से बचने के लिए ... केवल एक भूमि उपयोग सूचक (उपयोग किया गया था) ..." यह स्पष्ट रूप से बुरी सलाह है और लगता है जैसे इस तरह की चीज़ कुछ विश्लेषक एक आयाम घटाने की तकनीक के रूप में करेंगे, जहाँ वे चर का एक गुच्छा विश्लेषण करेंगे और प्रत्येक कारक पर उच्चतम लोडिंग चर चुनेंगे। यह अनुमान वर्ष के आसपास रहा है और ऐसा कोई नहीं है जिसका मैं या तो उपयोग करता हूं या सिफारिश करता हूं। फिर, यह विश्लेषक की प्राथमिकता और प्रशिक्षण का मामला है। लेकिन यह बिंदु आपके विशिष्ट प्रश्नों का उत्तर देने के लिए लक्षित नहीं है।

दिन के अंत में, दोनों उद्धरण प्रदान की गई जानकारी के आधार पर, किसी भी सहायक सबूत के अभाव में लेखकों की राय के दावे के रूप में सामने आते हैं।


8
हम मोटे तौर पर इसी तरह के बिंदु बनाते हैं, लेकिन मैं यह जोड़ना चाहता हूं कि अच्छे ग्रंथ बताते हैं कि गॉसियन त्रुटियां प्रतिगमन मॉडलिंग में कम से कम महत्वपूर्ण धारणा हैं और कई उद्देश्यों के लिए आवश्यक नहीं हैं।
निक कॉक्स

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.