शून्य की लॉग लेने से बचने के लिए x को कितनी छोटी मात्रा में जोड़ा जाना चाहिए?


57

मैंने अपने डेटा का विश्लेषण किया है क्योंकि वे हैं। अब मैं सभी चर का लॉग लेने के बाद अपने विश्लेषणों को देखना चाहता हूं। कई चर में कई शून्य होते हैं। इसलिए मैं शून्य की लॉग लेने से बचने के लिए एक छोटी मात्रा जोड़ता हूं।

अब तक मैंने 10 ^ -10 जोड़ दिए हैं, बिना किसी तर्क के, वास्तव में, सिर्फ इसलिए कि मुझे ऐसा लगता है कि बहुत कम मात्रा में जोड़ना मेरे मनमाने ढंग से चुनी गई मात्रा के प्रभाव को कम करने के लिए उचित होगा। लेकिन कुछ चर में ज्यादातर शून्य होते हैं, और इसलिए जब ज्यादातर -23.02 लॉग इन किया जाता है। मेरे चर की सीमाओं की सीमा 1.33-8819.21 है, और शून्य की आवृत्ति भी नाटकीय रूप से बदलती है। इसलिए "छोटी मात्रा" की मेरी व्यक्तिगत पसंद चर को बहुत अलग तरीके से प्रभावित करती है। यह अब स्पष्ट है कि 10 ^ -10 पूरी तरह से अस्वीकार्य विकल्प है, क्योंकि सभी चर में अधिकांश विचरण तब इस मनमाने "छोटी मात्रा" से आता है।

मुझे आश्चर्य है कि ऐसा करने का एक और सही तरीका क्या होगा।

शायद यह प्रत्येक चर अलग-अलग वितरण से मात्रा प्राप्त करने के लिए बेहतर है? क्या इस बारे में कोई दिशानिर्देश हैं कि यह "छोटी मात्रा" कितनी बड़ी होनी चाहिए?

मेरे विश्लेषण प्रत्येक चर और आयु / लिंग के साथ IV के रूप में ज्यादातर सरल कॉक्स मॉडल हैं। चर विभिन्न रक्त लिपिडों की सांद्रता हैं, जिनमें अक्सर भिन्नता के काफी गुणांक होते हैं।

संपादित करें : चर का सबसे छोटा गैर-शून्य मान जोड़ना मेरे डेटा के लिए व्यावहारिक लगता है। लेकिन शायद एक सामान्य समाधान है?

संपादित करें 2 : जैसा कि शून्य केवल पहचान सीमा से नीचे सांद्रता को इंगित करता है, हो सकता है कि उन्हें (पहचान सीमा) / 2 पर सेट करना उचित होगा?


4
आप टिप्पणियों / चरों का क्यों ले रहे हैं ? log

2
यदि आप अपने चर में जोड़ते हैं , तो जो वेरिएबल ओरिजिनल स्केल पर जीरो थे, वे लॉग स्केल पर जीरो होंगे। 1
मॉन्सट

5
क्या आपके पास प्रतिक्रिया चर या केवल व्याख्यात्मक चर के साथ यह मुद्दा है? यदि केवल उत्तरार्द्ध है, तो नमूना आकार के आधार पर एक विकल्प अतिरिक्त डमी वैरिएबल को जोड़ने के लिए हो सकता है जो किसी दिए गए विश्लेषण की एकाग्रता का संकेत देता है, जो कि थ्रेसहोल्ड के नीचे था। यह स्वतंत्रता की डिग्री को बढ़ाता है, लेकिन डेटा पर एक मनमाना तदर्थ पसंद न करने का लाभ है। यह भी पता लगाने दहलीज है कि अन्यथा के लिए जिम्मेदार हो सकता है के पास nonlinearities या discontinuities को उजागर कर सकता है।
कार्डिनल

2
@ प्रोक्रेस्टिनेटर लॉग स्केल संतुलन के लिए घातीय संबंध स्थिर और गिब्स ऊर्जा के कारण सांद्रता के लिए स्वाभाविक है; वास्तव में "निरंतर" रसायन विज्ञान में 0 एकाग्रता कुछ अवास्तविक है।

2
डेटा का घनमूल लेने के लिए एक विकल्प होगा - आपको लॉग में आने के लिए सभी रास्ते नहीं मिलते हैं, लेकिन जीरो w / o rescaling को संरक्षित करता है।
जूलमैन

जवाबों:


26

जैसा कि शून्य केवल पता लगाने की सीमा के नीचे सांद्रता का संकेत देता है, हो सकता है कि उन्हें (पहचान सीमा) / 2 पर सेट करना उचित होगा

मैं बस टाइप कर रहा था कि मेरे दिमाग में वह बात आती है जहाँ लॉग (अक्सर) समझ में आता है और 0 तब हो सकता है जब आपने दूसरा एडिट किया हो। जैसा कि आप कहते हैं, मापा सांद्रता के लिए 0 का अर्थ है "मैं उस कम सांद्रता को माप नहीं सकता"।

ध्यान दें: क्या आपको LOD की बजाय LOQ से मतलब है?

चाहे 0 से 1 सेट करना हो12 LOQ एक अच्छा विचार है या नहीं निर्भर करता है:

  • इस दृष्टि से कि 12LOQआपका "अनुमान" है जो व्यक्त करता है कि c 0 और LOQ के बीच कहीं भी है, इसका कोई मतलब नहीं है।
    लेकिन संबंधित अंशांकन फ़ंक्शन
    यहाँ छवि विवरण दर्ज करेंयहाँ छवि विवरण दर्ज करें
    परविचार करें:बाईं ओर, अंशांकन फ़ंक्शन LOQ के नीचे c = 0 देता है। दाईं ओर,12LOQ0 के बजाय 2 LOQका उपयोग किया जाता है।

  • हालांकि, यदि मूल मापा मूल्य उपलब्ध है, तो यह एक बेहतर अनुमान प्रदान कर सकता है। सब के बाद, LOQ आमतौर पर इसका मतलब है कि सापेक्ष त्रुटि 10% है। नीचे कि माप अभी भी जानकारी लेती है, लेकिन सापेक्ष त्रुटि बहुत बड़ी हो जाती है।
    यहाँ छवि विवरण दर्ज करें
    (नीला: LOD, लाल: LOQ)

  • इन मापों को बाहर करने का एक विकल्प होगा। यह उचित हो सकता है,
    उदाहरण के लिए , अंशांकन वक्र के बारे में सोचें। व्यवहार में आप अक्सर एक सिग्मॉइड आकृति का निरीक्षण करते हैं: निम्न सी के लिए, संकेत intermedi स्थिर, मध्यवर्ती रैखिक व्यवहार, फिर डिटेक्टर संतृप्ति। यहाँ छवि विवरण दर्ज करें
    उस स्थिति में आप अपने आप को उन सांद्रता के बयानों तक सीमित करना चाहते हैं जो स्पष्ट रूप से रैखिक सीमा में हैं क्योंकि नीचे और ऊपर दोनों अन्य प्रक्रियाएं परिणाम को भारी रूप से प्रभावित करती हैं।
    सुनिश्चित करें कि आप समझाते हैं कि डेटा को इस तरह चुना गया था और क्यों।


संपादित करें: क्या समझदार या स्वीकार्य है, समस्या पर निर्भर करता है। उम्मीद है, हम यहां डेटा के एक छोटे हिस्से के बारे में बात कर रहे हैं जो विश्लेषण को प्रभावित नहीं करता है।

हो सकता है कि एक त्वरित और गंदी जाँच यह हो: अपना डेटा विश्लेषण डेटा को छोड़कर या उसके बिना चलाएं (या जो भी उपचार आप प्रस्तावित करते हैं) और देखें कि क्या कुछ भी पर्याप्त रूप से बदलता है।

यदि आप परिवर्तन देखते हैं, तो निश्चित रूप से आप मुश्किल में हैं। हालाँकि, विश्लेषणात्मक रसायन विज्ञान के दृष्टिकोण से, मैं कहूंगा कि आपकी समस्या मुख्य रूप से झूठ नहीं है कि आप डेटा से निपटने के लिए किस पद्धति का उपयोग करते हैं, लेकिन अंतर्निहित समस्या यह है कि विश्लेषणात्मक विधि (या इसकी कार्य सीमा) के लिए उपयुक्त नहीं थी हाथ में समस्या। बेशक ऐसा क्षेत्र है जहां बेहतर सांख्यिकीय दृष्टिकोण आपके दिन को बचा सकता है, लेकिन अंत में सन्निकटन "कचरा में, कचरा बाहर" आमतौर पर अधिक फैंसी तरीकों के लिए भी रखता है।

विषय के लिए कोटेशन:

  • एक सांख्यिकीविद् ने एक बार मुझसे कहा था:

    आपके (केमिस्ट / स्पेक्ट्रोस्कोपिस्ट) के साथ समस्या यह है कि आपकी समस्याएँ इतनी कठिन हैं कि उन्हें हल नहीं किया जा सकता है या इतना आसान नहीं है कि उन्हें हल करने में कोई मज़ा नहीं है।

  • प्रयोगों के सांख्यिकीय पोस्टमार्टम के बारे में फिशर


1
मुझे नीचे (+1) उद्धरण पसंद है।
मोनिका

32

रासायनिक एकाग्रता डेटा में अक्सर शून्य होते हैं, लेकिन ये शून्य मानों का प्रतिनिधित्व नहीं करते हैं : वे कोड हैं जो विभिन्न (और भ्रामक) दोनों नॉनडेट्स का प्रतिनिधित्व करते हैं (माप इंगित किया गया है, उच्च स्तर की संभावना के साथ, कि विश्लेषण मौजूद नहीं था) और "अयोग्य" मान (माप ने विश्लेषण का पता लगाया है, लेकिन एक विश्वसनीय संख्यात्मक मूल्य का उत्पादन नहीं कर सकता है)। चलो बस अस्पष्ट रूप से इन "एनडी" को यहां कहते हैं।

आमतौर पर, एक एनडी से जुड़ी एक सीमा होती है जिसे "डिटेक्शन लिमिट," "क्वांटिटेशन लिमिट," या (बहुत अधिक ईमानदारी से) "रिपोर्टिंग लिमिट" के रूप में जाना जाता है, क्योंकि प्रयोगशाला एक संख्यात्मक मान प्रदान करने का विकल्प चुनती है (अक्सर कानूनी रूप से) कारणों)। सभी के बारे में हम वास्तव में एक एनडी के बारे में जानते हैं कि सही मूल्य सम्बद्ध सीमा से कम है: यह लगभग (लेकिन बिल्कुल नहीं) बाएं सेंसर का एक रूप है1.3301.330.50.1

पिछले 30 वर्षों में गहन शोध किया गया है और इस तरह के डेटासेट को संक्षेप में प्रस्तुत करने और मूल्यांकन करने के लिए सबसे अच्छा है। डेनिस हेलसेल ने इस पर एक किताब प्रकाशित की, नोंडेट्स एंड डेटा एनालिसिस (विले, 2005), एक पाठ्यक्रम पढ़ाता है, और Rकुछ तकनीकों के आधार पर एक पैकेज जारी किया जिसका उन्होंने पक्ष लिया। उनकी वेबसाइट व्यापक है।

यह क्षेत्र त्रुटि और गलत धारणा से भरा है। हेल्सेल इस बारे में स्पष्ट हैं: अपनी पुस्तक के अध्याय 1 के पहले पृष्ठ पर वे लिखते हैं,

... आज पर्यावरण अध्ययन में सबसे अधिक इस्तेमाल की जाने वाली विधि, एक-आध का पता लगाने की सीमा का प्रतिस्थापन, सेंसर किए गए डेटा की व्याख्या करने के लिए एक उचित तरीका नहीं है।

इसलिए क्या करना है? विकल्प में इस अच्छी सलाह की अनदेखी करना, हेलसेल की पुस्तक में कुछ तरीकों को लागू करना और कुछ वैकल्पिक तरीकों का उपयोग करना शामिल है। यह सही है, पुस्तक व्यापक नहीं है और वैध विकल्प मौजूद नहीं हैं। डेटासेट में सभी मानों को जोड़ना (उन्हें "शुरू करना") एक है। पर विचार करें:

  • 111

  • 0

    प्रारंभ मूल्य का निर्धारण करने के लिए एक उत्कृष्ट उपकरण एक लॉगऑनॉर्मल प्रायिकता प्लॉट है: एनडी के अलावा, डेटा लगभग रैखिक होना चाहिए।

  • एनडी के संग्रह को तथाकथित "डेल्टा लॉगेनॉर्मल" वितरण के साथ भी वर्णित किया जा सकता है। यह एक बिंदु द्रव्यमान और एक लॉगनॉर्मल का मिश्रण है।

जैसा कि नकली मूल्यों के निम्नलिखित हिस्टोग्राम में स्पष्ट है, सेंसर और डेल्टा वितरण समान नहीं हैं। प्रतिगमन में व्याख्यात्मक चर के लिए डेल्टा दृष्टिकोण सबसे उपयोगी है: आप NDs को इंगित करने के लिए "डमी" वैरिएबल बना सकते हैं, ज्ञात मानों के लॉगरिदम ले सकते हैं (या अन्यथा उन्हें आवश्यकतानुसार रूपांतरित कर सकते हैं), और NDs के प्रतिस्थापन मूल्यों के बारे में चिंता न करें। ।

हिस्टोग्राम

इन हिस्टोग्राम में, शून्य मानों का स्थान लगभग 20% ने ले लिया है। तुलनात्मकता के लिए, वे सभी एक ही 1000 सिम्युलेटेड अंतर्निहित लॉगनॉर्मल वैल्यूज़ (ऊपरी बाएं) पर आधारित हैं। डेल्टा का वितरण यादृच्छिक रूप से शून्य द्वारा 200 मानों को प्रतिस्थापित करके बनाया गया था । सेंसर का वितरण शून्य से 200 सबसे छोटे मूल्यों को बदलकर किया गया था । "यथार्थवादी" वितरण मेरे अनुभव के अनुरूप है, जो यह है कि रिपोर्टिंग सीमा वास्तव में व्यवहार में भिन्न होती है (तब भी जब वह प्रयोगशाला द्वारा नहीं होती है!): मैंने उन्हें यादृच्छिक रूप से भिन्न किया (केवल थोड़ा सा, शायद ही कभी 30 से अधिक में। या तो दिशा) और शून्य द्वारा उनकी रिपोर्टिंग सीमा से कम सभी नकली मूल्यों को प्रतिस्थापित किया।

प्रायिकता प्लॉट की उपयोगिता दिखाने और इसकी व्याख्या करने के लिए , अगला आंकड़ा पूर्ववर्ती डेटा के लॉगरिथम से संबंधित सामान्य संभावना प्लॉट प्रदर्शित करता है।

प्रायिकता के प्लॉट

log(1+0)=0) बहुत कम प्लॉट किए जाते हैं। निचले बाएँ 120 के प्रारंभ मान के साथ सेंसर किए गए डेटासेट के लिए एक प्रायिकता प्लॉट है, जो एक विशिष्ट रिपोर्टिंग सीमा के करीब है। नीचे बाईं ओर का फिट अब सभ्य है - हम केवल यह आशा करते हैं कि ये सभी मूल्य कहीं न कहीं, लेकिन दाईं ओर, सज्जित रेखा पर आते हैं - लेकिन ऊपरी पूंछ में वक्रता दर्शाती है कि 120 जोड़ना परिवर्तन को शुरू करना है वितरण का आकार। निचला दायाँ हिस्सा दिखाता है कि डेल्टा-लोगनॉर्मल डेटा का क्या होता है: ऊपरी पूंछ के लिए एक अच्छा फिट है, लेकिन रिपोर्टिंग सीमा (साजिश के मध्य में) के पास कुछ स्पष्ट वक्रता है।

अंत में, आइए कुछ अधिक यथार्थवादी परिदृश्यों का पता लगाएं:

संभाव्यता भूखंड २

ऊपरी बाएँ रिपोर्टिंग सीमा के लिए शून्य सेट के साथ सेंसर किए गए डेटासेट को दिखाता है। यह काफी अच्छा फिट है। ऊपरी दाईं ओर अधिक यथार्थवादी डेटासेट (बेतरतीब ढंग से बदलती रिपोर्टिंग सीमाओं के साथ) है। 1 का एक स्टार्ट वैल्यू मदद नहीं करता है, लेकिन - निचले बाएँ पर - 120 के स्टार्ट वैल्यू (रिपोर्टिंग सीमा के ऊपरी सीमा के पास) के लिए फिट काफी अच्छा है। दिलचस्प बात यह है कि एनडी से मात्राओं के मूल्यों में वृद्धि के बीच मध्य के पास की वक्रता डेल्टा लॉगानॉर्मल वितरण की याद ताजा करती है (भले ही ये डेटा इस तरह के मिश्रण से उत्पन्न नहीं हुए थे)। निचले दाईं ओर आपको संभावित प्लॉट मिलता है जब यथार्थवादी डेटा में उनके एनडी को एक-आध (सामान्य) रिपोर्टिंग सीमा द्वारा प्रतिस्थापित किया जाता है। यह सबसे अच्छा फिट है, भले ही यह बीच में कुछ डेल्टा-लोगनॉर्मल व्यवहार को दर्शाता है।

तब आपको क्या करना चाहिए, वितरण की खोज के लिए संभाव्यता भूखंडों का उपयोग करना चाहिए क्योंकि ND के स्थान पर विभिन्न स्थिरांक का उपयोग किया जाता है। एक-आधा नाममात्र, औसत, रिपोर्टिंग सीमा के साथ खोज शुरू करें , फिर इसे ऊपर और नीचे से अलग-अलग करें। एक ऐसा भूखंड चुनें जो नीचे दाईं ओर दिखता हो: परिमाणित मानों के लिए लगभग एक विकर्ण सीधी रेखा, एक निम्न पठार के लिए एक त्वरित ड्रॉप-ऑफ और मूल्यों का एक पठार जो (बस मुश्किल से) विकर्ण के विस्तार से मिलता है। हालांकि, वास्तविक सांख्यिकीय सारांश के लिए, हेल्सेल की सलाह (जो साहित्य में दृढ़ता से समर्थित है) का पालन करते हुए, किसी भी विधि को एनडीएस द्वारा प्रतिस्थापित करने से बचें। प्रतिगमन के लिए, एनडी को इंगित करने के लिए डमी चर में जोड़ने पर विचार करें। कुछ ग्राफिकल डिस्प्ले के लिए, संभावना प्लॉट एक्सरसाइज के साथ मिलने वाले मूल्य से एनडी का निरंतर प्रतिस्थापन अच्छी तरह से काम करेगा। अन्य चित्रमय प्रदर्शनों के लिए वास्तविक रिपोर्टिंग सीमाओं का चित्रण करना महत्वपूर्ण हो सकता है, इसलिए NDs को उनकी रिपोर्टिंग सीमाओं द्वारा प्रतिस्थापित करें। आपको लचीला होना चाहिए!


1
बहुत अच्छा जवाब! मैं पूरी तरह से सहमत। और मैं उस भावना से परिचित हूं जब आप डेटा को देखते हैं और महसूस करते हैं कि इससे पहले कि यह "हमेशा की तरह" रूपांतरित हो गया है, एक पूरी तरह से उपयोगी डेटा सेट था ...
cbeleites

1
अलग-अलग सीमाएँ : दोनों LOD (गुणात्मक उत्तरों के लिए पता लगाने की सीमा) और LOQ (परिमाणीकरण की सीमा, जो मात्रात्मक माप के लिए है) की गणना के लिए कई अलग-अलग दृष्टिकोण मौजूद हैं। मुझे लगता है कि एक प्रयोगशाला आमतौर पर इस पद्धति को नहीं बदलेगी कि इनकी गणना कैसे की जाती है (उसी आयुर्वेदिक विधि के लिए)। हालांकि, गणना किए जाने पर हर बार इन मूल्यों को पुनर्गणना किया जाता है। यदि विधि को हर कार्य दिवस में अंशांकन की आवश्यकता है, तो हर दिन आपको एक (थोड़ी) अलग सीमा होगी।
केलीलाइट्स

1
कम संख्या प्रदान नहीं करने के लिए सीमाएं और कानूनी कारण: कानूनी कारण (अतिरिक्त) कच्चे संकेत, इसी एकाग्रता और विश्वास अंतराल / माप के निर्णय (जैसे "एलओक्यू नीचे") की अधिक मौखिक जानकारी देने से मना नहीं करेंगे। इसके अलावा, आप कैलिब्रेशन वक्र के लिए विश्लेषण प्रयोगशाला पूछ सकते हैं। मुझे उम्मीद है कि आपको इसके लिए भुगतान करना होगा क्योंकि यह अतिरिक्त काम है, लेकिन मैं यह संभव होने की उम्मीद करूंगा। सस्ता समझौता यह हो सकता है कि वे आपको सभी कच्चे डेटा दें और डेटा विश्लेषण को आप पर छोड़ दें। अगर वे जानते हैं कि आप सांख्यिकीविद / रसायनज्ञ / विश्लेषणात्मक रसायनज्ञ / ... हैं तो यह मदद कर सकते हैं
cbeleites

1
मेरी नौकरी में हम अक्सर शून्य का सामना करते हैं क्योंकि डेटा गोल होते हैं। ऐसे मामले में ये समूहीकृत डेटा हैं, आँकड़े
स्टीफन लॉरेंट

2
इस और संबंधित विषयों के लिए एक संपूर्ण क्षेत्र, "केमोमेट्रिक्स" है, और पूरी किताबें लिखी गई हैं (और लिखी जा रही हैं) केवल एक "पता लगाने की सीमा" के साथ काम कर रही है। मैंने 20 से अधिक विशिष्ट परिभाषाओं का सामना किया है! एक चर को फिर से व्यक्त करने का मुद्दा (जैसे कि इसका लघुगणक लेना) डेटा विश्लेषण और डेटा अन्वेषण में भी एक महत्वपूर्ण है; कई पुस्तकों के बड़े हिस्से (विशेष रूप से खोजपूर्ण डेटा विश्लेषण पर किताबें) उस मुद्दे पर ध्यान केंद्रित करते हैं।
whuber


3

आप का शून्य सेट कर सकते हैंithmean(xi)n×stddev(xi)n

ध्यान दें कि कोई भी कृत्रिम सेटअप आपके विश्लेषण को प्रभावित करेगा, इसलिए आपको अपनी व्याख्या से सावधान रहना चाहिए और कुछ मामलों में कलाकृतियों से बचने के लिए इन मामलों को छोड़ देना चाहिए।

डिटेक्शन लिमिट का उपयोग करना भी एक उचित विचार है।


3

प्रतिगमन मॉडल में शून्य के लॉग से निपटने के तरीके को स्पष्ट करने के लिए, हमने एक शैक्षणिक पेपर लिखा है जिसमें सबसे अच्छा समाधान और सामान्य गलतियों के बारे में लोगों को बताया गया है। हम इस मुद्दे से निपटने के लिए एक नया समाधान भी लेकर आए हैं।

आप यहां क्लिक करके पेपर पा सकते हैं: https://ssrn.com/abstract=3444996

log(y)=βlog(x)+εβyx

YY+c>0

हमारे लेख में, हम वास्तव में एक उदाहरण प्रदान करते हैं जहां बहुत छोटे स्थिरांक जोड़ना वास्तव में उच्चतम पूर्वाग्रह प्रदान कर रहा है। हम पूर्वाग्रह की अभिव्यक्ति प्रदान करते हैं।

दरअसल, पॉइसन स्यूडो मैक्सिमम लाइकलीहुड (पीपीएमएल) को इस मुद्दे का अच्छा समाधान माना जा सकता है। एक को निम्नलिखित प्रक्रिया पर विचार करना होगा:

yi=aiexp(α+xiβ)E(ai|xi)=1

βaiyi=0E(ai|xi)=1E(yiexp(α+xiβ)|xi)=0

i=1N(yiexp(α+xiβ))xi=0

yi=0

β

log(yi+exp(α+xiβ))=xiβ+ηi

हम दिखाते हैं कि यह अनुमान निष्पक्ष है और इसका अनुमान जीएमएम के साथ किसी भी मानक सांख्यिकीय सॉफ्टवेयर से लगाया जा सकता है। उदाहरण के लिए, स्टैटा के साथ कोड की सिर्फ एक पंक्ति को निष्पादित करके इसका अनुमान लगाया जा सकता है।

हमें उम्मीद है कि यह लेख मदद कर सकता है और हम आपसे प्रतिक्रिया प्राप्त करना पसंद करेंगे।

क्रिस्टोफ बेलेगो और लुई-डैनियल पपे, क्रेस्ट - इकोले पॉलीटेक्निक - ENSAE

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.