इनपुट डेटा पर फ़ीचर परिवर्तन


22

मैं इस ओटीटीओ कागले चुनौती के समाधान के बारे में पढ़ रहा था और पहला स्थान समाधान इनपुट डेटा एक्स के लिए कई परिवर्तनों का उपयोग करने के लिए लगता है, उदाहरण के लिए लॉग (X + 1), sqrt (X + 3/8), आदि। सामान्य दिशानिर्देश कब, किस तरह के विभिन्न क्लासिफ़ायर में किस तरह के परिवर्तन लागू होते हैं?

मैं माध्य-वार और न्यूनतम-अधिकतम सामान्यीकरण की अवधारणाओं को समझता हूं। हालांकि, उपरोक्त परिवर्तनों के लिए, मेरा अनुमान है कि लॉग और Sqrt का उपयोग डेटा की गतिशील सीमा को संपीड़ित करने के लिए किया जाता है। और एक्स-एक्सिस शिफ्ट सिर्फ डाटा रिकवर करने के लिए है। हालाँकि, लेखक एक ही इनपुट X के लिए सामान्यीकरण के विभिन्न तरीकों का उपयोग करना चुनता है, जब वह अलग-अलग क्लासीफायर में खिलाता है। कोई विचार?


1
कोई विचार नहीं है जो संभवतः उस तरह के सूत्र का सुझाव दे सकता है, लेकिन आप बॉक्स-कॉक्स परिवर्तनों को देखना चाह सकते हैं, जो चर के लिए घातांक का सुझाव देते हैं।
anymous.asker

जवाबों:


19

हम सामान्य रूप से प्यार करते हैं

ज्यादातर मामलों में हम उन्हें सामान्य की तरह काम करने की कोशिश करते हैं। इसका क्लासीफायर बिंदु नहीं बल्कि इसकी विशेषता निष्कर्षण दृश्य है!

कौन सा परिवर्तन ?

एक परिवर्तन को चुनने में मुख्य मानदंड है: डेटा के साथ क्या काम करता है? जैसा कि ऊपर दिए गए उदाहरणों से संकेत मिलता है, दो प्रश्नों पर विचार करना महत्वपूर्ण है।

भौतिक (जैविक, आर्थिक, जो कुछ भी) समझ में आता है, उदाहरण के लिए व्यवहार को सीमित करने के रूप में मान बहुत छोटे या बहुत बड़े हो जाते हैं? यह प्रश्न अक्सर लघुगणक के उपयोग की ओर जाता है।

क्या हम आयामों और इकाइयों को सरल और सुविधाजनक रख सकते हैं? यदि संभव हो, हम माप तराजू पसंद करते हैं जिसके बारे में सोचना आसान है।

एक खंड की घनमूल और एक क्षेत्र की वर्गमूल दोनों की लंबाई के आयाम हैं, अब तक जटिल मामलों से, ऐसे परिवर्तन उन्हें सरल कर सकते हैं। जैसा कि पहले उल्लेख किया गया है, रेसिप्रोकल्स में आमतौर पर सरल इकाइयाँ होती हैं। अक्सर, हालांकि, कुछ जटिल इकाइयाँ एक बलिदान होती हैं जिन्हें बनाना पड़ता है।

कब क्या उपयोग करें ?

परिचयात्मक डेटा विश्लेषण में सबसे उपयोगी परिवर्तन पारस्परिक, लघुगणक, घनमूल, वर्गमूल, और वर्ग हैं। क्या इस प्रकार है, यहां तक ​​कि जब इस पर जोर नहीं दिया जाता है, तो यह माना जाता है कि परिवर्तनों का उपयोग केवल उन सीमाओं पर किया जाता है, जिस पर वे परिणाम के रूप में वास्तविक संख्या (उपज) देते हैं।

  • पारस्परिक : पारस्परिक, x से 1 / x, अपने भाई के साथ ऋणात्मक पारस्परिक, x से -1 / x, वितरण आकार पर एक कठोर प्रभाव के साथ एक बहुत मजबूत परिवर्तन है। इसे शून्य मानों पर लागू नहीं किया जा सकता है। यद्यपि इसे नकारात्मक मूल्यों पर लागू किया जा सकता है, यह तब तक उपयोगी नहीं है जब तक कि सभी मूल्य सकारात्मक न हों। एक अनुपात के पारस्परिक रूप से अक्सर अनुपात के रूप में आसानी से व्याख्या की जा सकती है: उदाहरण:
    • जनसंख्या घनत्व (प्रति इकाई क्षेत्र के लोग) प्रति व्यक्ति क्षेत्र बन जाता है
    • प्रति व्यक्ति व्यक्ति प्रति व्यक्ति डॉक्टर बन जाता है
    • कटाव की दर एक इकाई गहराई को नष्ट करने का समय बन जाती है

(व्यवहार में, हम कुछ स्थिर, जैसे कि 1000 या 10000, जो कि प्रबंधित करना आसान है, संख्याओं को प्राप्त करने के लिए पारस्परिक रूप से लेने के परिणामों को गुणा या विभाजित करना चाहते हैं, लेकिन इसका स्वयं तिरछा या रैखिकता पर कोई प्रभाव नहीं है।)

पारस्परिक चिह्न एक ही संकेत के मूल्यों के बीच क्रम को उलट देता है: सबसे बड़ा सबसे छोटा हो जाता है, आदि। नकारात्मक पारस्परिक एक ही संकेत के मूल्यों के बीच आदेश को संरक्षित करता है।


  • लघुगणक : लघुगणक, एक्स लोग इन 10 एक्स, या एक्स लॉग पूर्व या ln एक्स, या एक्स लोग इन 2 एक्स, वितरण आकार पर एक बड़ा प्रभाव के साथ एक मजबूत परिवर्तन है। यह आमतौर पर सही तिरछापन को कम करने के लिए उपयोग किया जाता है और अक्सर मापा चर के लिए उपयुक्त होता है। इसे शून्य या नकारात्मक मानों पर लागू नहीं किया जा सकता है। एक लघुगणकीय पैमाने पर एक इकाई का मतलब है कि उपयोग किए जा रहे लघुगणक के आधार से गुणा। घातीय वृद्धि या गिरावट।

    • y=एक्सपी(एक्स)

द्वारा रैखिक बनाया जाता है - ताकि प्रतिक्रिया चर y को लॉग किया जाए। (यहाँ ऍक्स्प () का अर्थ है पावर ई तक बढ़ाना, लगभग 2.71828, जो कि प्राकृतिक लघुगणक का आधार है)। इस घातीय वृद्धि या गिरावट समीकरण पर एक तरफ: , और ताकि एक वह राशि या गणना हो जब x = 0. यदि a और b> 0 है, तो y एक तेज गति से बढ़ता है और तेज दर (जैसे चक्रवृद्धि ब्याज या अनियंत्रित जनसंख्या वृद्धि), जबकि अगर a> 0 और b <0, y धीमी और धीमी दर (जैसे रेडियोधर्मी क्षय) पर गिरावट आती है।एलny=एलn+एक्सएक्स=0y=एक्सपी(0)=


  • बिजली कार्य :
  • y=एक्स को द्वारा रैखिक बनाया जाता है ताकि y और x दोनों लॉग हों। इस तरह के बिजली कार्यों पर एक तरफ : , और ।एलजीy=एलजी+एलजीएक्स
    एक्स=0>0

  • y=एक्स=0 इसलिए सकारात्मक b के लिए शक्ति कार्य मूल के माध्यम से जाता है, जो अक्सर भौतिक या जैविक या आर्थिक अर्थ बनाता है। सोचो: क्या x, x के लिए शून्य का मतलब है? इस
    तरह का पावर फंक्शन एक ऐसा आकार है जो कई डेटा सेट
    को अच्छी तरह से फिट करता है ।

    • अनुपात y = p / q पर विचार करें जहाँ p और q दोनों व्यवहार में सकारात्मक हैं।
  • उदाहरण हैं:

    • नर / मादा
    • आश्रित / श्रमिक
    • डाउनस्ट्रीम लंबाई / डाउनवेल्ले लंबाई
  • तब y कहीं 0 और अनंत के बीच है, या अंतिम स्थिति में, 1 और अनंत के बीच है। यदि p = q, तो y = 1. ऐसी परिभाषाएँ अक्सर तिरछे डेटा की ओर ले जाती हैं, क्योंकि एक स्पष्ट निचली सीमा है और कोई स्पष्ट ऊपरी सीमा नहीं है। लघुगणक, हालांकि, अर्थात्

  • log y = log p / q = log p - log q, कहीं -infinity और infinity के बीच है और p = q का अर्थ है कि log y = 0. इसलिए इस तरह के अनुपात का लघुगणक अधिक सममित रूप से वितरित होने की संभावना है।


  • घन मूल : घनमूल, x 1/3 । वितरण आकार पर पर्याप्त प्रभाव के साथ यह काफी मजबूत परिवर्तन है: यह लघुगणक की तुलना में कमजोर है। इसका उपयोग सही तिरछापन को कम करने के लिए भी किया जाता है, और इसका फायदा यह है कि इसे शून्य और नकारात्मक मानों पर लागू किया जा सकता है। ध्यान दें कि वॉल्यूम के क्यूब रूट में लंबाई की इकाइयाँ होती हैं। यह आमतौर पर वर्षा डेटा पर लागू होता है।

    • नकारात्मक मूल्यों के लिए प्रयोज्यता के लिए एक विशेष नोट की आवश्यकता होती है। विचार करें
      (2) (2) (2) = 8 और (-2) (- 2) (- 2) = -8। ये उदाहरण बताते हैं कि
      किसी ऋणात्मक संख्या की घनमूल में ऋणात्मक चिन्ह होता है और
      समतुल्य धनात्मक संख्या के घनमूल के समान निरपेक्ष मान होता है। एक समान संपत्ति किसी अन्य जड़ के पास होती है जिसकी शक्ति
      एक अजीब सकारात्मक पूर्णांक (शक्तियों 1/3, 1/5, 1/7, आदि) का पारस्परिक है।

    • यह संपत्ति थोड़ी नाजुक है। उदाहरण के लिए, 1/3 से सिर्फ एक smidgen की शक्ति बदलें, और हम परिणाम को ठीक तीन शब्दों के उत्पाद के रूप में परिभाषित नहीं कर सकते हैं। हालांकि, यदि उपयोगी हो तो संपत्ति का दोहन किया जाना चाहिए।


  • एक्स(1/2)

  • एक्स2

    y=+एक्स+सीएक्स2



    क्वाडराटिक्स आमतौर पर पूरी तरह से उपयोग किए जाते हैं क्योंकि वे
    डेटा क्षेत्र के भीतर एक संबंध की नकल कर सकते हैं। उस क्षेत्र के बाहर वे
    बहुत खराब व्यवहार कर सकते हैं, क्योंकि वे एक्स के चरम मूल्यों के लिए मनमाने ढंग से बड़े मूल्यों को लेते हैं, और जब तक कि अवरोधन 0 होने के लिए विवश नहीं होता है, वे मूल के करीब अनुचित रूप से व्यवहार कर सकते हैं।
    • (-एक्स)2एक्स2


पोस्ट के लिए धन्यवाद। वास्तव में उपयोगी है। क्या आप इसे कुछ उदाहरणों और आंकड़ों के साथ पूरक कर सकते हैं जो दर्शाते हैं कि यह मूल डेटा को अलग करने योग्य डेटा में कैसे बदल देता है?
Mvkt

1
@svk: मैं सिर्फ एक तरह से स्वरूपित हूं, यह समझ में आता है, मुझे लगता है कि हदी ही वह व्यक्ति था जिसने उत्तर लिखा था। यदि मेरा अनुमान सही है, तो वह किसी पुस्तक से नकल कर सकता है। चलो देखते हैं कि क्या वह वापस जवाब देता है / कुछ सुझाव देता है। एल्स एक उत्तर लिखेंगे
Toros91

2
जैसा कि @ Toros91 ने कहा, यह विभिन्न स्रोतों का संयोजन है, मैं अत्यधिक यह देखने की सलाह देता हूं कि कैसे एक डेटा विज्ञान प्रतियोगिता को जीतें: शीर्ष केग्लर्स से सीखें और भी डॉटा
हदी ग़रीबी

alrite। हालाँकि, आप में से कोई एक एक्स-साइज़ को sq.root या क्यूब रूट स्केल में कैसे परिवर्तित कर सकता है, इस पर कुछ उदाहरण कोड को अजगर या matlab में पोस्ट करें। matlab के पास लॉग स्केल के लिए लॉगलॉग प्लॉट है। लेकिन अन्य पैमानों के लिए, इन रूपांतरित कुल्हाड़ियों के साथ एक भूखंड रखना उपयोगी होगा
Mvkt

1

ये विशिष्ट शुद्ध विशुद्ध हो सकते हैं। छवियों के लिए हालांकि यह बहुत मानक है: RGB को BGR में बदलें और हर पिक्सेल से माध्य को घटाएं। यह सभी कंटेस्टेंट / डेटासेट जैसे Imagenet, पास्कल VOC, MS COCO में उपयोग किया जाता है। कारण यह है कि नेटवर्क को एक मानकीकृत डेटासेट के साथ प्रस्तुत किया जाता है, क्योंकि सभी चित्र बहुत भिन्न हो सकते हैं।


0

यहाँ एक ही - कोई विचार नहीं है, यह पहले नहीं देखा है। मुझे लगता है कि उन्होंने विभिन्न परिवर्तनों की कोशिश की और सबसे अच्छा काम करने वाले को चुना। चूंकि रिपोर्ट में वे कहते हैं कि कुछ अन्य परिवर्तन भी ठीक होंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.