शायद, यह एक बहुत ही बुनियादी सवाल है, लेकिन मुझे इसके लिए कोई ठोस जवाब नहीं मिल रहा है। मैं यहाँ आशा करता हूँ, मैं कर सकता हूँ।
मैं वर्तमान में अपने गुरु की थीसिस के लिए तैयारी के रूप में पेपर पढ़ रहा हूं। वर्तमान में, मैं एक पेपर पढ़ रहा हूं जो ट्वीट्स और स्टॉक मार्केट सुविधाओं के बीच संबंधों पर शोध करता है।
उनकी एक परिकल्पना में, उन्होंने प्रस्ताव दिया कि "बढ़ी हुई ट्वीट मात्रा ट्रेडिंग वॉल्यूम में वृद्धि के साथ जुड़ी हुई है"।
मैं उन्हें सहसंबंधी की उम्मीद करेंगे, जोड़ो में सह-संबंध में, tweetVolume
के साथ tradingVolume
, लेकिन इसके बजाय वे उपयोग कर रिपोर्ट का लॉग संस्करणों: LN(tweetVolume)
और LN(tradingVolume)
।
अपनी थीसिस के लिए, मैंने उनके पेपर के इस बिट को दोहराया है। मैंने 6 महीने ( tweetVolume
) और उसी समय सीमा के लिए स्टॉक ट्रेडिंग वॉल्यूम के लिए लगभग 100 कंपनियों के ट्वीट एकत्र किए हैं । यदि मैं पूर्ण चर को सहसंबंधित करता हूं, तो मुझे पता चलता है, r=.282, p.000
लेकिन जब मैं लॉग किए गए क्रियाओं का उपयोग करता हूं, तो मुझे पता चलता है r=.488, p=.000
।
मुझे समझ में नहीं आता है कि शोधकर्ता कभी-कभी अपने चर के लॉग किए गए संस्करणों का उपयोग क्यों करते हैं और यदि आप ऐसा करते हैं तो सहसंबंध इतना अधिक क्यों लगता है। यहाँ तर्क क्या है, और लॉग चर का उपयोग करना क्यों ठीक है?
आपकी मदद बहुत ही सराहनिय है :-)