मेरे पास निम्नलिखित पांडा डेटाफ्रेम हैं Top15
:
मैं एक कॉलम बनाता हूँ जो प्रति व्यक्ति धर्मार्थ दस्तावेजों की संख्या का अनुमान लगाता है:
Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']
मैं प्रति व्यक्ति citable दस्तावेजों की संख्या और प्रति व्यक्ति ऊर्जा आपूर्ति के बीच संबंध जानना चाहता हूं। इसलिए मैं .corr()
विधि का उपयोग करता हूं (पियर्सन के सहसंबंध):
data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')
मैं एक ही नंबर वापस करना चाहता हूं, लेकिन परिणाम है:
.corr
सीधे अपने डेटाफ़्रेम पर लागू होते हैं, तो यह सभी जोड़ीदार सहसंबंधों को लौटा देगा; यही कारण है कि तब आप अपने मैट्रिक्स के विकर्ण पर 1s का निरीक्षण करते हैं (प्रत्येक स्तंभ अपने आप में पूरी तरह से सहसंबद्ध है)। नीचे मेरा संपादन देखें।