मेरे पास पीसीए के बारे में त्वरित प्रश्न हैं:
- क्या पीसीए मान लेता है कि डेटासेट गॉसियन है?
- क्या होता है जब मैं एक पीसीए को अंतर्निहित गैर-रैखिक डेटा पर लागू करता हूं?
एक डेटासेट को देखते हुए, प्रक्रिया को पहले सामान्यीकृत करना है, 1 से विचरण सेट करें, एक SVD लें, रैंक कम करें, और अंत में डेटासेट को नए कम-रैंक स्थान में मैप करें। नई जगह में, प्रत्येक आयाम अधिकतम विचरण के "दिशा" से मेल खाता है।
- लेकिन क्या नए स्थान में उस डेटासेट का संबंध हमेशा शून्य है, या क्या यह केवल डेटा के लिए सही है जो स्वाभाविक रूप से गॉसियन है?
मान लीजिए कि मेरे पास दो डेटासेट हैं, "ए" और "बी", जहां "ए" एक गौसियन से लिए गए यादृच्छिक रूप से सैंपल किए गए बिंदुओं से मेल खाती है, जबकि "बी" दूसरे वितरण से यादृच्छिक रूप से सैंपल किए गए बिंदुओं से मेल खाती है (पॉइसन कहते हैं)।
- PCA (A) PCA (B) से तुलना कैसे करता है?
- नए स्थान के बिंदुओं को देखकर, मैं यह कैसे निर्धारित करूंगा कि पीसीए (ए) एक गौसियन से नमूना किए गए बिंदुओं से मेल खाती है, जबकि पीसीए (बी) एक पॉइसन से नमूना किए गए बिंदुओं से मेल खाती है?
- "ए" 0 में बिंदुओं का सहसंबंध है?
- क्या "बी" में बिंदुओं का सहसंबंध भी 0 है?
- इससे भी महत्वपूर्ण बात, क्या मैं "सही" प्रश्न पूछ रहा हूं?
- क्या मुझे सहसंबंध को देखना चाहिए, या कोई अन्य मीट्रिक है जिसे मुझे विचार करना चाहिए?