पीसीए या एफए के लिए न्यूनतम नमूना आकार जब मुख्य लक्ष्य केवल कुछ घटकों का अनुमान लगाना है?


27

यदि मेरे पास अवलोकनों और चर (आयाम) के साथ एक डेटासेट है , और आम तौर पर छोटा है ( ), और छोटे से लेकर ( ) तक हो सकता है, तो शायद बहुत बड़ा ( )।p n n = 12 - 16 p p = 4 - 10 p = 30 - 50npnn=1216pp=410p=3050

मुझे याद है कि प्रिंसिपल कंपोनेंट एनालिसिस (PCA) या फैक्टर एनालिसिस (FA) को चलाने के लिए को से बहुत बड़ा होना चाहिए , लेकिन ऐसा लगता है कि मेरे डेटा में ऐसा नहीं हो सकता। ध्यान दें कि मेरे उद्देश्यों के लिए मैं पीसी 2 के अतीत के किसी भी प्रमुख घटक में शायद ही दिलचस्पी रखता हूं।पीnp

प्रशन:

  1. पीसीए का उपयोग करने के लिए न्यूनतम नमूना आकार के लिए अंगूठे के नियम क्या हैं, और कब नहीं?
  2. क्या पहले कभी कुछ पीसी का उपयोग करना ठीक है, भले ही या ?n < pn=pn<p
  3. क्या इस पर कोई संदर्भ हैं?
  4. क्या फर्क पड़ता है कि आपका मुख्य लक्ष्य PC1 और संभवतः PC2 का उपयोग करना है:

    • बस रेखांकन, या
    • सिंथेटिक चर के रूप में फिर प्रतिगमन में उपयोग किया जाता है?

मुझे याद है कि कारक विश्लेषण के संबंध में इस प्रकार के दिशानिर्देशों के बारे में पढ़ना। क्या आप पीसीए में भी रुचि रखते हैं? इसके अलावा, उत्तर आपके डेटा के प्रकार पर निर्भर हो सकता है, क्या आपके पास आवेदन का एक विशिष्ट क्षेत्र है?
गाला

1
नीचे टिप्पणी और संदर्भ के लिए धन्यवाद गेल। अब मुझे एफए और पीसीए के बीच अंतर जानने की जरूरत है। :)
पैट्रिक

3
इस सवाल का इस साइट पर बड़े पैमाने पर इलाज किया गया है, उदाहरण के लिए देखें आँकड़े ।stackexchange.com
Gala

जवाबों:


21

आप वास्तव में माप सकते हैं कि क्या आपका नमूना आकार "काफी बड़ा" है। छोटे नमूने के आकार का एक लक्षण बहुत छोटा होना अस्थिरता है।

अपने PCA को बूटस्ट्रैप या क्रॉस करें: ये तकनीक आपके नमूने के एक छोटे से हिस्से को हटा / बदलकर आपके डेटा सेट को परेशान करती है और फिर प्रत्येक परेशान डेटा सेट के लिए "सरोगेट मॉडल" का निर्माण करती है। यदि सरोगेट मॉडल समान (= स्थिर) समान हैं, तो आप ठीक हैं। आपको शायद इस बात का ध्यान रखना होगा कि पीसीए का समाधान अद्वितीय नहीं है: पीसी फ्लिप कर सकते हैं (एक स्कोर और संबंधित प्रमुख घटक दोनों को से गुणा कर सकते हैं )। आप पीसी के मॉडल को प्राप्त करने के लिए प्रोक्रिस्टस रोटेशन का उपयोग करना चाह सकते हैं जो कि यथासंभव समान हैं।1


धन्यवाद cbeleites। क्या आपको लगता है कि बूटस्ट्रैपिंग n के साथ अत्यधिक जानकारीपूर्ण होगी, जैसे कि, 16? समझने के लिए, मैं बस कई पीसीए चलाकर रिश्तेदार स्थिरता की तलाश करूंगा, प्रत्येक रन को एक साइट छोड़ दूंगा।
पैट्रिक

उस मामले में सभी 16 मॉडलों को देखना निश्चित रूप से संभव है जो एक नमूना (या यहां तक ​​कि सभी 120 मॉडल जो 2 नमूने छोड़ दिए गए थे) को हटाकर परेशान हैं। मुझे लगता है कि छोटे साथ मैं शायद इस तरह के एक व्यवस्थित सीवी-जैसे दृष्टिकोण के लिए जाऊंगा। n
cbeleites

23

कारक विश्लेषण (प्रमुख घटक विश्लेषण नहीं) के लिए, अवलोकनों की संख्या पर अंगूठे के कुछ पुराने नियमों पर सवाल उठाने वाला एक साहित्य है। पारंपरिक सिफारिशें - कम से कम साइकोमेट्रिक्स के भीतर - प्रति चर में कम से कम अवलोकनों ( साथ आम तौर पर कहीं भी से ) के लिए होगी ताकि किसी भी मामले में ।एक्स 5 20 एन » पीxx520np

कई संदर्भों के साथ एक पूरी तरह से अवलोकन http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis पर पाया जा सकता है

हालांकि, हाल के सिमुलेशन अध्ययनों से मुख्य टेक-दूर संदेश शायद यह होगा कि परिणामों की गुणवत्ता इतनी भिन्न हो सकती है (सांप्रदायिकता के आधार पर, कारकों की संख्या या कारकों-से-चर अनुपात, आदि) पर विचार करना। चर-से-अवलोकन अनुपात आवश्यक टिप्पणियों की संख्या पर निर्णय लेने का एक अच्छा तरीका नहीं है। यदि स्थितियां शुभ हैं, तो आप पुराने दिशानिर्देशों की तुलना में बहुत कम टिप्पणियों के साथ दूर होने में सक्षम हो सकते हैं, लेकिन यहां तक ​​कि सबसे रूढ़िवादी दिशानिर्देश भी कुछ मामलों में बहुत आशावादी हैं। उदाहरण के लिए, प्रीचर एंड मैक्कलम (2002) ने बेहद छोटे नमूने आकार और साथ अच्छे परिणाम प्राप्त किए लेकिन Mundfrom, Shaw & Ke (2005) में कुछ मामले पाए गए जहां का नमूना आकारn > 100 पीp>nn>100pआवश्यक था। उन्होंने यह भी पाया कि यदि अंतर्निहित कारकों की संख्या समान रहती है, तो अधिक चर (और कम नहीं, जैसा कि टिप्पणियों-से-चर अनुपात के आधार पर दिशानिर्देशों द्वारा निहित है) टिप्पणियों के छोटे नमूनों के साथ बेहतर परिणाम दे सकता है।

प्रासंगिक संदर्भ:

  • मुंडफ्रॉम, डीजे, शॉ, डीजी, एंड के, टीएल (2005)। कारक विश्लेषण करने के लिए न्यूनतम नमूना आकार सिफारिशें। इंटरनेशनल जर्नल ऑफ़ टेस्टिंग, 5 (2), 159-168।
  • प्रीचर, केजे, और मैक्कलम, आरसी (2002)। व्यवहार आनुवंशिकी अनुसंधान में व्याख्यात्मक कारक विश्लेषण: छोटे नमूना आकार के साथ कारक वसूली। व्यवहार जेनेटिक्स, 32 (2), 153-161।
  • डी विंटर, जेसीएफ, डोडो, डी।, और विरिंगा, पीए (2009)। छोटे नमूना आकार के साथ खोजपूर्ण कारक विश्लेषण। बहुभिन्नरूपी व्यवहार अनुसंधान, 44 (2), 147-181।

5
(+1) सिमुलेशन और वास्तविक डेटासेट का उपयोग करते हुए यहां एक और पेपर है, जो बताता है कि एन / पी नियम-ऑफ-थंब व्यवहार में बहुत अच्छा प्रदर्शन नहीं करता है, और यह ईएफए में स्थिर और सटीक समाधान प्राप्त करने के लिए आवश्यक नमूना आकार प्रदान करता है- विभिन्न गुणवत्ता मानदंडों के लिए नियंत्रण - कारकों की संख्या और वस्तुओं की संख्या (और वैकल्पिक रूप से क्रोनबेक के अल्फा 95% CI की आधी चौड़ाई, फेल्ड के सूत्र पर आधारित) के एक मनोरोगी पैमाने पर: के लिए नमूना आवश्यकताओं के अनुसार मनोचिकित्सा पैमानों की आंतरिक मान्यता Int J Methods Psychiatr Res 2011 दिसंबर, 20 (4): 235-49।
chl

1

एमवीए असमानताओं के पीछे विचार सरल है: पीसीए चर के सहसंबंध मैट्रिक्स का अनुमान लगाने के बराबर है। आप डेटा से (सिमेट्रिक मैट्रिक्स) गुणांक का अनुमान लगाने की कोशिश कर रहे हैं । (इसीलिए आपके पास n >> p होना चाहिए।)pp12np

तुल्यता इस तरह से देखी जा सकती है: प्रत्येक पीसीए चरण एक अनुकूलन समस्या है। हम विच दिशा को सबसे अधिक विचरण को व्यक्त करने की कोशिश कर रहे हैं। अर्थात:

max(aiTΣai)

कहाँ सहसंयोजक मैट्रिक्स है।σ

बाधाओं के तहत:

aiTai=1
(सामान्यीकरण)

aiTaj=0
( , orthogonality whos पिछले पुर्जों के लिए)j<i

इन समस्याओं का समाधान स्पष्ट रूप से उनके स्वदेशी से जुड़े eigenvectors हैं। मुझे स्वीकार करना होगा कि मुझे सटीक सूत्रीकरण याद नहीं है, लेकिन eigenvenctors के गुणांक पर निर्भर करता है । वैरिएबल के मॉडुलो सामान्यीकरण, कोवरियनस मैट्रिक्स और सहसंबंध मैट्रिक्स एक ही बात है।Σσ

केवल दो डेटा के साथ मान का अनुमान लगाने के लिए n = p अधिक या कम समतुल्य है ... यह विश्वसनीय नहीं है।

अंगूठे का कोई नियम नहीं है, बस ध्यान रखें कि पीसीए कम या ज्यादा समान है जैसा कि मानों से मान का अनुमान है।2np


क्या आप उस अर्थ के बारे में अधिक विशिष्ट हो सकते हैं जिसमें पीसीए एक सहसंबंध मैट्रिक्स का आकलन करने के लिए "समकक्ष" है? मैं के बाद मेरे पीसीए रोक मान लीजिए प्रमुख घटकों। इसके लिए eigenvalues ​​और आकलन करने की आवश्यकता होती है , स्वतंत्र eigenvector गुणांक, मापदंडों से कम कुल योग , जो से काफी कम हो सकता है । कश्मीर ( पी - 1 ) + ( पी - 2 ) + + ( पी - कश्मीर ) पी कश्मीर पी ( पी - 1 ) / 2kk(p1)+(p2)++(pk)pkp(p1)/2
व्हिबर

बात यह है कि आप मैट्रिक्स के p (p-1) / 2 गुणांक से eigenvectors के गुणांक (पीके) की गणना कर रहे हैं। एक यादृच्छिक मैट्रिक्स के लिए, मुझे नहीं लगता कि eigenvectors / eigenvalues ​​की गणना करने वाले कुछ गुणांकों को "स्किप" करने का एक तरीका है।
lcrmorin

यकीन है कि वहाँ है: सामान्य एल्गोरिदम eigenvalues ​​और eigenvectors एक समय में, सबसे बड़े eigenvalue से नीचे पर पाते हैं। इसके अलावा, यह एक कम्प्यूटेशनल मुद्दा नहीं है, लेकिन अनुमानित मूल्यों की संख्या की गिनती में से एक है - जब तक कि मैंने आपके जवाब को गलत नहीं किया?
whuber

1

मुझे आशा है कि यह उपयोगी हो सकता है:

एफए और पीसीए दोनों के लिए

'' इस अध्याय में वर्णित विधियों को स्थिर समाधान प्राप्त करने के लिए बड़े नमूनों की आवश्यकता होती है। एक पर्याप्त नमूना आकार का गठन कुछ जटिल है। हाल तक तक, विश्लेषकों ने अंगूठे के नियमों का उपयोग किया था जैसे "कारक विश्लेषण के लिए चर के रूप में कई विषयों के लिए 5-10 बार की आवश्यकता होती है।" हाल के अध्ययनों से पता चलता है कि आवश्यक नमूना आकार कारकों की संख्या, प्रत्येक कारक से जुड़े चर की संख्या और कैसे पर निर्भर करता है अच्छी तरह से कारकों का सेट चर (बैंडालोस और बोहम-कॉफमैन, 2009) में विचरण को स्पष्ट करता है। मैं एक अंग पर जाऊंगा और कहूंगा कि यदि आपके पास कई सौ अवलोकन हैं, तो आप शायद सुरक्षित हैं। ''

संदर्भ:

बंदालोस, डीएल, और एमआर बोहेम-कॉफमैन। 2009. "एक्सप्लोरेटरी फैक्टर एनालिसिस में चार सामान्य गलतफहमी।" सांख्यिकीय और कार्यप्रणाली मिथकों और शहरी महापुरूषों में, सीई लांस और आरजे वांडेनबर्ग द्वारा संपादित, 61-87। न्यूयॉर्क: रूटलेज।

रॉबर्ट आई। कबाकॉफ़ द्वारा "आर इन एक्शन" से, बहुत अच्छी जानकारी वाली पुस्तक लगभग सभी सांख्यिकीय परीक्षणों को कवर करती है।


2
ऐसा लगता है कि आप केवल एक पुस्तक को प्लग कर रहे हैं और कुछ बिंदुओं को एक माध्यमिक या तृतीयक स्रोत के आधार पर पहले से ही साझा कर रहे हैं। यह बहुत उपयोगी नहीं लगता है। क्या आप कम से कम बंदालोस और बोहेम-कॉफमैन, 2009 के लिए पूर्ण संदर्भ प्रदान कर सकते हैं?
गाला
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.