यदि आप संपूर्ण डेटा सेट को पार्स नहीं करना चाहते हैं, तो आप शायद स्तरीकृत नमूने का उपयोग नहीं कर सकते हैं , इसलिए मैं एक बड़ा सरल यादृच्छिक नमूना लेने का सुझाव दूंगा । एक यादृच्छिक नमूना लेने से , आप यह सुनिश्चित करते हैं कि नमूना, औसतन, संपूर्ण डेटासेट का प्रतिनिधि होगा, और सटीकता के मानक सांख्यिकीय उपाय जैसे मानक त्रुटियां और आत्मविश्वास अंतराल आपको बताएंगे कि आपके नमूना अनुमानों की आबादी के मूल्यों से कितनी दूर होने की संभावना है ऐसा होने के लिए, यह प्रमाणित करने की कोई वास्तविक आवश्यकता नहीं है कि एक नमूना जनसंख्या का प्रतिनिधि है जब तक कि आपको कुछ चिंताएं न हों जो वास्तव में यादृच्छिक पर नमूना थीं।
एक साधारण यादृच्छिक नमूना कितना बड़ा है? खैर, नमूना जितना बड़ा होगा, आपके अनुमान उतने ही सटीक होंगे। जैसा कि आपके पास पहले से ही डेटा है, पारंपरिक नमूना आकार गणना वास्तव में लागू नहीं है - आप कंप्यूटिंग के लिए व्यावहारिक होने के साथ-साथ अपने डेटासेट का भी उतना ही उपयोग कर सकते हैं। जब तक आप कुछ जटिल विश्लेषण करने की योजना नहीं बना रहे हैं जो गणना समय को एक मुद्दा बना देगा, एक सरल दृष्टिकोण सरल यादृच्छिक नमूना बनाने के लिए होगा जितना कि आपके पीसी पर विश्लेषण किया जा सकता है बिना पेजिंग के।या अन्य स्मृति मुद्दों। अंगूठे का एक नियम आपके डेटासेट के आकार को आपके कंप्यूटर की रैम से आधे से ज्यादा नहीं सीमित कर सकता है ताकि उसमें हेरफेर करने के लिए जगह हो और ओएस और शायद अन्य छोटे अनुप्रयोगों (जैसे एक संपादक और एक वेब ब्राउज़र के लिए कुछ जगह छोड़ सके। )। एक और सीमा यह है कि 32-बिट विंडोज ऑपरेटिंग सिस्टम किसी एकल एप्लिकेशन के लिए एड्रेस स्पेस को बाइट्स = 2.1 जीबी से बड़ा नहीं होने देगा , इसलिए यदि आप 32-बिट विंडोज का उपयोग कर रहे हैं, तो 1 जीबी एक हो सकता है डेटासेट के आकार पर उचित सीमा।231
फिर यह गणना करना कुछ सरल अंकगणित की बात है कि आप प्रत्येक अवलोकन के लिए कितने चर दे सकते हैं और प्रत्येक चर के लिए कितने बाइट्स का नमूना ले सकते हैं।