मैं किसी भी उपसमूह की विशेषताओं के foreknowledge बिना आबादी के उपसमूहों को पहचानने और अलग करने के लिए डेटासेट का विश्लेषण और पार्स करने के लिए एक नई विधि पर काम कर रहा हूं। जबकि विधि कृत्रिम डेटा नमूनों (यानी विशेष रूप से जनसंख्या के सबसेट को पहचानने और अलग करने के उद्देश्य से बनाए गए डेटा) के साथ पर्याप्त रूप से काम करती है, मैं इसे लाइव डेटा के साथ परीक्षण करना चाहूंगा।
मैं जो देख रहा हूं वह स्वतंत्र रूप से उपलब्ध है (यानी गैर-गोपनीय, गैर-स्वामित्व) डेटा स्रोत। अधिमानतः बिमोडल या मल्टीमॉडल वितरण वाले या स्पष्ट रूप से कई उपसमुच्चय शामिल हैं जिन्हें पारंपरिक साधनों के माध्यम से आसानी से अलग नहीं किया जा सकता है। मैं ऐसी जानकारी खोजने के लिए कहां जाऊंगा?