मैं कुछ जीनोमिक कवरेज डेटा की जांच कर रहा हूं जो मूल रूप से पूर्णांक की एक लंबी सूची (कुछ मिलियन मान) है, प्रत्येक कह रहा है कि जीनोम में यह स्थिति कितनी अच्छी तरह (या "गहरी") कवर की गई है।
मैं इस डेटा में "घाटियों" की तलाश करना चाहता हूं, अर्थात्, ऐसे क्षेत्र जो अपने आसपास के वातावरण की तुलना में "कम" हैं।
ध्यान दें कि मैं जिन घाटियों की तलाश कर रहा हूं उनका आकार 50 ठिकानों से लेकर कुछ हजारों तक हो सकता है।
उन घाटियों को खोजने के लिए आप किस तरह के प्रतिमानों का उपयोग करने की सलाह देंगे?
अपडेट करें
डेटा के लिए कुछ चित्रमय उदाहरण:
अद्यतन २
परिभाषित करना कि घाटी क्या है निश्चित रूप से एक सवाल है जिसके साथ मैं संघर्ष कर रहा हूं। ये मेरे लिए स्पष्ट हैं:
लेकिन कुछ और जटिल स्थितियां हैं। सामान्य तौर पर, मेरे विचार में 3 मानदंड हैं: 1. वैश्विक औसत के संबंध में खिड़की में (औसत? अधिकतम?) कवरेज। 2. खिड़की (...) खिड़की में अपने आसपास के संबंध में कवरेज। 3. खिड़की कितनी बड़ी है: अगर मुझे बहुत कम समय के लिए बहुत कम कवरेज दिखाई देती है तो यह दिलचस्प है, अगर मुझे बहुत कम समय के लिए बहुत कम कवरेज दिखाई देता है, तो यह भी दिलचस्प है, अगर मुझे थोड़े समय के लिए मामूली कम कवरेज दिखाई देता है, तो यह वास्तव में दिलचस्प नहीं है , लेकिन अगर मुझे लंबे समय के लिए मामूली कम कवरेज दिखाई देता है - यह है .. तो यह sapn की लंबाई का संयोजन है और यह कवरेज है। अब यह है, उच्च मैं कवरेज को होने देता हूं और अभी भी इसे घाटी मानता हूं।
धन्यवाद,
डेव