मुझे एक समस्या है कि मुझे लगता है कि यह सरल होना चाहिए, लेकिन यह पता नहीं लगा सकता। मैं बीज परागण को देख रहा हूं, मेरे पास पौधे (n = 36) हैं जो गुच्छों में फूल हैं, मैं प्रत्येक पौधे से 3 फूल गुच्छों का नमूना लेता हूं, और प्रत्येक क्लस्टर से 6 बीज फली (प्रत्येक पौधे से कुल 18 बीज फली)। एक फली में परागणित 4 से अधिकतम 4 बीज हो सकते हैं। तो, डेटा की गिनती होती है, ऊपरी सीमा के साथ। मैं औसतन पा रहा हूं ~ 10% बीज प्रदूषित हैं, लेकिन कहीं भी दिए गए पौधे पर 1 से 30% के बीच, इसलिए छितरे हुए आंकड़ों पर, और निश्चित रूप से, 3 पौधों पर 4 लापता क्लस्टर प्रतिकृति हैं, इसलिए पूरी तरह से सममित नहीं हैं ।
यह सवाल मैं पूछ रहा हूं कि क्या यह डेटा इस विचार का समर्थन करता है कि इस संयंत्र को बीज सेट के लिए परागणकों की आवश्यकता है।
मैं पा रहा हूँ कि एक फली में बीज की संख्या के लिए वितरण ऐसा लगता है कि अधिक 0 प्रदूषित बीज फली (16 में से 6-9 फली) और 3 और 4 परागित बीज फली (प्रत्येक के लिए 2-4) की तुलना में अधिक है उम्मीद है कि अगर आबादी में बीज बस बेतरतीब ढंग से परागण किया गया था। मूल रूप से, मुझे लगता है कि यह शून्य फुलाया डेटा के लिए क्लासिक उदाहरण है, पहले एक कीट या तो फूल का दौरा नहीं करता है या एक (एक शून्य जनरेटर) पर नहीं जाता है और यदि ऐसा होता है, तो दूसरे वितरण में बीजों के 0-4 का प्रदूषण करता है। वैकल्पिक परिकल्पना संयंत्र आंशिक रूप से स्वफ़ोटो है, और फिर यह उम्मीद की जाएगी कि प्रत्येक बीज के परागित होने की समान संभावना होगी (यह डेटा लगभग 0.1 मौका बताता है, जिसका अर्थ है एक ही फली में दो बीज के लिए 0.01 मौका, आदि) ।
लेकिन मैं केवल डेटा को एक या दूसरे वितरण के लिए सबसे अच्छा फिट दिखाना चाहता हूं, न कि वास्तव में डेटा पर एक ज़िप या ZINB। मुझे लगता है कि मैं जिस भी विधि का उपयोग करता हूं, उसमें परागित बीजों की वास्तविक संख्या और प्रत्येक पौधे पर लगाए गए फली की संख्या को ध्यान में रखना चाहिए। सबसे अच्छी बात यह है कि मैं किसी प्रकार की बूट स्ट्रैप वाली चीज़ करना चाहता हूं, जहाँ मैं किसी पौधे के लिए परागित बीजों की संख्या को बेतरतीब ढंग से बीज अंकुरित करने की संख्या में समनुदेशित करता हूँ, जो कि मैंने १०,००० बार किया है और देखें कि यह कितनी संभावना है। दिए गए संयंत्र के लिए प्रायोगिक डेटा उस यादृच्छिक वितरण से निकला था।
मुझे लगता है कि इस बारे में कुछ ऐसा है जो ब्रूट बल बूटस्ट्रैपिंग की तुलना में बहुत आसान होना चाहिए, लेकिन सोच के दिनों के बाद और खोज के बाद मैं उठ रहा हूं। मैं सिर्फ एक पॉइसन वितरण की तुलना नहीं कर सकता क्योंकि यह ऊपरी बाध्य है, यह द्विपद नहीं है क्योंकि मुझे किसी भी तरह से अपेक्षित वितरण उत्पन्न करने की आवश्यकता है १। कोई विचार? और मैं वहां R सलाह का उपयोग कर रहा हूं (विशेष रूप से सबसे सुरुचिपूर्ण तरीके से n गेंदों के 10,000 यादृच्छिक वितरण को 16 बक्से में उत्पन्न कर सकते हैं जो प्रत्येक 4 गेंदों में हो सकते हैं) सबसे अधिक स्वागत होगा।
ADDED 9/07/2012 सबसे पहले, आप सभी के हित और मदद के लिए धन्यवाद। जवाबों को पढ़कर मुझे अपने सवाल को थोड़ा सा उलझाने का मन बना लिया है। मैं जो कह रहा हूं वह यह है कि मेरी एक परिकल्पना है (जो अब के लिए मैं अशक्त के रूप में सोच रहा हूं) कि फली में बीज बेतरतीब ढंग से परागित होते हैं, और मेरी वैकल्पिक परिकल्पना यह है कि कम से कम 1 परागित बीज के साथ एक बीज की फली अधिक होने की संभावना है एक यादृच्छिक प्रक्रिया से कई परागणित बीजों की अपेक्षा की जाएगी। मैंने तीन पौधों से वास्तविक डेटा प्रदान किया है उदाहरण के लिए कि मैं किस बारे में बात कर रहा हूं। पहला कॉलम एक फली में परागित बीज का # है, दूसरा कॉलम उस बीज की गिनती के साथ फली की आवृत्ति है।
पौधा 1 (कुल 3 बीज: 4% परागण)
num.seeds :: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
पौधा 2 (कुल 19 बीज: 26% परागण)
num.seeds :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
पौधा 3 (कुल 16 बीज: 22% परागण)
num.seeds :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
पौधे # 1 में, 18 फली में केवल 3 बीज परागित होते थे, एक फली में एक बीज होता था और एक फली में दो बीज होते थे। यादृच्छिक रूप से फली में एक बीज जोड़ने की प्रक्रिया के बारे में सोचकर, पहले दो बीज प्रत्येक अपनी फली में जाते हैं, लेकिन तीसरे बीज के लिए, फली में 6 धब्बे उपलब्ध होते हैं, जिनमें पहले से एक बीज होता है, लेकिन 16 फली में 64 धब्बे होते हैं। कोई बीज नहीं है, इसलिए यहाँ 2 बीजों के साथ फली की उच्चतम संभावना 6/64 = 0.094 है। यह थोड़ा कम है, लेकिन वास्तव में चरम नहीं है, इसलिए मैं कहूंगा कि यह संयंत्र परागण के ~ 4% संभावना के साथ सभी बीजों में यादृच्छिक परागण की परिकल्पना को फिट करता है। लेकिन पौधे 2 मेरे लिए बहुत अधिक चरम है, 4 फली पूरी तरह से परागण के साथ, फिर भी कुछ नहीं के साथ 12 फली। मुझे पूरा यकीन नहीं है कि इस वितरण की बाधाओं की सीधे गणना कैसे की जाए (इसलिए मेरा बूटस्ट्रैप विचार), लेकिन मुझे लगता है कि इस वितरण की संभावनाएं यादृच्छिक रूप से होती हैं अगर प्रत्येक बीज में परागण की ~ 25% संभावना काफी कम है। प्लांट # 3 मुझे वास्तव में कोई पता नहीं है, मुझे लगता है कि अधिक 0 के हैं और 3 के एक से एक यादृच्छिक वितरण के लिए उम्मीद करनी चाहिए, लेकिन मेरी आंत की भावना यह है कि बीजों की इस संख्या के लिए यह वितरण संयंत्र # 2 के लिए वितरण की तुलना में बहुत अधिक है, और यह संभावना नहीं है कि हो सकता है। लेकिन जाहिर है मैं निश्चित रूप से, और सभी पौधों के लिए जानना चाहता हूं। मुझे लगता है कि अधिक 0 और 3 हैं एक से एक यादृच्छिक वितरण के लिए उम्मीद करनी चाहिए, लेकिन मेरी आंत की भावना यह है कि इस संख्या के बीज के लिए वितरण # 2 संयंत्र के लिए वितरण की तुलना में बहुत अधिक संभावना है, और यह संभावना नहीं हो सकती है। लेकिन जाहिर है मैं निश्चित रूप से, और सभी पौधों के लिए जानना चाहता हूं। मुझे लगता है कि अधिक 0 और 3 हैं एक से एक यादृच्छिक वितरण के लिए उम्मीद करनी चाहिए, लेकिन मेरी आंत की भावना यह है कि इस संख्या के बीज के लिए वितरण # 2 संयंत्र के लिए वितरण की तुलना में बहुत अधिक संभावना है, और यह संभावना नहीं हो सकती है। लेकिन जाहिर है मैं निश्चित रूप से, और सभी पौधों के लिए जानना चाहता हूं।
अंत में मैं एक वक्तव्य लिखना चाह रहा हूं जैसे "बीज की फली में परागित बीजों का वितरण फिट बैठता है (या फिट नहीं है) परिकल्पना है कि पौधे आंशिक रूप से आत्म संगत नहीं हैं, लेकिन बीज सेट करने के लिए परागकण के दौरे की आवश्यकता होती है। (सांख्यिकीय परीक्षण के परिणाम) यह वास्तव में मेरे फॉरवर्ड लुकिंग सेक्शन का हिस्सा है, जहां मैं आगे क्या प्रयोग करना चाहता हूं, इस बारे में बात कर रहा हूं, इसलिए मैं इसके लिए एक चीज या दूसरे के लिए बेताब नहीं हूं, लेकिन अगर संभव हो तो मैं खुद के लिए जानना चाहता हूं। अगर मैं वह नहीं कर पा रहा हूं जो मैं इस डेटा के साथ करने की कोशिश कर रहा हूं, तो मैं यह जानना चाहूंगा!
मैंने पहली बार में एक व्यापक प्रश्न पूछा था, क्योंकि मैं उत्सुक हूं कि क्या यह दिखाने के लिए कोई अच्छा परीक्षण है कि क्या डेटा को पहले स्थान पर शून्य फुलाया हुआ मॉडल में जाना चाहिए। मेरे द्वारा देखे गए सभी उदाहरणों से लगता है - "देखो, यहाँ बहुत सारे शून्य हैं, और इसके लिए एक उचित स्पष्टीकरण है, तो चलो एक शून्य फुलाए हुए मॉडल का उपयोग करें"। मैं अभी इस मंच पर वही कर रहा हूं, लेकिन मुझे अपने पिछले अध्याय पर एक अनुभव था जहां मैंने गणना डेटा के लिए एक पॉइज़न ग्लम का उपयोग किया था और मेरे एक पर्यवेक्षक ने कहा था "नहीं, चमक बहुत जटिल और अनावश्यक हैं, यह डेटा चाहिए एक आकस्मिक तालिका में जाएं ”और फिर मुझे उनके महंगे आँकड़े पैकेज द्वारा उत्पन्न विशाल आकस्मिक तालिका का डेटा डंप दिया जिसने मेरे सभी कारकों + अंतःक्रियाओं को तीन महत्वपूर्ण अंकों के लिए समान p मान दिया !! इसलिए, मैं आँकड़े स्पष्ट और सरल रखने की कोशिश कर रहा हूँ, और सुनिश्चित करें कि मैं उन्हें अपनी पसंदों का दृढ़ता से बचाव करने के लिए अच्छी तरह से समझता हूं, जो मुझे नहीं लगता कि मैं अभी एक शून्य फुलाया मॉडल के लिए कर सकता हूं। मैंने उपचारों की तुलना करने और मेरे मुख्य प्रयोगात्मक सवालों के जवाब देने के लिए उपरोक्त डेटा के लिए एक कैसिबिनोमियल (पूरे पौधों के लिए pesudoreplicaiton से छुटकारा पाने के लिए) और एक मिश्रित मॉडल का उपयोग किया है, या तो एक ही काम करने के लिए लगता है, लेकिन मैं भी जा रहा हूं। आज रात ZINB के साथ खेलें, यह देखने के लिए कि वह कितना अच्छा प्रदर्शन करता है। मैं सोच रहा हूं कि क्या मैं स्पष्ट रूप से प्रदर्शित कर सकता हूं कि यह डेटा पहले से मजबूत है (या शून्य फुलाया गया है), तो उस होने के लिए एक अच्छा जैविक कारण प्रदान करें, मैं बाद में एक ZINB को बाहर निकालने के लिए बहुत बेहतर सेट करूंगा, की तुलना में बस एक क्वासिबिनोमियल / मिश्रित मॉडल की तुलना करें और तर्क दें क्योंकि यह बेहतर परिणाम देता है, यही मुझे उपयोग करना चाहिए। जो मुझे नहीं लगता कि मैं अभी एक शून्य फुलाया मॉडल के लिए कर सकता हूं। मैंने उपचारों की तुलना करने और मेरे मुख्य प्रयोगात्मक सवालों के जवाब देने के लिए उपरोक्त डेटा के लिए एक quasibinomial (पूरे पौधों के लिए pesudoreplicaiton से छुटकारा पाने के लिए) और एक मिश्रित मॉडल का उपयोग किया है, या तो एक ही काम करने के लिए लगता है, लेकिन मैं भी जा रहा हूं। आज रात ZINB के साथ खेलें, यह देखने के लिए कि वह कितना अच्छा प्रदर्शन करता है। मैं सोच रहा हूं कि क्या मैं स्पष्ट रूप से यह प्रदर्शित कर सकता हूं कि यह डेटा पहले से मजबूत है (या शून्य फुलाया गया है), तो उस होने के लिए एक अच्छा जैविक कारण प्रदान करें, मैं बाद में एक ZINB को बाहर निकालने की तुलना में बहुत बेहतर होगा, की तुलना में बस एक क्वासिबिनोमियल / मिश्रित मॉडल की तुलना करें और तर्क दें क्योंकि यह बेहतर परिणाम देता है, यही मुझे उपयोग करना चाहिए। जो मुझे नहीं लगता कि मैं अभी एक शून्य फुलाया मॉडल के लिए कर सकता हूं। मैंने उपचारों की तुलना करने और मेरे मुख्य प्रयोगात्मक सवालों के जवाब देने के लिए उपरोक्त डेटा के लिए एक quasibinomial (पूरे पौधों के लिए pesudoreplicaiton से छुटकारा पाने के लिए) और एक मिश्रित मॉडल का उपयोग किया है, या तो एक ही काम करने के लिए लगता है, लेकिन मैं भी जा रहा हूं। आज रात ZINB के साथ खेलें, यह देखने के लिए कि वह कितना अच्छा प्रदर्शन करता है। मैं सोच रहा हूं कि क्या मैं स्पष्ट रूप से यह प्रदर्शित कर सकता हूं कि यह डेटा पहले से मजबूत है (या शून्य फुलाया गया है), तो उस होने के लिए एक अच्छा जैविक कारण प्रदान करें, मैं बाद में एक ZINB को बाहर निकालने की तुलना में बहुत बेहतर होगा, की तुलना में बस एक क्वासिबिनोमियल / मिश्रित मॉडल की तुलना करें और तर्क दें क्योंकि यह बेहतर परिणाम देता है, यही मुझे उपयोग करना चाहिए। मैंने उपचारों की तुलना करने और मेरे मुख्य प्रयोगात्मक सवालों के जवाब देने के लिए उपरोक्त डेटा के लिए एक quasibinomial (पूरे पौधों के लिए pesudoreplicaiton से छुटकारा पाने के लिए) और एक मिश्रित मॉडल का उपयोग किया है, या तो एक ही काम करने के लिए लगता है, लेकिन मैं भी जा रहा हूं। आज रात ZINB के साथ खेलें, यह देखने के लिए कि वह कितना अच्छा प्रदर्शन करता है। मैं सोच रहा हूं कि क्या मैं स्पष्ट रूप से यह प्रदर्शित कर सकता हूं कि यह डेटा पहले से मजबूत है (या शून्य फुलाया गया है), तो उस होने के लिए एक अच्छा जैविक कारण प्रदान करें, मैं बाद में एक ZINB को बाहर निकालने की तुलना में बहुत बेहतर होगा, की तुलना में बस एक क्वासिबिनोमियल / मिश्रित मॉडल की तुलना करें और तर्क दें क्योंकि यह बेहतर परिणाम देता है, यही मुझे उपयोग करना चाहिए। मैंने उपचारों की तुलना करने और मेरे मुख्य प्रयोगात्मक सवालों के जवाब देने के लिए उपरोक्त डेटा के लिए एक quasibinomial (पूरे पौधों के लिए pesudoreplicaiton से छुटकारा पाने के लिए) और एक मिश्रित मॉडल का उपयोग किया है, या तो एक ही काम करने के लिए लगता है, लेकिन मैं भी जा रहा हूं। आज रात ZINB के साथ खेलें, यह देखने के लिए कि वह कितना अच्छा प्रदर्शन करता है। मैं सोच रहा हूं कि क्या मैं स्पष्ट रूप से यह प्रदर्शित कर सकता हूं कि यह डेटा पहले से मजबूत है (या शून्य फुलाया गया है), तो उस होने के लिए एक अच्छा जैविक कारण प्रदान करें, मैं बाद में एक ZINB को बाहर निकालने की तुलना में बहुत बेहतर होगा, की तुलना में बस एक क्वासिबिनोमियल / मिश्रित मॉडल की तुलना करें और तर्क दें क्योंकि यह बेहतर परिणाम देता है, यही मुझे उपयोग करना चाहिए।
लेकिन मैं अपने प्राथमिक प्रश्न से बहुत अधिक विचलित नहीं करना चाहता, मैं यह कैसे निर्धारित कर सकता हूं कि मेरा डेटा वास्तव में यादृच्छिक वितरण से अपेक्षित शून्य से अधिक फुलाया गया है? मेरे मामले में इसका जवाब यह है कि मॉडल के औचित्य के लिए संभावित लाभ के साथ मेरे लिए वास्तविक ब्याज क्या है, एक बोनस होने के नाते।
अपने सभी समय के लिए फिर से धन्यवाद और मदद करो!
चीयर्स, BWGIA