यदि मैंने संपूर्ण डेटासेट लिया और कुल गेंदों को विभाजित किया, जिसमें एक गेंदबाज को कुल गेंदों की संख्या से बाहर किया गया, तो मैं देख सकता हूं कि मुझे एक गेंदबाज के आउट होने की औसत संभावना होगी - यह लगभग 0.03 होगा (उम्मीद है कि मैं पहले से ही गलत नहीं हुआ है?
दुर्भाग्य से, यह शायद पहले से ही वैसा नहीं है जैसा आप देख रहे हैं।
मान लीजिए कि हमारे पास एक एकल गेंदबाज और दो बल्लेबाज हैं: डॉन ब्रैडमैन और मैं। (मैं क्रिकेट के बारे में बहुत कम जानता हूं, इसलिए अगर मैं यहां से हटकर कुछ कर रहा हूं तो मुझे बताएं।) खेल कुछ इस तरह हैं:
- डॉन बल्लेबाजी करने के लिए जाता है, और 99 वें गेंद पर आउट होता है।
- मैं बल्लेबाजी करने जाता हूं, और तुरंत आउट हो जाता हूं।
- डॉन बल्लेबाजी करने के लिए जाता है, और 99 वें गेंद पर आउट होता है।
- मैं बल्लेबाजी करने जाता हूं, और तुरंत आउट हो जाता हूं।
इस मामले में, 200 कटोरे में से चार बाहरी हैं, इसलिए एक गेंदबाज को आउट करने की मामूली संभावना 4/200 = 2% है। लेकिन वास्तव में, डॉन के बाहर होने की संभावना 1% की तरह अधिक है, जबकि मेरा 100% है। इसलिए यदि आप यादृच्छिक रूप से एक बल्लेबाज और एक गेंदबाज चुनते हैं, तो इस गेंदबाज को इस बार बाहर होने की संभावना अधिक है (50% मौका आपने डॉन को चुना) * (1% मौका वह बाहर निकल जाता है) + (50% मौका आपने उठाया) मुझे) * (100% मौका मिलता है) = 50.05%। लेकिन अगर आप यादृच्छिक रूप से एक पिच चुनते हैं , तो यह 2% संभावना है कि वह बाहर निकल जाए। इसलिए आपको ध्यान से सोचने की जरूरत है कि आप उन नमूनों में से किस मॉडल के बारे में सोच रहे हैं।
वैसे भी, आपका प्रस्ताव पागल नहीं है। अधिक प्रतीकात्मक रूप से, गेंदबाज हो सकता है और बल्लेबाज ; चलो संभावना है कि हो सकता है हो जाता है बाहर। फिर आप कह रहे हैं:bmf(b,m)bm
f(b,m)=Em′[f(b,m′)]Eb′[f(b′,m)]Eb′,m′[f(b′,m′)].
इसके पास वांछित संपत्ति है:
यदि आप केवल या से अधिक साधन लेते हैं तो यह समान रूप से संगत है ।
Eb,m[f(b,m)]=Eb,m′[f(b,m′)]Eb′,m[f(b′,m)]Eb′,m′[f(b′,m′)]=Eb,m[f(b,m)];
bm
ध्यान दें कि इस मामले में हम असाइन कर सकते हैं
आपकी धारणा यह है कि आप डेटा से और यथोचित अवलोकन कर सकते हैं । जब तक (ए) आपके पास पर्याप्त गेम हैं [जो आप करते हैं] और (बी) खिलाड़ी सभी समान रूप से समान आवृत्तियों के साथ एक दूसरे को खेलते हैं, तो यह ठीक है।
C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/C−−√h(m):=Eb[f(b,m)]/C−−√so that f(b,m)=g(b)h(m).
g(b)h(m)
थोड़ा (बी) पर विस्तार से: कल्पना करें कि आपके पास पेशेवर खेलों के एक समूह और मेरे दोस्तों के साथ खेलने वाले खेलों का एक समूह है। यदि कोई ओवरलैप नहीं है, तो शायद मैं अपने दोस्तों की तुलना में बहुत अच्छा दिखता हूं, इसलिए शायद आपको लगता है कि मैं सबसे खराब पेशेवर खिलाड़ी से बहुत बेहतर हूं। यह स्पष्ट रूप से गलत है, लेकिन आपके पास इसका खंडन करने के लिए कोई डेटा नहीं है। यदि आपके पास थोड़ा ओवरलैप है, जहां मैंने एक पेशेवर खिलाड़ी के खिलाफ एक बार खेला और नष्ट हो गया, तो डेटा मुझे और मेरे दोस्तों को सभी तरह से पेशेवरों की तुलना में बदतर रैंकिंग का समर्थन करता है, लेकिन आपका तरीका इसके लिए जिम्मेदार नहीं होगा। तकनीकी रूप से, यहाँ समस्या यह है कि आप मान रहे हैं कि आपके पास उदाहरण के लिए एक अच्छा नमूना है जैसे कि , लेकिन आपका वितरण पक्षपाती है।Eb′[f(b′,m)]b′
बेशक आपका डेटा यह बुरा नहीं लगेगा, लेकिन लीग संरचना या जो कुछ भी है, उसके आधार पर उस समस्या के कुछ तत्व हो सकते हैं।
आप एक अलग दृष्टिकोण के साथ इसके चारों ओर काम करने की कोशिश कर सकते हैं। लिए प्रस्तावित मॉडल वास्तव में कम-रैंक मैट्रिक्स फैक्टराइजेशन मॉडल है जो कि नेटफ्लिक्स समस्या में सहयोगी फ़िल्टरिंग में सामान्य है । वहाँ, आप फंक्शन और को आयाम , और प्रतिनिधित्व करते हैं । आप को एक "गुणवत्ता" स्कोर से कई आयामों के साथ स्कोर के रूप में अपने मॉडल को जटिल बनाने के रूप में व्याख्या कर सकते हैं : शायद कुछ निश्चित गेंदबाज कुछ प्रकार के बल्लेबाजों के खिलाफ बेहतर करते हैं। (यह एनबीए खेलों के लिए उदाहरण के लिए किया गया है ।)fg(b)h(m)rf(b,m)=g(b)Th(m)r>1
कारण उन्हें मैट्रिक्स फैक्टराइजेशन कहा जाता है क्योंकि यदि आप गेंदबाजों और बल्लेबाजों के रूप में कई स्तंभों के साथ एक मैट्रिक्स बनाते हैं , तो आप इसे इस रूप में लिख सकते हैंF
⎡⎣⎢⎢⎢⎢⎢f(b1,m1)f(b2,m1)⋮f(bN,m1)f(b1,m2)f(b2,m2)⋮f(bN,m2)……⋱…f(b1,mM)f(b2,mM)⋮f(bN,mM)⎤⎦⎥⎥⎥⎥⎥F=⎡⎣⎢⎢g(b1)⋮g(bN)⎤⎦⎥⎥G⎡⎣⎢⎢h(m1)⋮h(mM)⎤⎦⎥⎥THT
जहां आपने मैट्रिक्स को एक और एक में विभाजित किया है। ।
N×MFN×rGM×rH
बेशक, आपको सीधे का निरीक्षण करने की आवश्यकता नहीं है । सामान्य मॉडल यह है कि आप यादृच्छिक पर की शोर प्रविष्टियों का निरीक्षण करते हैं ; आपके मामले में, आपको प्रत्येक प्रविष्टि के लिए एक यादृच्छिक संख्या के परीक्षण के साथ एक द्विपद वितरण से एक ड्रॉ का निरीक्षण करना है ।FFF
आप एक संभावना मॉडल का निर्माण कर सकते हैं जैसे, कहते हैं:
Gik∼N(0,σ2G)Hjk∼N(0,σ2H)Fij=GTiHjRij∼Binomial(nij,Fij)
जहां और मनाया जाता है, और आप शायद कुछ हाइपरप्रियर्स को / ऊपर रख और
स्टान में उदा ।
nijRijσGσH
यह एक आदर्श मॉडल नहीं है: एक के लिए, यह उपेक्षा करता है कि स्कोर से संबंधित है (जैसा कि मैंने पहले खंड में उल्लेख किया है), और अधिक महत्वपूर्ण बात, यह को में होने के लिए बाध्य नहीं करता है (आप इसे प्राप्त करने के लिए शायद लॉजिस्टिक सिग्मॉइड या समान का उपयोग करेंगे)। और लिए अधिक जटिल पुजारियों के साथ एक संबंधित लेख (लेकिन जो द्विपद संभावना का उपयोग नहीं करता है) है: सलाखुद्दीनोव और मेन्ह, बायसियन प्रोबिस्टिस्टिक मैट्रिक्स फैक्टराइजेशन का उपयोग मार्कोव श्रृंखला मोंटे कार्लो , आईसीआईसी 2008। ( doi / author के pdf )nFij[0,1]GH