एक 'बीयर और डायपर' सहसंबंध विश्लेषण कैसे करें


8

मेरे पास डेटा है जो इसके बराबर है:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

मैं एक सहसंबंध मैट्रिक्स पाने के लिए सेट किए गए इस डेटा पर कुछ विश्लेषण करना चाहूंगा जिसका एक निहितार्थ होगा: यदि आपने x खरीदा है, तो आप y खरीदने की संभावना रखते हैं।

अजगर का उपयोग करना (या शायद कुछ भी लेकिन MATLAB), मैं उसके बारे में कैसे जा सकता हूं? कुछ बुनियादी दिशा-निर्देश, या संकेत जहां मुझे देखना चाहिए, मदद करेगा।

धन्यवाद,

संपादित करें - मैंने जो सीखा है:

  1. इस तरह की समस्याओं को एसोसिएशन रूल डिस्कवरी के रूप में जाना जाता है। विकिपीडिया में ऐसा करने के लिए कुछ सामान्य एल्गोरिदम को कवर करने वाला एक अच्छा लेख है। अग्रवाल एट के कारण ऐसा करने के लिए क्लासिक एल्गोरिदम एप्रीओरी लगता है। अल।

  2. कि मुझे नारंगी , एक अजगर अजगर डेटा खनन पैकेज के लिए सीसा । लिनक्स के लिए, इसे स्थापित करने का सबसे अच्छा तरीका आपूर्ति किए गए setup.py का उपयोग करके स्रोत से लगता है

  3. डिफ़ॉल्ट रूप से ऑरेंज फाइलों से इनपुट पढ़ता है, कई समर्थित तरीकों में से एक में स्वरूपित।

  4. अंत में, एक साधारण एप्रीओरी एसोसिएशन नियम सीखना नारंगी में सरल है।


3
यदि आप एक आर पैकेज की तलाश में थे, arulesतो देखने लायक होगा। हो सकता है कि "संघ के नियम" एक अच्छा खोज शब्द है
कार्स्टन डब्ल्यू।

2
इस समस्या के लिए "मानक" दृष्टिकोण के लिए एप्रीओरी एल्गोरिदम भी देखें ।
कार्डिनल

जवाबों:


7

टिप्पणियों में दिए गए लिंक के अलावा, यहां कुछ और संकेत दिए गए हैं:

पायथन के बारे में, मुझे लगता है कि अब आपके पास एक विचार है कि आपको क्या ढूंढना चाहिए, लेकिन ऑरेंज डेटा माइनिंग पैकेज में एसोसिएशन के नियमों और आइटम पर एक पैकेज है (हालांकि बाद के लिए मुझे वेबसाइट पर कोई संदर्भ नहीं मिल सकता है)।

संपादित करें:

मैं हाल ही में pysuggest भर में आया हूं जो कि है

एक शीर्ष-एन अनुशंसा इंजन जो विभिन्न प्रकार के अनुशंसा एल्गोरिदम को लागू करता है। टॉप-एन अनुशंसाकर्ता प्रणाली, एक व्यक्तिगत सूचना फ़िल्टरिंग तकनीक, का उपयोग एन आइटमों के एक सेट की पहचान करने के लिए किया जाता है जो एक निश्चित उपयोगकर्ता के लिए ब्याज की होगी। हाल के वर्षों में, टॉप-एन अनुशंसाकर्ता प्रणाली का उपयोग विभिन्न अनुप्रयोगों में किया गया है, ऐसे उत्पादों की सिफारिश करने के लिए जिन्हें ग्राहक सबसे अधिक खरीदेंगे; फिल्मों, टीवी कार्यक्रमों या संगीत की सिफारिश करें जो एक उपयोगकर्ता को सुखद लगेगी; उन वेब पृष्ठों की पहचान करें जो ब्याज के होंगे; या यहां तक ​​कि जानकारी के लिए खोज के वैकल्पिक तरीके भी सुझाते हैं।


कितने उत्पादों, मुझे आश्चर्य है, एक सरल सहसंबंध मैट्रिक्स से पहले शामिल होने की आवश्यकता अपर्याप्त है?
रोलैंडो 2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.