ElasticSearch में संग्रहीत ग्राहक डेटा को क्लस्टर करना


10

मेरे पास ग्राहक प्रोफ़ाइलों का एक समूह है, जिसमें संग्रहीत किया गया है क्लस्टर। इन प्रोफाइल का उपयोग अब हमारी ईमेल सदस्यता के लिए लक्षित समूहों के निर्माण के लिए किया जाता है।

लक्ष्य समूह अब मैन्युअल रूप से elasticsearch मुखर खोज क्षमताओं (जैसे एक कार और 3 बच्चों के साथ 23 वर्ष की आयु के सभी पुरुष ग्राहकों को प्राप्त) का उपयोग करके बनाए जाते हैं।

मैं दिलचस्प समूहों को स्वचालित रूप से कैसे खोज सकता हूं - डेटा विज्ञान, मशीन सीखने, क्लस्टरिंग या कुछ और का उपयोग करके?

प्रोग्रामिंग भाषा इस कार्य के लिए एक अच्छा उपकरण प्रतीत होती है, लेकिन मैं ऐसे समूह खोज की पद्धति नहीं बना सकता। एक समाधान यह है कि किसी तरह ग्राहकों का सबसे बड़ा समूह ढूंढे और उन्हें लक्षित समूहों के रूप में उपयोग करें, इसलिए सवाल यह है:

मैं स्वचालित रूप से समान ग्राहकों के सबसे बड़े समूहों को कैसे चुन सकता हूं (मापदंडों के समान जो मुझे इस समय नहीं पता है)?

उदाहरण के लिए: मेरा कार्यक्रम ई-मास्टिक्स से कनेक्ट होगा, CSV के लिए ग्राहक डेटा को ऑफलोड करेगा और R भाषा स्क्रिप्ट का उपयोग करने से पता चलेगा कि ग्राहकों का बड़ा हिस्सा बिना बच्चों वाला पुरुष है और ग्राहकों के एक और बड़े हिस्से के पास एक कार है और उनकी आंखों का रंग भूरा है।


1
"दिलचस्प समूहों" के तहत आपका क्या मतलब है? क्या आपके पास कुछ पूर्वनिर्धारित महत्वपूर्ण फीचर सूची है?
यतुल १४'१४ को

दिलचस्प समूह किसी भी सीमा से अधिक आकार के कोई भी समूह हैं जो अन्य संभावित समूहों की तुलना में बहुत बड़े हैं।
कोन्स्टेंटिन वी। सालिखोव

1
यह स्पष्ट नहीं है कि आप अपने डेटा की तैयारी कैसे करेंगे। लेकिन आपको en.wikipedia.org/wiki/Anomaly_detection पर वर्णित एल्गोरिदम को देखना चाहिए । यदि मैं आप थे, तो मैंने पहले SVM ​​विधि की जाँच की है
yatul

मैंने SVM ​​के बारे में पढ़ा है और मुझे लगता है कि यह मौजूदा डेटासेट पर मैन्युअल प्रशिक्षण के बाद नए बनाए गए डेटा के वर्गीकरण के बारे में है - मौजूदा डेटा को क्लस्टर करने और असामान्य रूप से बड़े क्लस्टर खोजने के बारे में नहीं। क्या मैं सही हू? यदि मैं हूं तो यह विधि वह नहीं है जो मैं चाहता हूं।
कोन्स्टेंटिन वी। सालिखोव

जवाबों:


6

इसके लिए इस्तेमाल किया जा सकता है कि एक एल्गोरिथ्म k- साधन क्लस्टरिंग एल्गोरिथ्म है

मूल रूप से:

  1. बेतरतीब ढंग से अपने सेट, k_1, ..., m_k से k डाटापॉइंट चुनें।
  2. "अभिसरण तक":

    1. अपने डेटा पॉइंट्स को k क्लस्टर्स को असाइन करें, जहाँ क्लस्टर i उन बिंदुओं का समूह है जिसके लिए m_i आपके वर्तमान साधनों के सबसे नजदीक है
    2. प्रत्येक i_i को प्रतिस्थापित करें, जो कि i को दिए गए सभी बिंदुओं के माध्यम से बदल देता है।

इस एल्गोरिथ्म को कई बार दोहराने के लिए अच्छा अभ्यास है, फिर उस परिणाम को चुनें जो प्रत्येक क्लस्टर i और केंद्र m_i के बिंदुओं के बीच की दूरी को कम करता है।

बेशक, आपको यहां शुरू करने के लिए कश्मीर जानना होगा; हालाँकि, आप इस पैरामीटर को चुनने के लिए क्रॉस-वेलिडेशन का उपयोग कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.