पायथन में अच्छा "लगातार अनुक्रम खनन" संकुल?


14

क्या किसी ने MLLib में FPM के अलावा किसी अच्छे "लगातार अनुक्रम खनन" पैकेज का उपयोग (पसंद) किया है? मैं एक स्थिर पैकेज की तलाश कर रहा हूं, जो लोगों द्वारा अभी भी बनाए रखा गया है। धन्यवाद!

जवाबों:


6

केवल एक ही मैंने पाया है: https://github.com/bartdag/pymining

उनका BIDEवहां कार्यान्वयन है, लेकिन यह कोड बनाए नहीं रखा गया है।

PS मैं आपके प्रश्न से जुड़ रहा हूँ: - |


बस स्पष्ट करने के लिए, इसने BIDE को लागू नहीं किया, जो बार-बार बंद होने वाले खानों को करता है। इसने वास्तव में PrefixSpan को लागू किया जो सभी क्रमों को बार-बार करता है। PrefixSpan और BIDE समान पैटर्न एन्यूमरेशन फ्रेमवर्क साझा करते हैं, और इसीलिए लेखकों ने BIDE पेपर का हवाला दिया।
चुआनगॉन्ग गाओ

मैंने अंत में जो किया वह प्रयोग किया जाता है: philippe-fournier-viger.com/spmf - यह एक JAVA
लिबास है

6

मैं सक्रिय रूप से Python 3 में PrefixSpan और BIDE दोनों का कुशल क्रियान्वयन कर रहा हूं, जो लगातार और शीर्ष-के (बंद) क्रमिक पैटर्न दोनों खनन का समर्थन करता है।

https://github.com/chuanconggao/PrefixSpan-py


मैं उन लोगों को जावास्क्रिप्ट में लागू करना चाहता हूं, लेकिन मुझे पूरी तरह से समझ में नहीं आता है कि ये एल्गोरिदम कैसे काम करते हैं। क्या आप इसे सादे अंग्रेजी में समझा सकते हैं?
inf3rno

मेरा सुझाव है कि आप PrefixSpan के मेरे मूल न्यूनतम कार्यान्वयन की जांच करें। इसके मूल भाग में केवल 15 लाइनें लगती हैं। gist.github.com/chuanconggao/4df9c1b06fa7f3ed854d5d96e2ae499f
गाओ

धन्यवाद! मैं इसे js में अनुवाद करने की कोशिश करूंगा, लेकिन यह आसान नहीं होगा। :-) Afaik PrefixSpan अनुमानित डेटाबेस का निर्माण कर रहा है जहां उपसर्ग मैच करता है। मैं वर्तमान में BIDE के बारे में पढ़ रहा हूं, जो कि सिद्धांत एक बेहतर एल्गोरिदम है।
inf3rno

Js और python संग्रह के बीच बहुत अंतर हैं। मैंने js में कोड को पुन: उत्पन्न करने का प्रबंधन नहीं किया। मैं इसे बाद में फिर से कोशिश करूँगा।
inf3rno

निश्चित नहीं है कि यह मदद करता है, लेकिन मेरे पास PrefixSpan का एक और स्काला संस्करण है। github.com/chuanconggao/PrefixSpan-scala हालाँकि, मैं अत्यधिक सुझाव देता हूं कि लागू करने से पहले आप एल्गोरिथ्म को पूरी तरह से समझ लें।
चुआंगॉन्ग गाओ

1

मैं अतीत में fim है fpgrowth फ़ंक्शन का उपयोग किया है और यह अच्छी तरह से काम किया है। हालाँकि, विंडोज मशीनों पर इंस्टॉल करना एक तरह का दर्द है। ऐसा लगता है कि यह एक शैक्षणिक वेबसाइट है, इसलिए मुझे यकीन नहीं है कि वे समय के साथ कोड में कई अपडेट कर रहे हैं ...


1

क्या आपने इसे अपने द्वारा लिखने के लिए माना है? क्योंकि अभी कोई अप-टू-डेट कायम पुस्तकालय नहीं है।

इसे देखें, इसके मूल - PrefixSpan और बंद / अधिकतम पैटर्न वास्तव में लागू करने के लिए कठिन नहीं हैं:

http://sequenceanalysis.github.io/



हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.