मेरे पास यह पक्ष परियोजना है जहां मैं अपने देश में स्थानीय समाचार वेबसाइटों को क्रॉल करता हूं और अपराध सूचकांक और राजनीतिक अस्थिरता सूचकांक बनाना चाहता हूं। मैंने पहले ही परियोजना के सूचना पुनर्प्राप्ति भाग को कवर कर लिया है। मेरी योजना यह करने की है:
- विषयविषयक अर्क।
- डुप्लिकेट का पता लगाने के पास।
- पर्यवेक्षित वर्गीकरण और घटना स्तर (अपराध / राजनीतिक - उच्च / मध्यम / निम्न)।
मैं अजगर और स्केलेर का उपयोग करूंगा और पहले से ही उन कार्यों के लिए उपयोग किए जाने वाले एल्गोरिदम पर शोध कर सकता हूं। मुझे लगता है कि 2. मुझे एक कहानी का एक प्रासंगिकता कारक दे सकता है: एक समाचार या विषय के बारे में अधिक समाचार पत्र उस दिन के लिए अधिक प्रासंगिक प्रकाशित करते हैं।
मेरा अगला कदम उन सुविधाओं के आधार पर मासिक, साप्ताहिक और दैनिक सूचकांक (राष्ट्र-व्यापी और प्रति शहर) का निर्माण करना है और मैं "अस्थिरता संवेदनशीलता" के रूप में समय के बढ़ने के कारण थोड़ा खो गया हूं। मेरा मतलब है, पिछले वर्ष की प्रमुख अस्थिरता घटना से सूचकांक इस वर्ष के लिए सूचकांक से कम हो सकता है। इसके अलावा निश्चित पैमाने 0-100 या नहीं का उपयोग करने के लिए।
बाद में मैं इसके आधार पर घटनाओं की भविष्यवाणी करने में सक्षम होना चाहता हूं, उदाहरण के लिए कि क्या पिछले हफ्तों की घटनाओं का उत्तराधिकार एक बड़ी घटना है। लेकिन अब मैं वर्गीकरण काम करने और सूचकांक मॉडल के निर्माण से खुश रहूंगा।
मैं एक पेपर, प्रासंगिक रीडिंग या विचारों के लिए किसी भी पॉइंटर की सराहना करूंगा। धन्यवाद।
पीडी: क्षमा करें यदि प्रश्न यहाँ नहीं है।
अद्यतन करें : मैंने अभी तक "इसे नहीं बनाया है", लेकिन हाल ही में वैज्ञानिकों के एक समूह के बारे में एक खबर आई थी जो समाचार अभिलेखागार का उपयोग करके घटनाओं की भविष्यवाणी करने के लिए एक प्रणाली में काम कर रहे हैं और एक प्रासंगिक पेपर जारी किया है भविष्य की घटनाओं के लिए वेब खनन करें (पीडीएफ )।