मैं समाचार कहानियों में आधारित अपराध सूचकांक और राजनीतिक अस्थिरता सूचकांक बनाना चाहता हूं

मेरे पास यह पक्ष परियोजना है जहां मैं अपने देश में स्थानीय समाचार वेबसाइटों को क्रॉल करता हूं और अपराध सूचकांक और राजनीतिक अस्थिरता सूचकांक बनाना चाहता हूं। मैंने पहले ही परियोजना के सूचना पुनर्प्राप्ति भाग को कवर कर लिया है। मेरी योजना यह करने की है:

विषयविषयक अर्क।
डुप्लिकेट का पता लगाने के पास।
पर्यवेक्षित वर्गीकरण और घटना स्तर (अपराध / राजनीतिक - उच्च / मध्यम / निम्न)।

मैं अजगर और स्केलेर का उपयोग करूंगा और पहले से ही उन कार्यों के लिए उपयोग किए जाने वाले एल्गोरिदम पर शोध कर सकता हूं। मुझे लगता है कि 2. मुझे एक कहानी का एक प्रासंगिकता कारक दे सकता है: एक समाचार या विषय के बारे में अधिक समाचार पत्र उस दिन के लिए अधिक प्रासंगिक प्रकाशित करते हैं।

मेरा अगला कदम उन सुविधाओं के आधार पर मासिक, साप्ताहिक और दैनिक सूचकांक (राष्ट्र-व्यापी और प्रति शहर) का निर्माण करना है और मैं "अस्थिरता संवेदनशीलता" के रूप में समय के बढ़ने के कारण थोड़ा खो गया हूं। मेरा मतलब है, पिछले वर्ष की प्रमुख अस्थिरता घटना से सूचकांक इस वर्ष के लिए सूचकांक से कम हो सकता है। इसके अलावा निश्चित पैमाने 0-100 या नहीं का उपयोग करने के लिए।

बाद में मैं इसके आधार पर घटनाओं की भविष्यवाणी करने में सक्षम होना चाहता हूं, उदाहरण के लिए कि क्या पिछले हफ्तों की घटनाओं का उत्तराधिकार एक बड़ी घटना है। लेकिन अब मैं वर्गीकरण काम करने और सूचकांक मॉडल के निर्माण से खुश रहूंगा।

मैं एक पेपर, प्रासंगिक रीडिंग या विचारों के लिए किसी भी पॉइंटर की सराहना करूंगा। धन्यवाद।

पीडी: क्षमा करें यदि प्रश्न यहाँ नहीं है।

अद्यतन करें : मैंने अभी तक "इसे नहीं बनाया है", लेकिन हाल ही में वैज्ञानिकों के एक समूह के बारे में एक खबर आई थी जो समाचार अभिलेखागार का उपयोग करके घटनाओं की भविष्यवाणी करने के लिए एक प्रणाली में काम कर रहे हैं और एक प्रासंगिक पेपर जारी किया है भविष्य की घटनाओं के लिए वेब खनन करें (पीडीएफ )।

machine-learning classification text-mining

— रोलैंडो मैक्स
स्रोत

तकनीकी भाग (उपकरण) के लिए मैं दो पुस्तकों की सिफारिश करूंगा, जैसे कि दोनों अच्छे स्टारिंग प्वाइंट फ्रॉ ओ रेली: कलेक्टिव इंटेलिजेंस (पायथन कोड के साथ), मशीन लर्निंग (आर कोड के साथ) ... तेरा कब्जा विषय आपके साथ जुड़ा हुआ है। अगला चरण मैनिंग वेबसाइट हो सकता है ... मैथोडोलॉजिकल पार्ट के लिए मैं लिंक्डइन पर सेमेटिक वेब समूह की सिफारिश करूंगा।

— रादु मारियस फ्लोरिन

यह सवाल बहुत पसंद आया। हमें सूचित रखो!!

— एन्ट्रापी

GINI स्कोर पर विविधताओं पर विचार करें।

यह सामान्यीकृत है, और इसका उत्पादन 0 से 1 तक है।

संपादित करें:

GINI "शांत" या कम से कम संभावित रूप से उपयुक्त क्यों है:

यह असमानता या असमानता का मापक है। इसका उपयोग पैमाने-मुक्त नेटवर्क की विषमता को चिह्नित करने के लिए एक पैमाने पर मुफ्त उपाय के रूप में किया जाता है, जिसमें अनंत और यादृच्छिक नेटवर्क शामिल हैं। यह कार्ट पेड़ बनाने में उपयोगी है क्योंकि यह एक विशेष डेटा-विभाजन की शक्ति को मापने का उपाय है।

इसकी सीमा के कारण:

इसमें राउंडऑफ़ त्रुटियाँ कम हैं। 1.0 से दूर के रंग संख्यात्मक मुद्दों को झेलते हैं।
यह मानव पठनीय है, और अधिक मानव सुलभ है। मनुष्य के पास अरबों की वस्तुओं की तुलना में अधिक ठोस समझ है।

क्योंकि यह सामान्यीकृत है:

स्कोर की तुलना सार्थक है, एक देश में एक 0.9 का मतलब किसी भी अन्य देश में 0.9 के रूप में सापेक्ष गैर-एकरूपता का समान स्तर है।
यह एकरूपता के लिए लोरेंज वक्र के खिलाफ सामान्यीकृत है इसलिए मान लोरेंज वक्र के लिए ब्याज के मूल्यों के वितरण के संबंध के प्रासंगिक संकेतक हैं।

संदर्भ:

— EngrStudent - मोनिका को बहाल करना
स्रोत

साइट पर आपका स्वागत है, @EngrStudent। क्या आप Gini गुणांक के बारे में कुछ और कहना चाहेंगे, और यहाँ इसका सही उत्तर क्यों है? चूंकि आप यहां नए हैं और योगदान करना शुरू कर रहे हैं, आप हमारे FAQ को पढ़ना चाह सकते हैं , जिसमें साइट के बारे में बहुत सारी जानकारी है।

— गूँग - मोनिका