मैं समाचार कहानियों में आधारित अपराध सूचकांक और राजनीतिक अस्थिरता सूचकांक बनाना चाहता हूं


17

मेरे पास यह पक्ष परियोजना है जहां मैं अपने देश में स्थानीय समाचार वेबसाइटों को क्रॉल करता हूं और अपराध सूचकांक और राजनीतिक अस्थिरता सूचकांक बनाना चाहता हूं। मैंने पहले ही परियोजना के सूचना पुनर्प्राप्ति भाग को कवर कर लिया है। मेरी योजना यह करने की है:

  • विषयविषयक अर्क।
  • डुप्लिकेट का पता लगाने के पास।
  • पर्यवेक्षित वर्गीकरण और घटना स्तर (अपराध / राजनीतिक - उच्च / मध्यम / निम्न)।

मैं अजगर और स्केलेर का उपयोग करूंगा और पहले से ही उन कार्यों के लिए उपयोग किए जाने वाले एल्गोरिदम पर शोध कर सकता हूं। मुझे लगता है कि 2. मुझे एक कहानी का एक प्रासंगिकता कारक दे सकता है: एक समाचार या विषय के बारे में अधिक समाचार पत्र उस दिन के लिए अधिक प्रासंगिक प्रकाशित करते हैं।

मेरा अगला कदम उन सुविधाओं के आधार पर मासिक, साप्ताहिक और दैनिक सूचकांक (राष्ट्र-व्यापी और प्रति शहर) का निर्माण करना है और मैं "अस्थिरता संवेदनशीलता" के रूप में समय के बढ़ने के कारण थोड़ा खो गया हूं। मेरा मतलब है, पिछले वर्ष की प्रमुख अस्थिरता घटना से सूचकांक इस वर्ष के लिए सूचकांक से कम हो सकता है। इसके अलावा निश्चित पैमाने 0-100 या नहीं का उपयोग करने के लिए।

बाद में मैं इसके आधार पर घटनाओं की भविष्यवाणी करने में सक्षम होना चाहता हूं, उदाहरण के लिए कि क्या पिछले हफ्तों की घटनाओं का उत्तराधिकार एक बड़ी घटना है। लेकिन अब मैं वर्गीकरण काम करने और सूचकांक मॉडल के निर्माण से खुश रहूंगा।

मैं एक पेपर, प्रासंगिक रीडिंग या विचारों के लिए किसी भी पॉइंटर की सराहना करूंगा। धन्यवाद।

पीडी: क्षमा करें यदि प्रश्न यहाँ नहीं है।

अद्यतन करें : मैंने अभी तक "इसे नहीं बनाया है", लेकिन हाल ही में वैज्ञानिकों के एक समूह के बारे में एक खबर आई थी जो समाचार अभिलेखागार का उपयोग करके घटनाओं की भविष्यवाणी करने के लिए एक प्रणाली में काम कर रहे हैं और एक प्रासंगिक पेपर जारी किया है भविष्य की घटनाओं के लिए वेब खनन करें (पीडीएफ )।


तकनीकी भाग (उपकरण) के लिए मैं दो पुस्तकों की सिफारिश करूंगा, जैसे कि दोनों अच्छे स्टारिंग प्वाइंट फ्रॉ ओ रेली: कलेक्टिव इंटेलिजेंस (पायथन कोड के साथ), मशीन लर्निंग (आर कोड के साथ) ... तेरा कब्जा विषय आपके साथ जुड़ा हुआ है। अगला चरण मैनिंग वेबसाइट हो सकता है ... मैथोडोलॉजिकल पार्ट के लिए मैं लिंक्डइन पर सेमेटिक वेब समूह की सिफारिश करूंगा।
रादु मारियस फ्लोरिन

यह सवाल बहुत पसंद आया। हमें सूचित रखो!!
एन्ट्रापी

जवाबों:


1

GINI स्कोर पर विविधताओं पर विचार करें।

यह सामान्यीकृत है, और इसका उत्पादन 0 से 1 तक है।

संपादित करें:

GINI "शांत" या कम से कम संभावित रूप से उपयुक्त क्यों है:

यह असमानता या असमानता का मापक है। इसका उपयोग पैमाने-मुक्त नेटवर्क की विषमता को चिह्नित करने के लिए एक पैमाने पर मुफ्त उपाय के रूप में किया जाता है, जिसमें अनंत और यादृच्छिक नेटवर्क शामिल हैं। यह कार्ट पेड़ बनाने में उपयोगी है क्योंकि यह एक विशेष डेटा-विभाजन की शक्ति को मापने का उपाय है।

इसकी सीमा के कारण:

  • इसमें राउंडऑफ़ त्रुटियाँ कम हैं। 1.0 से दूर के रंग संख्यात्मक मुद्दों को झेलते हैं।
  • यह मानव पठनीय है, और अधिक मानव सुलभ है। मनुष्य के पास अरबों की वस्तुओं की तुलना में अधिक ठोस समझ है।

क्योंकि यह सामान्यीकृत है:

  • स्कोर की तुलना सार्थक है, एक देश में एक 0.9 का मतलब किसी भी अन्य देश में 0.9 के रूप में सापेक्ष गैर-एकरूपता का समान स्तर है।
  • यह एकरूपता के लिए लोरेंज वक्र के खिलाफ सामान्यीकृत है इसलिए मान लोरेंज वक्र के लिए ब्याज के मूल्यों के वितरण के संबंध के प्रासंगिक संकेतक हैं।

संदर्भ:


4
साइट पर आपका स्वागत है, @EngrStudent। क्या आप Gini गुणांक के बारे में कुछ और कहना चाहेंगे, और यहाँ इसका सही उत्तर क्यों है? चूंकि आप यहां नए हैं और योगदान करना शुरू कर रहे हैं, आप हमारे FAQ को पढ़ना चाह सकते हैं , जिसमें साइट के बारे में बहुत सारी जानकारी है।
गूँग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.