क्या M-आकलनकर्ता का अनुभवजन्य हेसियन अनिश्चित हो सकता है?


15

क्रॉस सेक्शन और पैनल डेटा (पृष्ठ 357) के अपने इकोनोमेट्रिक एनालिसिस में जेफरी वोल्ड्रिज का कहना है कि अनुभवजन्य हेसियन "हम जिस विशेष नमूने के साथ काम कर रहे हैं, उसके लिए सकारात्मक निश्चितता, या सकारात्मक सकारात्मक भी नहीं है।"

यह मेरे लिए गलत लगता है (संख्यात्मक समस्याओं के अलावा) हेसियन एम-आकलनकर्ता की परिभाषा के परिणामस्वरूप सकारात्मक अर्धचालक होना चाहिए, पैरामीटर के मूल्य के रूप में जो दिए गए नमूने के लिए उद्देश्य फ़ंक्शन को कम करता है और अच्छी तरह से ज्ञात तथ्य है कि एक (स्थानीय) न्यूनतम हेस्सियन सकारात्मक अर्धविराम है।

क्या मेरा तर्क सही है?

[संपादित करें: कथन को दूसरे संस्करण में हटा दिया गया है। किताब की। टिप्पणी देखें]

पृष्ठभूमि मान लीजिए कि θ एन एक आकलनकर्ता को कम करने के द्वारा प्राप्त किया है 1θ^N

1Ni=1Nq(wi,θ),
जहांwiअर्थ हैiमई के अवलोकन।

चलो की हेस्सियन निरूपित द्वारा एच , एच ( क्ष , θ ) मैं j = 2 क्षqH

H(q,θ)ij=2qθiθj

की asymptotic सहप्रसरण θ शामिल है[ एच ( क्ष , θ 0 ) ] जहां θ 0 सच पैरामीटर मान है। अनुमान लगाने का एक तरीका अनुभवजन्य हेस्सियन का उपयोग करना हैθ^nE[H(q,θ0)]θ0

H^=1Ni=1NH(wi,θ^n)

यह की निश्चितता है एच जो सवाल में है।H^


1
@ ज्योतिर्मय, क्या होगा यदि न्यूनतम आपके पैरामीटर स्थान की सीमा पर होता है?
कार्डिनल

@cardinal। आप सही हैं, मेरा तर्क उस मामले में काम नहीं करेगा। लेकिन वोल्ड्रिज उस मामले पर विचार कर रहा है जहां इंटीरियर में न्यूनतम है। क्या वह उस मामले में गलत नहीं है?
ज्योतिर्मय भट्टाचार्य

@ ज्योतिर्मय, यह निश्चित रूप से केवल सकारात्मक अर्धविराम हो सकता है। रैखिक कार्यों या एक फ़ंक्शन के बारे में सोचें जहां न्यूनतम बिंदुओं का सेट एक उत्तल पॉलीटोप बनाता है। एक सरल उदाहरण के लिए, किसी भी बहुपद पर विचार पर एक्सf(x)=x2nx=0
कार्डिनल

1
@cardinal। सच। जो मुझे परेशान कर रहा है वह उद्धृत कथन में "यहां तक ​​कि सकारात्मक अर्धविराम" वाक्यांश है।
ज्योतिर्मय भट्टाचार्य

@ ज्योतिर्मय, क्या पुस्तक में दिए गए एम-आकलनकर्ता का एक विशिष्ट रूप है जो आप प्रदान कर सकते हैं? विचाराधीन पैरामीटर स्थान भी दें। शायद तब हम यह पता लगा सकते हैं कि लेखक के मन में क्या था। सामान्य तौर पर, मुझे लगता है कि हम पहले ही स्थापित कर चुके हैं कि लेखक का दावा सही है। या पैरामीटर स्थान के रूप में आगे की बाधाओं को रखने पर विचार किया जा सकता है जो बदल सकता है। q
कार्डिनल

जवाबों:


16

मुझे लगता है कि आप सही हैं। आइए अपने तर्क को इसके सार के लिए डिस्टिल करें:

  1. समारोह को कम करता हैक्यूके रूप में परिभाषितθ^NQQ(θ)=1Ni=1Nq(wi,θ).

  2. चलो के हेस्सियन हो क्यू , जिस कारण से एच ( θHQ परिभाषा के द्वारा और इस बारी में, भेदभाव के linearity द्वारा, के बराबर होती है1H(θ)=2Qθiθj1Ni=1NH(wi,θn)

  3. मान लिया जाये कि θ एन के डोमेन के भीतरी इलाकों में झूठ क्यू , तो एच ( θ एन ) सकारात्मक अर्द्ध निश्चित होना चाहिए।θ^NQH(θ^N)

यह फ़ंक्शन बारे में केवल एक कथन है : इसे कैसे परिभाषित किया जाता है, यह केवल एक व्याकुलता है, इसके अलावा insofar को अपने दूसरे तर्क के संबंध में q के दूसरे क्रम की भिन्नता के रूप में माना जाता है ( ass ) क्यू के दूसरे क्रम की विभिन्नता को आश्वस्त करता है ।QqθQ


एम-अनुमानक ढूंढना मुश्किल हो सकता है। @Mpiktas द्वारा उपलब्ध कराए गए इन आंकड़ों पर विचार करें:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

आर प्रक्रिया के साथ एम आकलनकर्ता को खोजने के लिए समाधान का उत्पादन ( 1 , सी 2 ) = ( - ११४.९१,३१६ , - ३२.५४,३८६ ) । इस बिंदु पर उद्देश्य फ़ंक्शन का मान ( q का औसत ) 62.3542 के बराबर होता है। यहाँ फिट की एक साजिश है:q((x,y),θ)=(yc1xc2)4(c1,c2)(114.91316,32.54386)q

Fit 1

यहाँ इस फिट के पड़ोस में (लॉग) उद्देश्य समारोह की एक साजिश है:

Objective 1

यहाँ कुछ गड़बड़ है: फिट के पैरामीटर डेटा का अनुकरण करने के लिए उपयोग किए जाने वाले मापदंडों से बहुत दूर हैं (निकट ) और हमें न्यूनतम नहीं लगता है: हम एक बेहद उथली घाटी में हैं जो ढलान पर है दोनों मापदंडों के बड़े मूल्यों की ओर:(0.3,0.2)

Objective 1, 3D view

इस बिंदु पर हेसियन का नकारात्मक निर्धारक पुष्टि करता है कि यह एक स्थानीय न्यूनतम नहीं है! फिर भी, जब आप z- अक्ष लेबल को देखते हैं, तो आप देख सकते हैं कि यह फ़ंक्शन पूरे क्षेत्र के भीतर पांच-अंकीय परिशुद्धता के लिए सपाट है , क्योंकि यह एक निरंतर 4.1329 (62.354 का लघुगणक) के बराबर है। संभवत: यह आर फ़ंक्शन मिनिमाइज़र (इसकी डिफ़ॉल्ट सहिष्णुता के साथ) यह निष्कर्ष निकालने के लिए था कि यह न्यूनतम के पास है।

वास्तव में, समाधान इस बिंदु से बहुत दूर है। इसे खोजने के लिए सुनिश्चित होने के लिए, मैंने संभावित संख्यात्मक समस्याओं से बचने के लिए 50-अंकीय परिशुद्धता (बेस 10) का उपयोग करते हुए, मैथमैटिका में कम्प्यूटेशनल रूप से महंगी लेकिन अत्यधिक प्रभावी " प्रिंसिपल एक्सिस " विधि को नियोजित किया । यह एक न्यूनतम निकट ( सी 1 , सी 2 ) = ( 0.02506 , 7.55973 ) पाता है(c1,c2)=(0.02506,7.55973) जहां उद्देश्य फ़ंक्शन का मूल्य 58.292655 है: आर द्वारा पाया गया "न्यूनतम" की तुलना में लगभग 6% छोटा है। यह न्यूनतम एक अत्यंत फ्लैट दिखने वाले खंड में होता है। , लेकिन मैं इसे (केवल मुश्किल से) एक वास्तविक न्यूनतम की तरह बना सकता हूं, अण्डाकार आकृति के साथ, सी 2 से अतिरंजित होकरc2 प्लॉट में दिशा:

Objective 2

बीच में 58.29266 से लेकर कॉर्नर तक (58) तक सभी तरह के कंट्रोल्स रेंज () में मौजूद हैं। यहाँ 3D दृश्य (लॉग उद्देश्य का फिर से):

Objective 2, 3D view

यहाँ हेसियन सकारात्मक-निश्चित है: इसकी प्रतिजन संख्या 55062.02 और 0.430978 है। इस प्रकार यह बिंदु एक स्थानीय न्यूनतम (और वैश्विक न्यूनतम संभावना है)। यहाँ फिट है जो इसके अनुरूप है:

Fit 2

मुझे लगता है कि यह दूसरे से बेहतर है। पैरामीटर मान निश्चित रूप से अधिक यथार्थवादी हैं और यह स्पष्ट है कि हम घटता के इस परिवार के साथ बहुत बेहतर नहीं कर पाएंगे।

उपयोगी सबक हैं जो हम इस उदाहरण से आकर्षित कर सकते हैं:

  1. न्यूमेरिकल फिटिंग और गैर-द्विघात नुकसान कार्यों के साथ संख्यात्मक अनुकूलन मुश्किल हो सकता है। इसलिए:
  2. संभव के रूप में कई मायनों में डबल-चेक परिणाम, सहित:
  3. जब भी आप कर सकते हैं उद्देश्य फ़ंक्शन को ग्राफ़ करें।
  4. जब गणितीय प्रमेयों का उल्लंघन करने के लिए संख्यात्मक परिणाम दिखाई देते हैं, तो अत्यंत संदिग्ध हो।
  5. जब सांख्यिकीय परिणाम आश्चर्यजनक होते हैं - जैसे कि आर कोड द्वारा दिए गए आश्चर्यजनक पैरामीटर मान - अतिरिक्त संदिग्ध हो।

+1, अच्छा विश्लेषण। मुझे लगता है कि वोल्ड्रिज ने टिप्पणी को क्यों शामिल किया है। मुझे अभी भी लगता है कि कुछ उदाहरण के बारे में सोचना संभव है, जहां हेस्सियन अनिश्चितकालीन होगा। उदाहरण के लिए पैरामीटर स्पेस को कृत्रिम रूप से प्रतिबंधित करना। इस उदाहरण में पैरामीटर स्पेस पूरा प्लेन है, यही वजह है कि स्थानीय न्यूनतम सेमी पॉजिटिव हेसियन देगा। मुझे लगता है कि
वोल्ड्रिज

@mpiktas हां, मुझे यकीन है कि ऐसी समस्याएं मौजूद हैं जहां एक आंतरिक वैश्विक न्यूनतम में अनिश्चित हेसियन है, फिर भी जहां सभी पैरामीटर पहचान योग्य हैं। लेकिन यह केवल हेसियन के लिए पर्याप्त रूप से चिकनी आंतरिक वैश्विक पर अनिश्चितकालीन होने के लिए संभव नहीं है। इस तरह की बात बार-बार साबित हुई है, जैसे कि मिलनोर की टोपोलॉजी में डिफरेंशिएबल व्यूपॉइंट से । मुझे संदेह है कि Wooldridge को गलत संख्यात्मक "समाधानों" से गुमराह किया गया है। (उद्धृत पृष्ठ पर लिखने की त्रुटियों का सुझाव यह जल्दी से लिखा गया था, वैसे।)
whuber

सीमा पर भी, हेसियन सकारात्मक होगा? मैं पुस्तक की जाँच करूँगा, मैं देखता हूँ कि मुझे इस क्षेत्र में व्यापक ज्ञान की कमी है। शास्त्रीय प्रमेय बहुत सरल हैं, इसलिए मैंने यह माना कि बहुत जटिल कुछ और नहीं होना चाहिए। शायद यही कारण है कि मुझे इस सवाल का जवाब देने में इतनी कठिनाई हुई।
mpiktas

@mpiktas हेसियन की सीमा पर आवश्यक रूप से परिभाषित भी नहीं किया जाएगा । यह विचार यह है: यदि याकूबियन / हेस्सियन / दूसरा व्युत्पन्न मैट्रिक्स एक महत्वपूर्ण बिंदु पर परिभाषित किया गया है, तो एक पड़ोस में फ़ंक्शन इस मैट्रिक्स द्वारा निर्धारित द्विघात रूप की तरह कार्य करता है। यदि मैट्रिक्स में सकारात्मक और नकारात्मक आईजेन्यूअल हैं, तो फ़ंक्शन को कुछ दिशाओं में बढ़ना चाहिए और दूसरों में कमी होनी चाहिए : यह स्थानीय चरम सीमा नहीं हो सकती है। यह वही है जो @Jyotirmoy उद्धरण के बारे में चिंतित है, जो इस मूल संपत्ति के विपरीत लगता है।
whuber

बहुत अच्छे विश्लेषण के लिए आप और @mpiktas दोनों को धन्यवाद। मैं आपसे सहमत होना चाहूंगा कि वोल्ड्रिज अनुमानक के सैद्धांतिक गुणों के साथ संख्यात्मक कठिनाइयों को भ्रमित कर रहा है। चलो देखते हैं कि क्या कोई अन्य उत्तर हैं।
ज्योतिर्मय भट्टाचार्य

7

θ^N

minθΘN1i=1Nq(wi,θ)

θ^NΘH^

N1i=1Nq(wi,θ)θ0

minθΘEq(w,θ).

N1i=1Nq(wi,θ)Θ जिसमें उद्देश्य समारोह के हेस्सियन सकारात्मक निश्चित नहीं की जरूरत है।

अपनी पुस्तक में आगे वोल्ड्रिज हेसियन के अनुमानों का एक उदाहरण देता है जो कि संख्यात्मक रूप से सकारात्मक निश्चित होने की गारंटी है। व्यवहार में हेसियन की गैर-सकारात्मक निश्चितता को इंगित करना चाहिए कि समाधान या तो सीमा बिंदु पर है या समाधान खोजने में विफल एल्गोरिथ्म। जो आमतौर पर एक और संकेत है कि फिट किया गया मॉडल किसी दिए गए डेटा के लिए अनुपयुक्त हो सकता है।

यहाँ संख्यात्मक उदाहरण है। मैं गैर-रैखिक कम से कम वर्गों की समस्या उत्पन्न करता हूं:

yi=c1xic2+εi

X[1,2]εσ2set.seed(3)एक्समैंyमैं

मैंने सामान्य गैर-रैखिक कम से कम वर्गों के उद्देश्य फ़ंक्शन को चुना है:

क्ष(w,θ)=(y-सी1एक्समैंसी2)4

यहाँ समारोह के अनुकूलन के लिए आर में कोड है, इसकी ढाल और हेसियन।

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

पहला परीक्षण कि ढाल और हेसियन विज्ञापित के रूप में काम करता है।

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

एक्सy

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

ग्रेडिएंट शून्य है, लेकिन हेसियन गैर सकारात्मक है।

नोट: यह उत्तर देने का मेरा तीसरा प्रयास है। मुझे उम्मीद है कि मैं आखिरकार सटीक गणितीय बयान देने में कामयाब रहा, जिसने मुझे पिछले संस्करणों में हटा दिया।


@mpiktas, यह वहाँ कुछ दिलचस्प संकेतन है (मुझे पता है कि यह तुम्हारा नहीं है)। एw बायीं ओर और y तथा एक्सदाहिने हाथ की ओर। में अनुमान लगा रहा हूँw=(एक्स,y)या कुछ इस तरह का। इसके अलावा, मुझे लगता है कि स्क्वैरिंग होना चाहिएy-(एक्स,θ) और सिर्फ करने के लिए नहीं (एक्स,θ)। नहीं?
कार्डिनल

@mpiktas, मुझे यह पक्का नहीं है कि शब्दांकन के कारण आपके पहले वाक्य की व्याख्या कैसे की जाए। मैं दो तरह से देख सकता हूं, एक तो मैं सही कहूंगा और दूसरा मैं नहीं। इसके अलावा, कड़ाई से बोलते हुए, मैं आपके पहले पैराग्राफ में दूसरे वाक्य से सहमत नहीं हूं। जैसा कि मैंने ऊपर दिखाया है, हेसियन के सकारात्मक निश्चित होने के बिना पैरामीटर स्थान के इंटीरियर में स्थानीय न्यूनतम पर होना संभव है।
कार्डिनल

@ कार्डिनल, हाँ आप सही हैं। वोल्ड्रिज का उपयोग करता हैw स्थिरता कारणों के लिए, y तथा एक्सपूरे पुस्तक में प्रतिक्रिया और भविष्यवक्ताओं के लिए आरक्षित है। इस उदाहरण मेंw=(एक्स,y)
mpiktas

@कार्डिनल, मैंने अपना शब्दांकन तय किया। अब यह ठीक होना चाहिए। समस्या को इंगित करने के लिए धन्यवाद।
एमपिकटस

@mptikas। न तो वोल्ड्रिज और न ही मैं यह दावा कर रहा हूं कि हेसियन को हर जगह सकारात्मक निश्चित होना चाहिए। मेरा दावा है कि एक आंतरिक अधिकतम के लिए आनुभविक हेस्सियन को एक सकारात्मक कार्य की एक अधिकतम स्थिति तक पहुंचने के लिए सकारात्मक अर्धचालक होना चाहिए। वोल्ड्रिज कुछ अलग कह रहा है।
ज्योतिर्मय भट्टाचार्य

3

हेसियन एक काठी बिंदु पर अनिश्चित है। यह संभव है कि यह पैरामीटर स्पेस के इंटीरियर में एकमात्र स्थिर बिंदु हो सकता है।

अपडेट: मुझे विस्तार से बताएं पहले, मान लें कि अनुभवजन्य हेसियन हर जगह मौजूद है।

अगर θ^n एक स्थानीय (या वैश्विक भी) न्यूनतम है Σमैंक्ष(wमैं,) and in the interior of the parameter space (assumed to be an open set) then necessarily the Hessian (1/N)iH(wi,θ^n) is positive semidefinite. If not, then θ^n is not a local minimum. This follows from second order optimality conditions — locally iq(wi,) must not decrease in any directions away from θ^n.

One source of the confusion might the "working" definition of an M-estimator. Although in principle an M-estimator should be defined as argminθiq(wi,θ), it might also be defined as a solution to the equation

0=iq˙(wi,θ),
where q˙ is the gradient of q(w,θ) with respect to θ. This is sometimes called the Ψ-type. In the latter case a solution of that equation need not be a local minimum. It can be a saddle point and in this case the Hessian would be indefinite.

Practically speaking, even a positive definite Hessian that is nearly singular or ill-conditioned would suggest that the estimator is poor and you have more to worry about than estimating its variance.


could you adapt your answer so that it matches the notation of the question? To what is x2y2 referring? Where does this get inserted into the equations given in the question?
probabilityislogic

+1 Good points in the update, especially the last paragraph. When the Hessian is available--as is implicitly assumed throughout this discussion--one would automatically use its positive-definiteness as one of the criteria for testing any critical point and therefore this issue simply could not arise. This leads me to believe the Wooldridge quotation must concern the Hessian at a putative global minimum, not at a mere critical point.
whuber

1

There's been a lot of beating around the bush in this thread regarding whether the Hessian has to be positive (semi)definite at a local minimum. So I will make a clear statement on that.

Presuming the objective function and all constraint functions are twice continuously differentiable, then at any local minimum, the Hessian of the Lagrangian projected into the null space of the Jacobian of active constraints must be positive semidefinite. I.e., if Z is a basis for the null space of the Jacobian of active constraints, then ZT(Hessian of Lagrangian)Z must be positive semidefinite. This must be positive definite for a strict local minimum.

So the Hessian of the objective function in a constrained problem having active constraint(s) need not be positive semidefinite if there are active constraints.

Notes:

1) Active constraints consist of all equality constraints, plus inequality constraints which are satisfied with equality.

2) See the definition of the Lagrangian at https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) If all constraints are linear, then the Hessian of the Lagrangian = Hessian of the objective function because the 2nd derivatives of linear functions are zero. But you still need to do the projection jazz if any of these constraints are active. Note that lower or upper bound constraints are particular cases of linear inequality constraints. If the only constraints which are active are bound constraints, the projection of the Hessian into the null space of the Jacobian of active constraints amounts to eliminating the rows and columns of the Hessian corresponding to those components on their bounds.

4) Because Lagrange multipliers of inactive constraints are zero, if there are no active constraints, the Hessian of the Lagrangian = the Hessian of the objective function, and the Identity matrix is a basis for the null space of the Jacobian of active constraints, which results in the simplification of the criterion being the familiar condition that the Hessian of the objective function be positive semidefinite at a local minimum (positive definite if a strict local minimum).


0

The positive answers above are true but they leave out the crucial identification assumption - if your model is not identified (or if it is only set identified) you might indeed, as Wooldridge correctly indicated, find yourself with a non-PSD empirical Hessian. Just run some non-toy psychometric / econometric model and see for yourself.


Because this does not seem mathematically possible, could you offer a simple, clear example to demonstrate how the Hessian of a continuously twice-differentiable objective function could possibly fail to be PSD at a global minimum?
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.