PLS प्रतिगमन पुनरावृत्त एल्गोरिदम (जैसे, NIPALS, SIMPLS) पर निर्भर करता है। मुख्य विचारों का आपका विवरण सही है: हम एक (PLS1, एक प्रतिक्रिया चर / एकाधिक भविष्यवक्ता) या दो (PLS2, अलग-अलग मोड, एकाधिक प्रतिक्रिया चर / एकाधिक भविष्यवक्ता) वेक्टर (ओं) को वेट, (और ) के साथ ढूंढते हैं। , मूल चर (ओं) के रैखिक संयोजन (ओं) को बनाने के लिए, जैसे कि जू और वाई (Yv, PLS2 के लिए) के बीच सहसंबंध अधिकतम है। आइए हम पहले घटक से जुड़े भार की पहली जोड़ी को निकालने पर ध्यान दें। औपचारिक रूप से, का अनुकूलन करने के लिए कसौटी पढ़ता
आपके मामले में, univariate है, इसलिए यह अधिकतम करने के लिए बराबर है
वी मैक्स कोव ( एक्स यू , वाई वी ) ।uv
maxcov(Xu,Yv).(1)
Yवार ( y )cov(Xu,y)≡Var(Xu)1/2×cor(Xu,y)×Var(y)1/2,st.∥u∥=1.
चूँकि पर निर्भर नहीं करता है , हमें को अधिकतम करना होगा । आइए विचार करें , जहां डेटा को व्यक्तिगत रूप से मानकीकृत किया गया है (मैंने शुरू में और बजाय अलग से आपके रैखिक संयोजन को स्केल करने की गलती की थी !), इसलिए उस ; हालाँकि, और पर निर्भर करता है । निष्कर्ष में,
अव्यक्त घटक और प्रतिक्रिया चर के बीच सहसंबंध को अधिकतम करने से समान परिणाम प्राप्त नहीं होंगेVar(y)uVar(Xu)1/2×cor(Xu,y)X=[x_1;x_2]
x1x2Var(x1)=Var(x2)=1Var(Xu)≠1u।
मुझे आर्थर टेनेनहौस को धन्यवाद देना चाहिए जिन्होंने मुझे सही दिशा में इशारा किया।
इकाई वजन वैक्टर का उपयोग करना प्रतिबंधित नहीं है और कुछ पैकेज ( pls. regression
में plsgenomics , Wehrens के पहले पैकेज से कोड के आधार पर pls.pcr
) unstandardized वजन वैक्टर वापस आ जाएगी (लेकिन आदर्श 1 की अभी भी अव्यक्त घटकों के साथ), यदि अनुरोध किया। लेकिन पीएलएस के अधिकांश पैकेज मानकीकृत वापस आएंगे , जिसमें आपके द्वारा उपयोग किया गया, विशेष रूप से जो SIMPLS या NIPALS एल्गोरिदम को लागू कर रहे हैं; मुझे बैरी एम। वाइजेज की प्रस्तुति, प्रॉपर्टी ऑफ पार्टिकल लिस्ट स्क्वेयर्स (पीएलएस) रिग्रेशन के गुण और एल्गोरिदम के बीच मतभेदों का एक अच्छा अवलोकन मिला , लेकिन केमोमेट्रिक्सuविगनेट एक अच्छी चर्चा भी प्रस्तुत करता है (पीपी। 26-29)। विशेष महत्व के साथ-साथ यह तथ्य भी है कि अधिकांश PLS दिनचर्या (कम से कम जिसे मैं R में जानता हूं) मान लेते हैं कि आप अनियंत्रित चर प्रदान करते हैं क्योंकि केंद्र और / या स्केलिंग को आंतरिक रूप से नियंत्रित किया जाता है (उदाहरण के लिए क्रॉस-सत्यापन करते समय यह विशेष रूप से महत्वपूर्ण है) )।
को देखते हुए , वेक्टर कोu′u=1u
u=X′y∥X′y∥.
थोड़ा सिमुलेशन का उपयोग करके, इसे निम्नानुसार प्राप्त किया जा सकता है:
set.seed(101)
X <- replicate(2, rnorm(100))
y <- 0.6*X[,1] + 0.7*X[,2] + rnorm(100)
X <- apply(X, 2, scale)
y <- scale(y)
# NIPALS (PLS1)
u <- crossprod(X, y)
u <- u/drop(sqrt(crossprod(u))) # X weights
t <- X%*%u
p <- crossprod(X, t)/drop(crossprod(t)) # X loadings
आप उपरोक्त परिणामों ( u=[0.5792043;0.8151824]
विशेष रूप से) की तुलना R पैकेज के साथ दे सकते हैं। उदाहरण के लिए, केमोमेट्रिक्स पैकेज से NIPALS का उपयोग करना (एक और कार्यान्वयन जो मुझे पता है कि मिक्समिक्स पैकेज में उपलब्ध है ), हम प्राप्त करेंगे:
library(chemometrics)
pls1_nipals(X, y, 1)$W # X weights [0.5792043;0.8151824]
pls1_nipals(X, y, 1)$P # X loadings
समान परिणाम plsr
इसके डिफ़ॉल्ट कर्नेल पीएलएस एल्गोरिथ्म के साथ प्राप्त किए जाएंगे :
> library(pls)
> as.numeric(loading.weights(plsr(y ~ X, ncomp=1)))
[1] 0.5792043 0.8151824
सभी मामलों में, हम जाँच सकते हैं कि की लंबाई 1 है।u
बशर्ते आप जो पढ़ते हैं, उसके अनुकूल होने के लिए अपने फ़ंक्शन को बदलें
f <- function(u) cov(y, X%*%(u/sqrt(crossprod(u))))
और u
बाद में सामान्य करें ( u <- u/sqrt(crossprod(u))
), आपको उपरोक्त समाधान के करीब होना चाहिए।
सिडेनोट : जैसा कि मानदंड (1) बराबर है
को सबसे बड़े अनुरूप के एसवीडी से बाएं विलक्षण वेक्टर के रूप में पाया जा सकता है :यू एक्स ' Y
maxu′X′Yv,
uX′Y
svd(crossprod(X, y))$u
अधिक सामान्य मामले (PLS2) में, उपरोक्त संक्षेप में कहने का एक तरीका यह है कि पहले PLS विहित वैक्टर दोनों दिशाओं में X और Y के सहसंयोजक मैट्रिक्स का सबसे अच्छा सन्निकटन हैं।
संदर्भ
- तेनहास, एम (1999)। L'approche PLS । रिव्यू डे स्टेटिस्टिक अप्लिके , 47 (2), 5-40।
- टेर ब्राक, सीजेएफ और डी जोंग, एस (1993)। आंशिक कम से कम वर्गों प्रतिगमन का उद्देश्य समारोह । केमोमेट्रिक्स जर्नल , 12, 41-54।
- आब्दी, एच (2010)। अव्यक्त संरचना प्रतिगमन (PLS प्रतिगमन) पर आंशिक रूप से न्यूनतम वर्ग प्रतिगमन और प्रक्षेपण । विली अंतःविषय समीक्षा: कम्प्यूटेशनल सांख्यिकी , 2, 97-106।
- बोलेस्टिक्स, एएल और स्ट्रिमर, के (2007)। आंशिक कम वर्ग: उच्च आयामी जीनोमिक डेटा के विश्लेषण के लिए एक बहुमुखी उपकरण । जैव सूचना विज्ञान में ब्रीफिंग , 8 (1), 32-44।
pls
इस JSS पेपर में पैकेज और PLS प्रतिगमन का अच्छा अवलोकन है ।