40000 के आंकड़े पर
समाचार वास्तव में सनसनीखेज हैं, लेकिन कागज वास्तव में अच्छी तरह से स्थापित है। मेरी प्रयोगशाला में दिनों तक चर्चा चलती रही, सभी में एक बहुत ही महत्वपूर्ण आलोचना थी जो शोधकर्ताओं को उनके काम का अंतःसंबंध बनाती है। मैं थॉमस निकोल्स द्वारा निम्नलिखित टिप्पणी के पढ़ने की सलाह देता हूं , "क्लस्टर विफलता: लेखक ने स्थानिक सीमा के लिए एफएमआरआई क्यों झूठी सकारात्मक दरों को बढ़ाया है" पेपर (लंबी बोली के लिए खेद है)।
हालांकि, एक संख्या है जो मुझे खेद है: 40,000। एफएमआरआई अनुशासन के महत्व को संदर्भित करने की कोशिश में, हमने अपने निष्कर्षों द्वारा लगाए गए अध्ययनों की संख्या के रूप में पूरे एफएमआरआई साहित्य के एक अनुमान का उपयोग किया। हमारे बचाव में, हमने सामान्य रूप से क्लस्टर आकार के अनुमान (P = 0.01 CDT के लिए गंभीर, P = 0.001 के लिए पक्षपाती) के लिए समस्याएँ पाईं, जिनमें से अधिकांश का अनुमान विधि, साहित्य के बहुमत को प्रभावित करने वाला था। प्रभाव कथन में संख्या, हालांकि, लोकप्रिय प्रेस द्वारा उठाया गया है और एक छोटे से ट्विटरस्टॉर्म को खिलाया गया है। इसलिए, मुझे लगता है कि कम से कम "कितने लेख हमारे काम को प्रभावित करते हैं?" मैं एक बिब्लियोमेट्रिकियन नहीं हूं, और यह वास्तव में एक कठिन और तैयार अभ्यास है, लेकिन यह उम्मीद है कि समस्या की भयावहता के आदेश की भावना देता है।
विश्लेषण कोड (मैटलैब में) नीचे दिया गया है, लेकिन यहाँ स्किनी है: कुछ उचित संभाव्य संगणनाओं के आधार पर, लेकिन शायद साहित्य के नाजुक नमूने, मैं अनुमान लगाता हूं कि लगभग 15,000 पेपर कई परीक्षण के लिए सुधार के साथ क्लस्टर साइज का उपयोग करते हैं; इनमें से, लगभग 3,500 P = 0.01 के CDT का उपयोग करते हैं। 3,500 संपूर्ण साहित्य का लगभग 9% है, या शायद अधिक उपयोगी है, जिसमें 11% मूल डेटा हैं। (बेशक, इनमें से कुछ 15,000 या 3,500 गैर-समरूपता का उपयोग कर सकते हैं, लेकिन यह दुर्भाग्य से fMRI के लिए दुर्लभ है - इसके विपरीत, यह एफएसएल में संरचनात्मक VBM / DTI विश्लेषण के लिए डिफ़ॉल्ट अनुमान उपकरण है)।
मैंने स्पष्ट रूप से सोचा था कि यह संख्या अधिक होगी, लेकिन उन अध्ययनों के बड़े अनुपात का एहसास नहीं हुआ जो कभी भी किसी भी तरह के परीक्षण सुधार का उपयोग नहीं करते थे। (यदि आपने सही नहीं किया है, तो आपने सही महत्व नहीं बढ़ाया है!) । इन गणनाओं से पता चलता है कि 13,000 कागजात में कई परीक्षण सुधार नहीं हुए। बेशक इनमें से कुछ ब्याज या उप-मात्रा विश्लेषण के क्षेत्रों का उपयोग कर रहे हों, लेकिन यह कुछ कम (यानी नैदानिक परीक्षण शैली के परिणाम) हैं जिनकी बिल्कुल भी कोई बहुलता नहीं है। हमारा पेपर सीधे इस समूह के बारे में नहीं है, लेकिन उन प्रकाशनों के लिए, जिन्होंने लोक एकाधिक परीक्षण सुधार का उपयोग किया, P <0.001 & k> 10, हमारे पेपर से पता चलता है कि इस दृष्टिकोण में परिवार की त्रुटि दर 50% से अधिक है।
तो, क्या हम कह रहे हैं कि 3,500 कागजात "गलत" हैं? निर्भर करता है। हमारे परिणाम बताते हैं कि CDT P = 0.01 के परिणामों ने P-मानों को फुलाया है, लेकिन प्रत्येक अध्ययन की जांच की जानी चाहिए ... यदि प्रभाव वास्तव में मजबूत हैं, तो यह संभव नहीं है कि P- मान पक्षपाती हैं, और वैज्ञानिक निष्कर्ष अपरिवर्तित रहेंगे। लेकिन अगर प्रभाव वास्तव में कमजोर हैं, तो परिणाम वास्तव में शोर के अनुरूप हो सकते हैं । और, बिना किसी सुधार के उन 13,000 पत्रों के बारे में क्या है, खासकर पहले के साहित्य में? नहीं, उन्हें या तो हाथ से बाहर नहीं निकाला जाना चाहिए, लेकिन उन कार्यों के लिए विशेष रूप से घिसे हुए नेत्रों की आवश्यकता होती है, खासकर जब उनकी तुलना नए तरीकों से बेहतर कार्यप्रणाली मानकों से की जाती है।
वह इस तालिका को अंत में शामिल करता है:
AFNI BV FSL SPM OTHERS
____ __ ___ ___ ______
>.01 9 5 9 8 4
.01 9 4 44 20 3
.005 24 6 1 48 3
.001 13 20 11 206 5
<.001 2 5 3 16 2
मूल रूप से, एसपीएम (सांख्यिकीय पैरामीट्रिक मैपिंग, मैटलैब के लिए एक टूलबॉक्स) एफएमआरआई न्यूरोसाइंस अध्ययन के लिए सबसे व्यापक रूप से इस्तेमाल किया जाने वाला उपकरण है। यदि आप उस कागज की जांच करते हैं, जिसे आप एसपीएम में क्लस्टर के लिए P = 0.001 (मानक) के सीडीटी का उपयोग करते हुए देखेंगे, तो लगभग अपेक्षित पारिवारिक वार दर मिलती है।
लेखकों ने कागज के शब्दांकन के कारण इरेटा भी भर दिया :
हमारे पेपर की व्यापक गलत व्याख्या को देखते हुए, एक्लंड एट अल।, क्लस्टर विफलता: स्थानिक सीमा के लिए fMRI इनफ़ॉरमेशन ने झूठी-सकारात्मक दरें क्यों बढ़ाई हैं, हमने PNAS संपादकीय कार्यालय के साथ एक इरेटा दायर किया है।
एकलंड एट अल।, क्लस्टर विफलता के लिए इरेटा: स्थानिक सीमा के लिए एफएमआरआई के अनुमानों ने झूठी-सकारात्मक दरों को क्यों बढ़ाया है। एक्लंड, एंडर्स; निकोल्स, थॉमस ई; नटसन, हंस
दो वाक्यों को खराब तरीके से लिखा गया था और हमारे परिणामों पर काबू पाने के रूप में आसानी से गलत समझा जा सकता था।
सिग्नेचर स्टेटमेंट के अंतिम वाक्य को पढ़ना चाहिए: "ये परिणाम कई एफएमआरआई अध्ययनों की वैधता पर सवाल उठाते हैं और कमजोर महत्वपूर्ण न्यूरोइमेजिंग परिणामों की व्याख्या पर बड़ा प्रभाव डाल सकते हैं।"
शीर्षक "fMRI का भविष्य" के बाद पहला वाक्य पढ़ा जाना चाहिए: "विलायती संग्रह और डेटा-साझाकरण प्रथाओं के कारण यह संभावना नहीं है कि समस्याग्रस्त विश्लेषणों को फिर से किया जा सकता है।"
ये उन दो वाक्यों को प्रतिस्थापित करते हैं जो गलती से निहित हैं कि हमारे काम ने सभी 40,000 प्रकाशनों को प्रभावित किया (देखें कि साहित्य का कितना हिस्सा संभावित रूप से प्रभावित हुआ है, इसके बारे में जानने के लिए क्लस्टर इन्वेंशन के बिब्लियोमेट्रिक्स)।
इरेटा की शुरुआत में गिरावट के बाद, इस आधार पर कि यह व्याख्या को सही कर रहा था और वास्तव में नहीं, PNAS इसे प्रकाशित करने के लिए सहमत हो गया है क्योंकि हमने इसे ऊपर प्रस्तुत किया था।
तथाकथित बग पर
कुछ समाचारों में एक बग का भी अध्ययन की अमान्यता का कारण बताया गया है। दरअसल, एएफएनआई उपकरण में से एक का संदर्भ अधिनियमित किया गया था , और यह पूर्ववर्ती आर्क्सिव में पोस्ट किए जाने के बाद हल किया गया था ।
कार्यात्मक न्यूरोइमेजिंग में उपयोग किए जाने वाले सांख्यिकीय निष्कर्ष
फंक्शनल न्यूरोइमेजिंग में कई तकनीकें शामिल होती हैं जिनका उद्देश्य मस्तिष्क में न्यूरोनल गतिविधि को मापना होता है (जैसे fMRI, EEG, MEG, NIRS, PET और SPECT)। ये विभिन्न विपरीत तंत्रों पर आधारित हैं। fMRI रक्त-ऑक्सीजन स्तर पर निर्भर (BOLD) विपरीत पर आधारित है। कार्य-आधारित fMRI में, एक उत्तेजना को देखते हुए, उस उत्तेजना के स्वागत के लिए जिम्मेदार मस्तिष्क में न्यूरॉन्स ऊर्जा का उपभोग करना शुरू कर देते हैं और इससे हेमोडायनामिक प्रतिक्रिया शुरू हो जाती है, जिससे भर्ती हुए सूक्ष्म के आसपास के क्षेत्र में चुंबकीय अनुनाद संकेत ( ) बदल जाता है। -vascularization।≈5%
एक सामान्यीकृत रैखिक मॉडल (GLM) का उपयोग करके आप पहचानते हैं कि कौन से स्वर संकेत समय-श्रृंखला आपके प्रयोग के प्रतिमान के डिजाइन के साथ सहसंबद्ध हैं (आमतौर पर एक बूलियन समय एक विहित हामोडायनामिक प्रतिक्रिया फ़ंक्शन के साथ जुड़ा हुआ है, लेकिन विविधताएं मौजूद हैं)।
तो इस GLM ने आपको बताया कि प्रत्येक voxel टाइम-सीरीज़ टास्क से मिलता जुलता है। अब, मान लें कि आपके पास व्यक्तियों के दो समूह हैं: रोगी और नियंत्रण आमतौर पर। समूहों के बीच GLM स्कोर की तुलना यह दिखाने के लिए किया जा सकता है कि समूहों की स्थिति उनके मस्तिष्क "सक्रियण" पैटर्न को कैसे व्यवस्थित करती है।
समूहों के बीच वॉक्सेल-वार तुलना करने योग्य है, लेकिन उपकरण में निहित बिंदु-प्रसार फ़ंक्शन के कारण और साथ ही साथ एक स्मूथिंग प्रीप्रोसेसिंग कदम है जो सभी सूचनाओं को व्यक्तिगत रूप से ले जाने की उम्मीद नहीं है। समूहों के बीच voxels में अंतर वास्तव में, पड़ोसी voxels में फैल जाना चाहिए।
इसलिए, क्लस्टर-वार तुलना की जाती है, अर्थात समूहों में केवल समूहों के बीच अंतर माना जाता है। यह क्लस्टर सीमा थ्रेसहोल्ड fMRI अध्ययनों में सबसे लोकप्रिय कई तुलनात्मक सुधार तकनीक है। समस्या यहाँ है।
एसपीएम और एफएसएल एफडब्ल्यूई-सही voxelwise और क्लस्टरवाइज इंजेक्शन के लिए गाऊसी यादृच्छिक-क्षेत्र सिद्धांत (RFT) पर निर्भर करते हैं। हालांकि, आरएफटी क्लस्टरवाइज निष्कर्ष दो अतिरिक्त मान्यताओं पर निर्भर करता है। पहली धारणा यह है कि एफएमआरआई सिग्नल की स्थानिक चिकनाई मस्तिष्क पर स्थिर है, और दूसरी धारणा यह है कि स्थानिक ऑटोक्रेलेशन फ़ंक्शन का एक विशिष्ट आकार (एक चुकता घातीय) है (30)
एसपीएम में आपको कम से कम नाममात्र एफडब्ल्यूई दर और एक क्लस्टर-परिभाषित सीमा (सीडीटी) निर्धारित करना होगा। मूल रूप से, एसपीएम को कार्य के लिए अत्यधिक सहसंबद्ध स्वर मिलते हैं और, सीडीटी के साथ थ्रेसहोल्ड करने के बाद, पड़ोसी लोगों को समूहों में एकत्र किया जाता है। इन समूहों के आकार की तुलना रैंडम फील्ड थ्योरी (RFT) से अपेक्षित क्लस्टर सीमा से की जाती है, जिसे FWER सेट [ 1 ] दिया गया है ।
रैंडम फील्ड थ्योरी के लिए जरूरी है कि एक्टिविटी मैप स्मूद हो, रैंडम फील्ड्स के लिए एक अच्छा जाली अंदाज हो। यह स्मूदी की मात्रा से संबंधित है जो वॉल्यूम पर लागू होता है। चौरसाई भी इस धारणा को प्रभावित करती है कि केंद्रीय सीमा प्रमेय द्वारा, चौरसाई के रूप में सामान्य रूप से वितरित किए गए अवशेष डेटा को अधिक गाऊसी बना देंगे।
लेखकों ने [ 1 ] में दिखाया है कि यादृच्छिक क्रमपरिवर्तन परीक्षण (RPT) से प्राप्त क्लस्टर सीमा थ्रेसहोल्ड के साथ तुलना करने पर RFT से अपेक्षित क्लस्टर आकार वास्तव में छोटे हैं।
उनके सबसे हालिया पेपर में, आराम-राज्य (एफएमआरआई की एक और विनम्रता, जहां प्रतिभागियों को विशेष रूप से कुछ भी नहीं सोचने के निर्देश दिए गए हैं) डेटा का उपयोग किया गया था जैसे कि लोगों ने छवि अधिग्रहण के दौरान एक कार्य किया, और समूह की तुलना voxel- और क्लस्टर की गई थी वार। मनाया झूठी सकारात्मक त्रुटि (यानी जब आप समूहों के बीच एक आभासी कार्य करने के लिए संकेत के जवाब में मतभेद का निरीक्षण) दर पर सेट की उम्मीद FWE दर की तुलना में काफी कम होना चाहिए । अलग-अलग प्रतिमानों के साथ यादृच्छिक रूप से सैंपल किए गए समूहों पर लाखों बार इस विश्लेषण को फिर से करना सबसे अधिक देखा गया एफडब्ल्यूई दरें स्वीकार्य से अधिक है।α=0.05
@amoeba ने टिप्पणियों में इन दो अत्यधिक प्रासंगिक प्रश्नों को उठाया:
(1) एकलुंड एट अल। PNAS पेपर सभी परीक्षणों के "नाममात्र 5% स्तर" के बारे में बात करता है (चित्र 1 पर क्षैतिज काली रेखा देखें)। हालांकि, एक ही आंकड़े में सीडीटी अलग-अलग है और उदाहरण के लिए 0.01 और 0.001 हो सकते हैं। सीडीटी दहलीज नाममात्र प्रकार I त्रुटि दर से कैसे संबंधित है? मैं इससे भ्रमित हूं। (२) क्या आपने कार्ल फ्रिस्टन का उत्तर
http://arxiv.org/abs/1606.08199 देखा है ? मैंने इसे पढ़ा है, लेकिन मुझे यकीन नहीं है कि वे क्या कह रहे हैं: क्या मैं सही ढंग से देखता हूं कि वे एक्लंड एट अल से सहमत हैं। लेकिन कहते हैं कि यह एक "अच्छी तरह से ज्ञात" मुद्दा है?
(१) अच्छा प्रश्न। मैंने वास्तव में अपने संदर्भों की समीक्षा की, चलो देखते हैं कि क्या मैं इसे स्पष्ट कर सकता हूं। क्लस्टर-वार इंट्रेंस प्राथमिक थ्रेशोल्ड ( CDT, जो मनमाना है ) के बाद बनने वाले क्लस्टर्स की सीमा पर आधारित होता है। में माध्यमिक विश्लेषण एक क्लस्टर प्रति voxels की संख्या पर सीमा लागू किया जाता है। यह दहलीज अशक्त क्लस्टर विलुप्त होने के अपेक्षित वितरण पर आधारित है, जिसका अनुमान सिद्धांत (जैसे RFT) से लगाया जा सकता है, और एक नाममात्र परिवार कल्याण सेट करता है। एक अच्छा संदर्भ [ 2 ] है।
(२) इस संदर्भ के लिए धन्यवाद, इसे पहले नहीं देखा था। फ्लैंडिन और फ्रिस्टन ने एकलंड एट अल। आरएफटी के संदर्भ में पुष्टि की गई क्योंकि उन्होंने मूल रूप से दिखाया था कि इसकी मान्यताओं (सीडीटी और स्मूथिंग के बारे में) का सम्मान करते हुए परिणाम असंतुलित हैं। इस प्रकाश के तहत, नए परिणाम साहित्य में अलग-अलग प्रथाओं को दर्शाते हैं, क्योंकि यह आरएफटी की धारणाओं को तोड़ता है।
कई तुलनाओं पर
यह भी अच्छी तरह से ज्ञात है कि तंत्रिका विज्ञान में कई अध्ययन कई तुलनाओं के लिए सही नहीं हैं, अनुमान 10% से 40% साहित्य तक है। लेकिन इनका उस दावे से कोई लेना-देना नहीं है, सभी जानते हैं कि इन पत्रों की नाजुक वैधता है और संभवतः बड़ी झूठी सकारात्मक दरें हैं।
FWER पर 70% से अधिक
लेखकों ने एक प्रक्रिया भी बताई जो 70% से अधिक एफडब्ल्यूईआर का उत्पादन करती है। इस "लोक" -प्रक्रिया में केवल अत्यधिक महत्वपूर्ण समूहों को रखने के लिए सीडीटी को लागू करने और फिर एक और मनमाने ढंग से चुने गए क्लस्टर-सीमा सीमा (स्वरों की संख्या में) शामिल हैं। इसे, जिसे कभी-कभी "सेट-इनफेरेंस" कहा जाता है, में कमजोर सांख्यिकीय आधार होते हैं, और संभवतः सबसे कम भरोसेमंद परिणाम उत्पन्न करता है।
पिछली रिपोर्ट
वही लेखक पहले से ही व्यक्तिगत विश्लेषण पर एसपीएम [ 1 ] की वैधता के साथ समस्याओं पर रिपोर्ट कर चुके थे । इस क्षेत्र में अन्य उद्धृत कार्य भी हैं।
वास्तव में, समूह डेटा और नकली डेटा पर आधारित व्यक्तिगत-स्तर के विश्लेषण पर कई रिपोर्टें निष्कर्ष निकाला है कि वास्तव में, रूढ़िवादी थे। प्रसंस्करण शक्ति में हाल के अग्रिमों के साथ हालांकि आरपीटी को वास्तविक डेटा पर बहुत आसानी से प्रदर्शन किया जा सकता है, जिसमें आरएफटी के साथ बड़ी विसंगतियां हैं।
UPDATE: 18 अक्टूबर, 2017
"क्लस्टर विफलता" पर एक टिप्पणी पिछले जून [ 3 ] सामने आई है । वहाँ मुलर एट अल। तर्क करते हैं कि एकलंड एट अल में प्रस्तुत परिणाम उनके अध्ययन में प्रयुक्त एक विशिष्ट इमेजिंग प्रीप्रोसेसिंग तकनीक के कारण हो सकते हैं। असल में, उन्होंने कार्यशील छवियों को चौरसाई करने से पहले एक उच्च रिज़ॉल्यूशन में बदल दिया (जबकि शायद हर शोधकर्ता द्वारा नहीं किया गया है, यह ज्यादातर एफएमआरआई विश्लेषण सॉफ़्टवेयर में एक नियमित प्रक्रिया है)। उन्होंने यह भी ध्यान दिया कि फ्लैंडिन और फ्रिस्टन ने ऐसा नहीं किया। वैंकूवर में ऑर्गनाइजेशन फॉर ह्यूमन ब्रेन मैपिंग (OHBM) की वार्षिक बैठक में मुझे एक ही महीने में एकलंड पर बात करते हुए देखने को मिला, लेकिन मुझे इस मुद्दे पर कोई टिप्पणी याद नहीं है, फिर भी यह प्रश्न के लिए महत्वपूर्ण लगता है।
[१] एकलुंड, ए।, एंडरसन, एम।, जोसेफसन, सी।, जोहानसन, एम।, और नट्ससन, एच। (२०१२)। क्या एसपीएम के साथ पैरामीट्रिक एफएमआरआई विश्लेषण वैध परिणाम देता है? - 1484 बाकी डेटासेट का अनुभवजन्य अध्ययन। न्यूरोइमेज, 61 (3), 565-578।
[२] वू, सीडब्ल्यू, कृष्णन, ए।, और दांव, टीडी (२०१४)। एफएमआरआई विश्लेषण में क्लस्टर-सीमा आधारित थ्रेसहोल्डिंग: नुकसान और सिफारिशें। न्यूरोइमेज, 91, 412-419।
[३] मुलर, के।, लेप्सियन, जे।, मोलर, एचई, और लोहमैन, जी (२०१,)। टिप्पणी: क्लस्टर विफलता: स्थानिक सीमा के लिए fMRI निष्कर्षों ने झूठी सकारात्मक दरों को क्यों बढ़ाया है। फ्रंटियर्स इन ह्यूमन न्यूरोसाइंस, 11।