Czy ekonomia wreszcie staje się godna zaufania?

Czy ekonomia wreszcie staje się godna zaufania?
Czy ekonomia wreszcie staje się godna zaufania?

Są dwie rzeczy, których lepiej nie oglądać podczas przygotowywania: kiełbaski i szacunki ekonometryczne. To smutny i zdecydowanie nienaukowy stan rzeczy, w którym się znaleźliśmy. Raczej nie każdy traktuje analizę danych poważnie. A może dokładniej: prawie nikt nie traktuje poważnie analiz danych innych osób”.

Tę zjadliwą krytykę ekonomista Ed Leamer wysunął pod adresem badań empirycznych w swoim słynnym artykule z 1983 r. „Lets Take the Con Out of Econometrics”. Miał wówczas na myśli, że badacze wiedzieli, że nie należy zbytnio ufać szacunkom innych badaczy, ponieważ byli oni wrażliwi na arbitralne wybory dokonywane w trakcie procesu badawczego. Jednak przez większość dziesięcioleci, jakie upłynęły od krytyki Leamera, wykształcona opinia publiczna miała tendencję do poważnego traktowania badań recenzowanych.

Zaczęło się to zmieniać wraz z hitowym artykułem lekarza Johna Ioannidisa z 2005 roku „Dlaczego większość opublikowanych wyników badań jest fałszywa“. Obawy szybko rósł poprzez „kryzys replikacyjny” z 2010 r., któremu towarzyszył rozwój mediów społecznościowych. Psychologia ucierpiała jako pierwsza i najmocniej, począwszy od artykułu z 2011 roku „Fałszywie pozytywna psychologiaNie oszczędzono jednak ekonomii i pozostałych nauk społecznych.

Podstawowym założeniem nauki jest to, że badania powinny być powtarzalne. Jeśli jeden naukowiec stworzy eksperyment mający na celu zmierzenie stałej fizycznej, takiej jak prędkość światła, i wystarczająco dobrze udokumentuje swój eksperyment, inni naukowcy powinni być w stanie przeprowadzić ten sam eksperyment i uzyskać ten sam wynik. Jeśli wyników jednego laboratorium nie można odtworzyć nigdzie indziej, to np zimna fuzjaprawdopodobnie nie są prawdziwe.

Poza naukami ścisłymi, takimi jak fizyka, nie oczekujemy uzyskania takiej samej precyzji. Być może jedno badanie wykazało, że lek zmniejsza ryzyko zawału serca o 17%, podczas gdy inne wykazało 14%. Aby jednak badania mogły w użyteczny sposób informować o naszych działaniach, muszą być przynajmniej w pewnym stopniu powtarzalne. Jeśli jedno badanie wykazało, że lek działa, ale każde kolejne badanie wykazało, że nie przynosi żadnego efektu, ludzie prawdopodobnie nie powinni go zażywać.

Badania w zakresie nauk społecznych trwały dziesięciolecia, tworząc odpowiednik badań promujących lek, który okazuje się bezużyteczny lub szkodliwy. Kiedy w 2015 roku zespół kierowany przez Briana Noska podjął próbę powtórzenia 100 eksperymentów opublikowanych w czołowych czasopismach psychologicznych, mniej niż połowa okazało się, że przyniosło statystycznie istotne wyniki. Rezerwa Federalna dokument do dyskusji opublikowany w tym samym roku, przyniósł podobnie słabe wyniki w przypadku opublikowanych artykułów ekonomicznych.

Jeśli nie można ufać recenzowanym badaniom opublikowanym w czołowych czasopismach, to czemu możemy zaufać? Od 2015 r. popularne odpowiedzi brzmią: „Nic”lub mieszankę zdrowego rozsądku i wcześniejszych przekonań opartych na ideologii. Jednak reformy naukowe podjęte w następstwie kryzysu replikacyjnego mogą w końcu zacząć przynosić owoce w postaci powtarzalnych, wiarygodnych badań.

Wojsko amerykańskie było jedną z wielu instytucji, które przy podejmowaniu decyzji opierały się na badaniach z zakresu nauk społecznych. Kiedy kryzys replikacyjny wzbudził wątpliwości co do tych badań, postanowiono działać. Agencja Badań nad Zaawansowanymi Projektami Obronnymi, znana z finansowania przełomowych technologii, takich jak Internet i samochody autonomiczne, zapewniła fundusze Brianowi Noskowi i Centrum Otwartej Nauki przeprowadzenie masowej replikacji badań z zakresu nauk społecznych. Chodziło o to, aby sprawdzić zarówno wiarygodność tych badań, jak i sprawdzić, czy istnieją jakieś podobieństwa w rodzajach badań, które okazały się bardziej godne zaufania.

Wyniki tych wysiłków opublikowano właśnie w czasopiśmie A wydanie specjalne dziennika Natura. Setki badaczy (w tym ja) z różnych dziedzin nauk społecznych próbowało odtworzyć setki twierdzeń z artykułów opublikowanych w czołowych czasopismach poświęconych naukom społecznym. Ogólnie rzecz biorąc, po słabym początku zauważyliśmy poprawę. Na przykład większość artykułów nie udostępnia danych ani kodu, które rzekomo dały wyniki, ale jest to znacznie bardziej prawdopodobne niż w 2009 r., czyli na początku badanego okresu.

Rysunek 1: Dostępność danych i kodów według roku publikacji

 

Źródło: Natura

Według tego miernika ekonomia i nauki polityczne wypadają stosunkowo dobrze – około połowa artykułów udostępnia dane lub kod w porównaniu z mniej niż jednym na dziesięć artykułów z dziedziny edukacji. Ekonomia podobnie miał stosunkowo dobra „odtwarzalność”, przy czym większość artykułów przekracza tę dolną poprzeczkę. Powtarzalność odnosi się do tego, czy jeśli inni badacze przeanalizują dokładnie ten sam zbiór danych, o którym mowa w opublikowanym artykule, w dokładnie taki sam sposób, w jaki według artykułu go przeanalizowano, uzyskają dokładnie taki sam wynik. W przypadku artykułów z ekonomii uzyskano dokładnie taki sam wynik w 67% przypadków, co stanowi odsetek wyższy niż w przypadku każdej innej badanej dziedziny.

Rysunek 2: Odtwarzalność według pola

Źródło: Natura

Nazywam to niską poprzeczką, ponieważ oznacza po prostu, że pierwotni badacze udokumentowali to, czego dokonali na tyle dobrze, że inni mogli to skopiować, a nie to, że to, co odkryli, było prawidłowe (i odwrotnie, jeśli nie udokumentowali rzeczy wystarczająco dobrze, aby inni mogli je skopiować, niekoniecznie oznaczałoby to, że się mylili). Skąd mamy wiedzieć, czy mieli rację?

Inny dokumenty tożsamości z Natura przetestuj, jak wrażliwe są wyniki na zmiany w metodach analizy. Jeśli istnieje kilka rozsądnych metod analizy danych, czy pierwotnym badaczom zdarzyło się (przez przypadek lub wybiórczość) wybrać jedyną, która daje statystycznie istotne wyniki? A może większość rozsądnych metod doprowadziłaby do mniej więcej tego samego wniosku?

W tym przypadku większość artykułów można nazwać „poprawnymi kierunkowo”. Spośród prób przetestowania ich odporności 74% uzyskało statystycznie istotne wyniki w tym samym kierunku co oryginał, ale tylko 34% stwierdziło, że wielkość efektu jest bardzo zbliżona do oryginału.

Podczas próby odtworzenia twierdzeń w nowych zbiorach danych (a nie tylko przy użyciu nowych metod z istniejącymi danymi) tylko połowa uzyskała statystycznie istotne wyniki w tym samym kierunku co oryginały, a znalezione efekty były o ponad połowę mniejsze niż w oryginałach.

Ogólnie rzecz biorąc, sugeruje to, że opublikowane badania z zakresu nauk społecznych zwykle wyolbrzymiają rozmiary skutków i często twierdzą, że mogą one nie istnieć. Jest to dalekie od ideału, ale poleganie na badaniach jest nadal znacznie lepsze niż przypadek. Na przykład testy wytrzymałości wykazały znaczące efekty w odwrotnym kierunku niż w przypadku oryginalnego papieru tylko w 2% przypadków.

Co to wszystko oznacza dla konsumentów badań? Zawsze warto było bardziej ufać całej literaturze pojedyncze papiery. Dla ekonomii, Journal of Economic Perspectives świetnie radzi sobie z podsumowaniem obszarów badań w stosunkowo przystępny sposób.

Jako nowy, szybki praktyczna zasada zainspirowany Natura można zrobić coś gorszego niż „zmniejszyć szacowaną wielkość efektu o połowę”. Jeśli w opublikowanym artykule jest napisane, że dyplom ukończenia studiów wyższych podnosi płace o 100%, jest prawdopodobne, że stopień rzeczywiście podnosi płace, ale raczej o 40–50%. W 2005 roku John Ioannidis stwierdził, że „większość opublikowanych wyników badań jest fałszywa”. Wydaje się, że do 2026 r. sytuacja ulegnie poprawie i „większość opublikowanych wyników badań będzie przesadzona”.

(0 KOMENTARZY)

źródło

0 0 głosów
Article Rating
Subskrybuj
Powiadom o
guest
0 komentarzy
najstarszy
najnowszy oceniany
Inline Feedbacks
Wszystkie
Follow by Email
LinkedIn
Share
Copy link
Adres URL został pomyślnie skopiowany!
0
Would love your thoughts, please comment.x