社会科学の学術論文の再現性は低いのか?
米国国防高等研究計画局(DARPA)のファンディングにより実施されていた SCORE=Systematizing Confidence in Open Research and Evidence の成果が一気に Nature 誌に明らかにされています。Nature 誌の論文の引用情報は以下の通りです。
- Miske, Olivia et al. (2026) "Investigating the reproducibility of the social and behavioural sciences," Nature 652, Apr. 2026, pp.126-34
- Aczel, Balazs et al. (2026) "Investigating the analytical robustness of the social and behavioural sciences," Nature 652, Apr. 2026, pp.135-42
- Andrew H. Tyner, et al. (2026) "Investigating the replicability of the social and behavioural sciences," Nature 652, Apr. 2026, pp.143-50
判る人には判ると思いますが、最初が再現性=reproducibility、次が頑健性=robustness、最後が再現可能性=replicability、に関する論文です。最初の再現性=reproducibilityでは、同じデータと同じプログラムコードを用いて同じ結果が得られるかどうかを検証します。当然ながら、100%の再現性が求められますが、データやプログラムコードを公開していない論文も多く、再現性すら100%ではない結果が出ています。次の頑健性=robustnessでは、基本的に同じデータ、ただし月次データを四半期データに変換するなどはあるとしても、基本的に同じデータを用いた上で、期間をずらせたり、コントロール変数を代えたりしても、同じパラメータではないとしても、同じ符号のパラメータが得られたり、統計的有意性に大きな差がなかったりするかどうかを検証します。最後の再現可能性=replicabilityでは、2番目の頑健性=robustnessと逆に、データについて別の時点あるいは別の地域、例えば、米国のデータを日本のデータに置き換えたりする一方で、推計手法を同じにして検証するものです。最初の再現性=reproducibilityに関する論文からグラフを1点だけ引用します。Fig. 5: Reproducibility by field であり、社会科学の分野別に再現性=reproducibilityを示しています。
見れば判ると思いますが、一番上の政治学や次の経済学などでは高い再現性=reproducibilityがある一方で、教育学については完全に再現された論文はなかったりします。ただし、グラフの引用などはしませんが、別の基準からの検証では、経済学が低位で教育学が良好な結果を残しているものもあったりします。そのあたりは私にも完全に理解できているわけではありません。3本の検証論文はすべて公開されているようですので、ご興味ある向きはご自身でお調べください。
再現性、頑健性、再現可能性の問題については、10年ほど前の2015年に、Science誌で "Estimating the reproducibility of psychological science" と題する論文が掲載され、心理学の再現性が低いと指摘していて、心理学だけでなく、多くの社会科学でも同様の問題はあります。同様に、行動科学でも世界的に広く認識されていましたので、今回、心理学や行動科学などに限定せず、社会科学すべての分野で世界的な検証が実施され結果が公表されたのは大きな意義があると私は受け止めています。ただし、日本では、社会科学というよりも、むしろ、例のSTAP細胞の事件(?)で医学や自然科学の分野でも注目されるようになった気がします。私も研究者の端くれですので、心しておきたいと思います。
| 固定リンク



コメント