2020 04/14
経済社会の学び方

第9回 因果推論との向き合い方③――新たな手法の展開とその限界

■経済学はこの「難所」をどう克服しようとしているか

 社会研究は、現実を正確に把握して様々な変数の間の因果関係や相互依存関係を剔出することを目的とすることが多い。因果関係を検出し、それに対して対策(政策)を考え、現状を改善することが求められるからだ。

 これまで医学的な治療との類推を例として挙げることがあったが、自然科学でも因果関係の確定は決して容易ではない。繰り返しになるが、因果関係を論ずる際に求められ、適用される「知」は、絶対的なものではなく、蓋然的なものであるということは強調してもし過ぎることはない。

 ひとつの変数がふたつ以上の要因(説明変数)によって影響を受ける場合、注目するある変数の影響(因果関係)をどのようにして抽出するのか。これはコントロールされた実験ができない社会科学にとって、避けて通れない難所である。近年、この分野でいくつかの進展が見られる。

 例えば労働経済学の主要トピックとして、教育と所得の関係を論ずる分野がある。この問題は先に挙げた福沢諭吉の教育と貧困の議論からもわかるように、人間社会にとって古典的テーマとも言える。その際、「能力」と所得を問題としているのか、「教育」と所得の関係を調べようとしているのか、問題が十分区別されていないケースもある。能力の所得への効果を見ているのか、教育の所得への効果なのか識別するのが難しいということだ。ランダムに選ばれた若者のグループに、(能力やバックグラウンドと関係なく)異なったレベルの教育を施し、数年を経て、彼らの所得状況を観察する、という教育レベルだけをコントロールした「社会実験」も理論的にはデザインできる。しかし言うまでもなく、こうした「実験」には道徳的問題が含まれる。従って、能力の差によって生まれる推定の偏り(ability bias)を取り除いて、教育の純粋な効果を測定する方法が開発されるようになった。

 具体的なケースを二つ示しておこう。

■一卵性双生児に注目した手法とその限界

 教育はどのように将来の所得に影響するのか、という問題を考える場合、就学年数で教育の量をとらえることはその推定にバイアスを持ち込むことになる。潜在的な能力(innate ability)のある者は、同じ教育年数でも、教育の所得への効果は大きく推定されてしまうからだ。このバイアスを回避するひとつの方法として、1990年代に一卵性双子に関するデータが用いられるようになった(この手法を用いた研究として、O. Ashenfelter, Alan B. KruegerのAER、December 1994の論文と. Ashenfelter and C. Rouse、QJE, vol.113, 1998がよく知られている)。

 Ashenfelter and Rouse は、米国オハイオ州の人口2万人程度の町、ツインズバーグで開かれる「全米双生児フェスティバル」に参加した一卵性双生児の大量データを収集して「学校教育の収益率」(教育年数が一年長いことによる所得の上昇率)を推定した(ちなみにこのフェスティバルには約3,000組の双子〔三つ子以上も含む〕が参集するという)。同じ遺伝子、つまり同じ先天的な能力で、同じ家庭環境で育った一卵性の双子に教育年数の差があれば、所得にどれ程の差が観測されるのかに着目したのである。差があれば、それは教育年数の差に起因するとしたのだ。もっとも、ここでは双子の間に生じた情緒的な差、学習意欲の差の問題などは取り上げられていない。

 この研究の暫定的結論は、教育年数が一年増加すれば、所得は8~9%高くなり、「追加的な教育年数の増加は所得の増大に貢献する」というものである。これはまさに人的資本理論が予想する結果であったといえる。

 一卵性双生児は基本的に、親の所得や生活環境が同じである。しかし双子の中には、大学へ進学する者と高校中退する者など、同じペアでも、教育年数に違いがあるケースが少なくない。こうしたデータを収集すると、所得への教育年数の影響について、一般のデータよりもはるかに能力差によるバイアスが少ないことが保証されたデータが得られると判断された。

 ただ、こうした双子のデータを用いた推定結果を、より広い一般のデータから得られた結果と比べると、その差がかなり有意に出てくるケースと、予想以上に小さいケースがあり、確定的な結論が出ているわけではない。遺伝子的な意味での能力差を取り除けたとしても、他にバイアスを生む要因があることは否定できないのだ。

 そもそも一卵性双生児の一方が(例えば)大学院まで進学し、他方が高校中退であるというケースが起こるのは何故か、という考察を抜きにして、いきなりこうした統計処理に専念することには問題があろう。むしろこのことから、一卵性双生児といえども「完全には同じでない」ということに関心を広げるべきだろう。例えば一卵性双生児において、自分の将来をどれほど自覚して考えているのかという点でなぜ違いが出るのかを考えない限り、統計的に計測された結果は純粋に教育投資の収益率と解釈することはできない。その意味では、一卵性双生児を用いた教育の所得への効果の測定は、現段階では完全に解決されたわけではない。

■ランダム化されたサンプルを用いる

「自然実験(natural experiment)」と呼ばれるこうした手法の例をもうひとつ挙げておこう。同じ「潜在的な能力」を持つ人の教育程度と収入に関するデータを集めて、教育がいかなる経済的な効果を及ぼしているのか、「潜在的な能力」を一定にして教育の効果の測定を可能にする次のような方法も開発された。(J. Angrist and A.B. KruegerのJournal of Business and Economic Statistics 13, April 1995の論文)

 米国ではヴェトナム戦争が最終段階に差し掛かった頃、有資格者の中から徴兵の順番を決めるルールとして、「くじ」による選出方法が導入された。説明はやや煩瑣になるが概略次のような方式であった。

「くじ」の形は、ある年に生まれたものに、その誕生日の月日に1から365までの番号をランダムに付ける。この番号順が軍役に就く順序となる。低い番号ほど徴兵される順番がはやく、高い番号ほど遅くなり、ある程度以上番号が大きくなると「徴兵を免れられる」ことを意味した。この制度の下で、非常に低い番号が当たったものが徴兵を免れる方法は、「学生の徴兵猶予」のルールを利用することであった。非常に低いくじ番号のもので徴兵猶予になりたいものは、大学へ進学し「学生になる」という選択肢を選ぶのだ。

 この方式では、誕生日によってランダムに徴兵の順序が決まっているので、低い番号の者と高い番号の者との間に潜在的な能力差があるとは考えられない。つまり、低い番号のグループと高い番号のグループの能力は平均としては同じとみなすことができる。

 徴兵されそうな低い番号の者は大学にとどまるかもしれないし、逆に徴兵の可能性の低い「高い番号」の者は、徴兵を逃れるために余計に大学で留年する必要もなく、そのまま卒業するだろう。したがって、この二つのグループの間には能力の差がないと考えられるから、「低い番号で高い教育年数の労働者」と「高い番号で教育年数の低い労働者」の間の賃金所得の格差は、純粋な教育の影響力を測定していると考えることができるのだ。

 教育(サービス)は消費するのに「能力」を必要とする。高学歴を獲得するには学歴を高めるために越えなければならないハードルがある。したがって、教育年数と能力には必ず正の相関が存在する。そのため、所得の上昇が能力によるものなのか、教育によるものなのかの判定は極めて難しい。しかし、このように能力によるバイアスをコントロールすれば、教育と賃金所得の関係をより純粋に抽出出来ると考えられる。こうしたデータが利用できるケースは限られている。したがってランダム化されて収集されたデータを利用するこの手法は、問題を全面的に解決しているわけではない。ちなみにこの手法で「能力」によるバイアスをコントロールすれば、教育(年数)の推定収益率は約7%ほどだと報告されている。

■近年の展開は朗報ではある

 自然科学の分野では、他の変数をコントロール(制御)しながら問題とする変数を変化させて、説明されるべき変数(被説明変数)への影響力を観察する実験が可能な場合が多い。しかし社会現象を究明する場合には、こうした自然科学における実験手法をそのまま用いることができないケースがほとんどだ。しかもこれはデータを大量に集めたからと言って解決できる性格の問題ではない。社会研究をする者の前に立ちはだかるこうした「厚い壁」をどのように崩すのか、あるいは乗り越えるのかは挑戦に値する難題である。

 実際、近年こうした因果関係に迫る分析手法は、目覚ましい展開を遂げている。そうしたチャレンジは、様々な興味深い解決方法を(限られたケースについてではあるが)提示していると同時に、社会現象の複雑さ自体を明らかにしてくれる点でも有益だ。例えば、伊藤公一朗『データ分析の力 — 因果関係に迫る思考法』(光文社新書)は、この難問に対して近年開発された分析方法を大変分かりやすく解説している。

 しかしヒュームの因果関係についての考察を思い起こすと、こうした統計的手法は一部の限られた問題について、厳密性を保持しつつ、正確に条件付きの回答を与えているということになる。もちろん、「完全ではないから価値がない」というのは、知的ニヒリズムであり、「積み重ね」と持続と蓄積の精神を旨とする学問にとって、そうしたニヒリズムは危険な敵である。

 統計学の推論の基本目的は因果の検出にあるにもかかわらず、筆者が統計学を学んだ頃には、統計学的に因果的推論をいかに行うかは表に現れたトピックではなかった。統計的に因果関係を厳密に推論する手法は、「ランダム化実験」が開発されたあたりから盛んになり始めた。しかし「ランダム化実験」は、先に取り上げたヴェトナム戦争時の徴兵時のデータのようには多く存在するものではない。

 こうした状況を踏まえて、因果を統計学の中心課題として位置づけ、統計学を拡張しているのが「統計的因果推論」という分野である。この分野の近年の発展は、教科書がすでに多く書かれていることからもうかがい知れる。この分野の新たな展開を、「因果関係」を剔出する方法として(常識や直感に頼ることなく)これらの教科書から学ばなければならない。

 統計的因果推論を解説する教科書で、例示として取り上げられる「シンプソンのパラドックス」を紹介し、常識や直感が時にいかに信頼できないか、そして真の因果関係は何故、単なる統計データを眺めるだけでは分からないのかを最後に示しておこう。「シンプソンのパラドックス」は、統計的な集計量が、全体と部分で相反するという、まことに直感に反するような例である。こうしたパラドックスに親しんでおくことは必要だ。統計と大まかな推論だけを頼りに物事を考えることの危なさを教えてくれるからだ。

■「シンプソンのパラドックス」は直感に反する

 英国の統計学者で暗号解読者でもあるE.H.シンプソン(1922~2019)は、次のようなすぐには理解できない(受け入れられないような)「シンプソンのパラドックス」と呼ばれる数値例を作った。それは、母集団における相関と、母集団を分割したそれぞれの集団での相関が、正負逆になることがあるというケースだ。集団を二つに分けた場合にある仮説が成立しても、集団全体では全く逆の仮説が成立するケースである。以下の例は『入門 統計的因果推論』(J. Pearl, M. Glymour, N. Jewell)(落海 浩訳)からの数値例である。

 シンプソンは、ある患者のグループに新薬を投与した結果の数値を示した。下の表は、薬を投与した患者と投与しなかった患者を性別に集計してそれぞれの回復率を計算したものと、全員を合計した場合の回復率である。

 まず男女別にみる。薬を投与した男性の回復率は、投与しなかった男性の回復率よりも高い。女性についても、薬を投与した女性の回復率は、投与しなかった女性の回復率よりも高いという結果である。新薬は男性に対しても女性に対しても「効力がある」という結論が導けそうだ。ところがこの数値例では、薬を投与した患者としなかった患者を男女の合計で見ると、薬を投与した患者の方が、投与しなかった患者よりも回復率が低いという結果になる。

「そんな馬鹿な」と思って当然であろう。しかし数字を何度チェックしても計算自体に間違いは見つからない。こうした事態に直面した場合、この新薬の効果をどう評価すればよいのだろうか。その判断をこの統計結果だけから下すことはできない。つまりこの統計だけでは判断のための十分な根拠(あるいは証拠)が与えられているとは言えないのだ。必要なのは、この新薬の持つ他の作用(あるいは副作用)に関する情報であり、薬を投与することがもたらす、「回復を妨げる作用」が男女間で異なる可能性があるという因果的推論である。したがって、性別にその効果を測定したということは、この新薬の有効性の判断にとって極めて重要な作業なのである。統計数値の生データだけを見ていると、男女共に薬の投与は回復率を(投与しない場合よりも)高めているわけであるから、つい薬の作用は性別に影響するはずがないという思い込みに引っ張られてしまう。

 この「思い込みの罠」からいかに脱出するか。それを問題にするのが統計的因果推論という学問分野であり、それを理解するにはこの『入門 統計的因果推論』のような明解なテキストを、ゆっくり考えながら(楽しみながら)読むより他はない。

 実はこの「統計的因果推論」は近年突然に現れたわけではないという指摘もある。その学説史的・思想的な流れを明らかにした興味深い著作、佐藤俊樹『社会科学と因果分析 ― ウェーバーの方法論から知の現在へ』(岩波書店、2019年)を筆者は最近読んだ。同書で展開された興味深い視点について最後に言及しておきたい。

 マックス・ウェーバーは、日本では特に「語り尽された学問の巨人」と思われるほど、長い間多くの分野の研究者の関心を集めてきた。佐藤氏の著作は、ウェーバーの定式化した「適合的因果構成」という因果関係の分析に注目し、この方法が近年の統計的因果推論に繋がる点を示している。その内容を要約的に紹介することは難しいが、同書の第5章「社会の観察と因果分析」における「社会科学と反事実的因果」が、反事実(counterfactuals)、すなわち「過去のある時点において異なる選択をしていたら何が起こっていたか」という問題を扱っている。この確率をいかに計算するのかが、統計的因果推論の主要テーマのひとつであると佐藤氏は論じている。こうした因果の概念と推論の方法を、すでにウェーバーが問題として論じていたことは、学問がいかに時間とともに緩やかに持続力を持って前進するものであり、新しい考えが突如現れるものではないということを知る上でもまことに興味深い指摘だと思う。

(以下、次回。参考文献は、新書刊行時にまとめて表示いたします)

猪木武徳(いのき・たけのり)

1945年、滋賀県生まれ。大阪大学名誉教授。京都大学経済学部卒業、マサチューセッツ工科大学大学院博士課程修了。大阪大学経済学部教授、国際日本文化研究センター所長、青山学院大学大学院特任教授などを歴任。主な著書に、『経済思想』(岩波書店)、『自由と秩序』(中公文庫)、『戦後世界経済史』(中公新書)、『経済学に何ができるか』(中公新書)など。