被説明変数が2値変数の時に、OLS 回帰を行う推計方法をLinear Probability Model(LPM)と呼ぶ。
LPMの問題点は、(1) 誤差項に不均一分散が生じる (2) 予測値が0から1の間に落ちる保証がない という2点である。
1点目は、Gauss-Markov Theoremが成立しないことを意味し、推計値自体がefficientではなくなる。そのため、小サンプルの場合標準誤差も歪む。これに対処するために、Feasible GLSを用いて推計すべきである。あるいはOLSを用いる場合は、robust standard errorを使用し、それに基づき仮説検定を行う。
2点目は、説明変数の中央値以外は信頼できる推計量にならないことを意味する(確率-.2や1.3は、意味をなさない)。実際、この問題点が、誤差項に確率分布を仮定するProbitやLogitのモチベーションになっている。
しかし、以下も考慮すべきであろう。
(1) LPMは解釈が容易。
(2) LPMは、omitted variable biasの存在下でも省略変数と説明変数が直行していれば(キツイ条件であるが)不偏性と一致性を満たす。 ProbitやLogitのようなbinary choice model estimatorはomitted variable biasの存在下では省略変数と説明変数が直行していても、一致性を満たさず、この意味でspecification errorに脆弱である。
(3) 小標本の場合、binary choice model estimatorは、perfect prediction の問題がある。一般的に、この問題はサンプルが大きくなれば解消する。
(4) ML推定量は、漸近的に効率的でかつ一致性を満たすが、バイアスを持つ可能性がある。すなわち、ML推定量は大標本向け(一般的には100では厳しく、500以上で安全)である。
まとめると、小標本の場合、ProbitやLogitよりもLPMを用いる意義があるだろう。