過学習(オーバーフィッティング)を防ぐ:MMMモデルの正則化テクニック
マーケティングミックスモデリング(MMM)において、**過学習(オーバーフィッティング)**はモデルの信頼性を根本から損なう深刻な問題です。本記事では、過学習のメカニズムから検出方法、そして実務で使える正則化テクニックまでを体系的に解説します。
過学習とは何か?
過学習とは、モデルが訓練データのノイズやパターンに過度に適合してしまい、未知のデータに対する予測精度が著しく低下する現象です。
過学習の直感的な理解
例えば、過去2年間の週次データ(約104週分)に対して、20個以上のマーケティング変数を投入したMMMモデルを構築する場面を考えてみましょう。
| 状態 | 訓練データR² | テストデータR² | 解釈 |
|---|---|---|---|
| 適切なフィット | 0.85 | 0.80 | 良好:汎化性能も高い |
| 過学習 | 0.98 | 0.55 | 危険:訓練データに過剰適合 |
| 未学習 | 0.45 | 0.40 | 不足:モデルが単純すぎる |
過学習したモデルは、訓練データでは非常に高い精度を示しますが、新しいデータ(将来の予測やシミュレーション)では大きく外れた結果を返します。これは、MMMの主目的である予算配分の最適化やROI予測に致命的な影響を与えます。
MMMで過学習が起きやすい状況
1. 変数が多すぎる(高次元の呪い)
MMMでは以下のような多くの変数を投入しがちです:
- メディアチャネル(TV、デジタル、OOH、ラジオなど)
- 各チャネルのAdstock変換パラメータ
- 季節性変数(月次ダミー、祝日フラグ)
- 外部要因(気温、競合活動、経済指標)
- 価格・プロモーション変数
変数の数がデータポイント数に対して多いほど、過学習のリスクは急激に高まります。
経験則として、1変数あたり最低10〜15のデータポイントが必要とされます。週次データ2年分(104行)で10変数を超えると、注意が必要です。
2. データ期間が短い
| データ期間 | 週次データ数 | 安全な変数目安 |
|---|---|---|
| 1年 | 52行 | 3〜5変数 |
| 2年 | 104行 | 7〜10変数 |
| 3年 | 156行 | 10〜15変数 |
| 5年 | 260行 | 15〜25変数 |
3. Adstockのハイパーパラメータが多い
MMMでは各メディアチャネルに対してAdstock(広告残存効果)のパラメータ(減衰率、最大効果までのラグ)を設定します。5チャネルでAdstockパラメータが各2つあれば、それだけで10個のハイパーパラメータになります。