행복의 히읗
🧑🏫 통제집단합성법(Synthetic Control Method, SCM) 본문
Flowchart for Causal Inference
통제집단합성법(Synthetic Control Method, SCM)의 컨셉
- 여러 대조군의 ‘처치 전’ 데이터에 가중치를 조합해서 실험군과 유사한 가상 대조군(synthetic control)을 만든다
- 위 가중치를 그대로 이용*해서 실험군이 처치를 받지 않았을 경우의 ‘반사실(counterfactual)’ 케이스를 추정
*위 대조군의 ‘처치 후’ 데이터에 가중치를 그대로 조합 - 처치 후 기간의 실험군 결과값과 가상 대조군에서 추정한 결과값(=counterfactual) 차이를 비교하여 처치 효과 추정
이중차분법(DID)과의 공통점과 차이점 — 공통점
|
온라인 마케팅 데이터셋
- 광고를 하지 않았어도 어차피 다운로드했을 유저를 제외한 순수 광고 효과를 알고 싶다!
— 대도시 Sao Paulo(상파울루)의 앱 다운로드 수를 시장 규모에 따라 정규화
→ 일별 다운로드 비율(앱 다운로드 수 / 인구 수) = Y
ATT를 추정하려면 먼저 반사실을 추정하고 이를 관측된 결과와 비교해야 함
$$ ATT = E[Y|D=1, Post=1]-E[Y_0|D=1,Post=1] $$
* D: 처치변수
* Post: 개입 이후 여부(1이면 개입 이후)
- $E[Y|D=1,Post=1]$ : 관측된 값
- $E[Y_0|D=1,Post=1]$ : 반사실(추정 필요)
행렬 표현
![]() |
![]() |
$ATT = Y(1){post, tr} - Y(0){post, tr}$ 추정 ⇒ $Y(0)_{post,tr}$ 추정 필요
통제집단합성법과 수평 회귀분석
처치 이전 기간 동안의 가상 대조군 데이터가 실험군의 결과를 잘 근사하는 가중치 찾기 ⇒ 최적화 문제
- 각 실험 대상 결과에 가중치($w_i$)를 곱한 값이 실험 군의 결과와 비슷해지는 $w_i$ 찾기 (=차이가 0에 가까운 $w_i$ 찾기)
>> SCM과 선형 회귀의 목표가 같다?!
대조군의 결과를 특성($X_i$)으로 사용해서 실험군의 평균 결과($Y$)를 예측하는 회귀
- 처치 전 데이터를 X로 활용한 회귀 분석으로 처치 전의 $E[Y_0|D=1]$ 추정
- 추정된 회귀 계수 = 각 대조군의 가중치
- 위 가중치를 활용해서 처치 전/후 전체의 $E[Y_0|D=1]$ 예측
- 처치 전 기간 동안에는 유사했던 그래프가 처치 이후 차이 발생
→ 실험군이 더 높음 = 긍정적인 효과 확인
- 앗! 처치 전 ATT(OLS 모델의 잔차)가 너무 작다면 OLS 모델이 과적합되었을 수 있음
→ 반사실을 추정할 때 사용하는 표본 외의 예측이 잘못되었을 수 있음
⇒ 결론: 단순 회귀 분석 활용 멈춰!🤚
표준 통제 집단 합성법
가중치에 대한 제약 조건 (볼록성 제약 조건, convex hull condition)
- 가중치는 모두 양수여야 한다
- 가중치의 합은 1이어야 한다
- 가상 대조군을 구성하는 데 있어서 기존 대조군의 interpolation만 허용(convex hull 공간 안에만 존재하도록 만듦)
→ 만약 extrapolation을 허용하게 되면, overfitting 문제 발생할 수 있음
- 가상 대조군를 구성하는 요소에 대한 해석이 굉장히 모호해짐
- 정규화 전보다 학습(처치 전) 오차는 약간 커졌지만 ATT는 잡음이 줄어듦
통제집단합성법과 공변량
일반적으로 통제집단합성법은 대조군의 처치 전 결과를 특성으로 사용(이건 필수!)해서 $\overline{Y_{tr}}$ 을 예측함
- 단, 결과값에 중요한 영향을 미친다고 판단되는 공변량은 명시적으로 고려해서 모델에 추가할 수 있음(이건 선택!)
→ 공변량을 포함하면 가상 대조군을 추정할 때 bias의 bound를 좁힐 수 있음*
*bias의 bound를 좁힐 수 있음: pre-treatment period는 길수록 SC prediction accuracy를 높일수있지만, 요소간 구조/배경적 변화가 있을 수 있어 trade-off임
공변량을 포함하여 가상 대조군 추정하기
- 가중치($w_i$)를 $y_{co}$와 공변량 $x_{co}$에 모두 적용해서 $\overline{Y_{tr}}$ 를 근사하는 가상 대조군 생성
- 단, $x_{co}$, $y_{co}$가 완전히 다른 단위를 가질 수 있고, 그에 따라 특정 공변량이 결과 변수에 더 큰 영향을 미칠 수 있음
- 1-a를 해결하기 위해 $y$를 포함한 각 공변량에 척도 인자($v$)*를 곱해서 척도를 맞춰줌
*공변량의 척도(크기/단위)를 조정해서 결과 변수와 같은 수준에서 비교할 수 있게 함 - $y$를 공변량 중 하나로 취급해서 공변량($X$)의 관점으로만 목적 함수를 재구성
- 아래의 목적 함수를 최적화 목적 함수로 다시 묶어서 최적의 척도 인자($v$) 찾기
* 4. 최적의 척도 인자($v$) 찾기
- 가상의 통제집단 만들기:
- 처치집단(새로운 수학 교육 프로그램을 받은 학생들)과 비슷한 특성을 가진 여러 통제집단(프로그램을 받지 않은 학생들)의 데이터를 모아.
- 각 통제집단에 가중치 w를 부여해서 가상의 통제집단을 만들어. - 최적의 v 찾기:
- 공변량(가정환경, 학교 재정 상태, 교사의 경험 등)에 대해 각각 가중치 v를 부여해.
- 이 가중치 v가 결과(학생 성적)에 얼마나 영향을 미치는지를 평가해.
- 가상의 통제집단과 실제 처치집단 간의 차이를 최소화하는 v 값을 찾기 위해 최적화 목적 함수를 사용
- 결과적으로 최종 결과가 공변량을 고려하지 않은 것과 크게 다르지 않을 수 있다
→ 가끔 매우 예측력있는 공변량을 찾을 수도 있다!
통제집단합성법과 편향 제거
처치 전의 $T_{pre}$ 수가 적으면 과적합이 발생하기 쉽기 때문에 통제집단합성법은 편향될 수 있다.
→ 실제로는 ATT=0 이지만, SCM ATT 추정 시뮬레이션 평균은 0이 아니다 → 편향
7장에서 배운 교차 예측(cross-fitting)을 이용해서 과적합 편향을 해결하면…
→ 아래 편향식을 기준으로 k개의 다른 ATT를 얻을 수 있고 이에 대한 평균인 최종 ATT 추정값을 얻을 수 있음
- 일반적으로 편향 제거가 ATT 추정값을 약간 높임
추론
SCM은 회귀처럼 SE나 p-value를 가지고 통계적 유의성을 판단하는 게 어렵다
편향 제거 과정을 통해 ATT 추정값 주위에 신뢰구간을 설정할 수 있음
- 편향 제거 시, K개의 폴드와 처치 후 시점 하나 당 한 개의 ATT 추정값을 얻을 수 있음
→ 전체 ATT 추정값에 대한 신뢰구간을 구해보자!
- $\widehat{ATT}$ = 데이터프레임 행의 평균의 평균
- ATT에 기반한 표준오차 추정값(SE)
$$ \hat{\sigma} = \sqrt{1 + \frac{\text{BlockSize} * K}{T_{\text{post}}}} * \sqrt{\frac{1}{K-1} \sum_{k=1}^{K} \left( \text{ATT}^k - \text{ATT} \right)} $$
$$ \widehat{SE}=\hat{\sigma}/\sqrt{K} $$ - $H_o:ATT=0$ 하에서 자유도가 $K-1$인 t분포를 갖는 검정통계량 $\widehat{ATT} / \widehat{SE}$을 구할 수 있음
→ t분포를 이용해서 ATT의 신뢰구간을 구할 수 있음
$$ \widehat{ATT} \pm t_{\alpha/2,K-1}\widehat{SE} = \widehat{ATT} \pm t_{\alpha/2,K-1}\widehat\sigma/\sqrt{K} $$
- K(분모)가 클수록 더 좁은 신뢰 구간을 가짐
- 단, 처치 전 기간이 짧은 경우 K값이 커지면, $1-\alpha$의 신뢰구간이 $1-\alpha$보다 더 낮은 확률로 실제 ATT를 포함함 = 신뢰구간이 ATT를 포함할 확률이 낮아짐
- → K=3이 적당~ $T_0$가 N보다 더 크면 신뢰구간의 길이를 줄이기 위해 더 큰 K값을 시도해볼 수 있음
합성 이중차분법(Sythetic DID, SDID)
합성 이중차분법(Sythetic DID, SDID)의 컨셉
- Sythetic Control Method를 이용하여 가상 대조군 구성
- 이중차분법에서의 대조군으로 사용하여 처치 효과를 추정
1. 이중차분법
$$ Y_{it}=\alpha_i+\delta_t+\beta D_{it}+\epsilon_{it} $$
- $Y_{it}$: 단위 i의 시간 t에서의 결과 변수
- $\alpha_i$: 단위 고정 효과
- $\delta_t$: 시간 고정 효과
- $D_{it}$: 단위 i가 시간 t에 처치를 받았는지 여부를 나타내는 이진 변수
- $\beta$: 우리가 추정하고자 하는 처치 효과(ATT)
- $\epsilon_{it}$: 오차항
2. 합성통제법
$$ Y_{synthetic,t}=∑_{j=1}^Jw_jY_{jt} $$
- $Y_{synthetic,t}$: 합성 통제집단의 결과 변수
- $w_j$: 통제집단 j의 가중치
- $Y_{jt}$: 통제집단 j의 시간 t에서의 결과 변수
⇒ 합성 이중 차분법 (Synthetic Difference-in-Differences, SDID)
- 사전 기간 합성 통제집단 구성:
- 처치가 발생하기 전의 데이터를 사용하여 합성 통제집단 구성
- 사전 기간의 결과 변수 $Y_{it}$와 공변량 $X_i$를 사용하여 가중치 $w_j$ 추정
- 이중 차분법 적용:
- 사전 기간의 합성 통제집단과 처치집단의 결과 변수 차이 계산
- 사후 기간의 합성 통제집단과 처치집단의 결과 변수 차이 계산
- 이 두 차이의 차이를 사용하여 처치 효과 추정
- $\bar{Y}_{treated, post}$: 처치 집단의 사후 평균 결과 변수
- $\bar{Y}_{synthetic, post}$: 합성 통제집단의 사후 평균 결과 변수
- $\bar{Y}_{treated, pre}$: 처치 집단의 사전 평균 결과 변수
- $\bar{Y}_{synthetic, pre}$: 합성 통제집단의 사전 평균 결과 변수
합성 이중차분법이 흥미로운 이유
- $E[Y(0)_{ti}|D=1]$에 대한 가상의 대조군을 만들기 때문에 이중차분법에 필요한 평행 추세 가정이 훨씬 더 타당해짐
- DID나 SCM보다 편향이 더 낮은 경향을 보임
- 분산도 더 낮은 경향이 있음
- 이중차분법을 사용함으로써 통제집단합성법은 실험군의 추세를 파악하는 데 집중할 수 있음
- 실험군이 서로 다른 수준의 $Y_0$를 가질 수 있기 때문
- 시간 고정 효과 통제: DiD의 시간 고정 효과 통제 기능을 활용하여 시간에 따른 일반적인 변화를 제거 - 반사실 추정: SCM의 반사실 결과 추정 기능을 활용하여 보다 정교한 통제 집단을 구성합니다. - 과적합 방지: SCM의 과적합 문제를 DiD의 시간 고정 효과 통제를 통해 완화할 수 있습니다. |