Además de posibles diferencias observadas entre los dos grupos (como ingresos del hogar y educación de los padres), es también posible que existan diferencias no observadas o no medidas entre los dos grupos. Por ejemplo, puede ser que las madres de familia participantes en el programa estén más motivadas o atentas o sean más proactivas respecto al desarrollo de sus hijos, por lo cual se esmeraron en lograr la participación en el programa. El problema de autoselección radica en que la motivación de las madres (que no observamos y sería difícil de medir) afecta no sólo la probabilidad de participar en el programa, sino también el estado nutricional de los niños. Esto es porque las madres más motivadas podrían vigilar mejor la dieta de sus hijos. Por tanto, la diferencia observada en el estado nutricional de los niños de los dos grupos se podría deber parcialmente a la diferencia en el nivel de motivación de las madres, y no exclusivamente a que un grupo participa en el programa y el otro no.
Note que la comparación entre el promedio de la variable de resultado de los participantes y el promedio de la variable de resultado de los no participantes está dada por:
Adicionalmente, sabemos que el ATT está dado por:
Restando E[Yi(0)|Di = 1] a ambos lados de la ecuación obtenemos:
donde el lado derecho de la ecuación (2.7) es la diferencia entre el promedio de la variable de resultado de los participantes y el promedio de la variable de resultado de los no participantes.
De la ecuación (2.7) se deduce que utilizar E[Yi(0)|Di = 1] como aproximación del contrafactual, E[Yi(0)|Di = 1], permite recuperar el
Esta condición implica que la variable de resultado en ausencia del programa debería ser idéntica para el grupo de individuos tratados (D = 1) y el grupo de individuos no participantes o grupo de control (D = 0), lo cual, como ya se ha expuesto, es un supuesto bastante fuerte. Por esta razón, la simple comparación de medias de las variables de resultado entre el grupo de tratamiento y el grupo de control generaría una aproximación inexacta del efecto del programa sobre el grupo de niños tratados, con excepción de un programa implementado a manera de experimento aleatorio. Este caso será estudiado en detalle en el capítulo 4.
Si el supuesto (2.8) se cumple, es decir, si el valor promedio de la variable de resultado en ausencia del programa fuera idéntico para el grupo de individuos tratados (D = 1) que para el grupo de individuos no participantes (D = 0), entonces el efecto del programa estaría dado por:
En este caso, el estimador de
donde Ȳ|D es el promedio muestral de la variable de resultado, dado el estatus de participación D. Es decir, el estimador del efecto del programa bajo el supuesto (2.8) resulta de comparar el promedio muestral de Y en el grupo de tratamiento con el promedio muestral de Y en el grupo de control. Esta comparación de medias se puede implementar fácilmente por el método de regresión de la siguiente manera:
donde Yi es la variable de resultado para el individuo i, Di es una variable binaria13 que toma el valor de 1 si el individuo i participa en el tratamiento (o programa) y 0 si el individuo i es elegible pero no participa en el programa, y ui es el término de error de la regresión que recoge las variables observadas y no observadas del individuo i, aparte de Di , que afectan la variable de resultado. Como
Si el supuesto (2.8) se cumple, entonces no existe correlación entre la participación en el programa (el indicador Di) y todas las características del individuo contenidas en ui porque el supuesto implica que los individuos participantes son idénticos a los individuos no participantes. En otras palabras, la participación es independiente de las características del individuo y, por tanto, E[Yi(0)|Di = 0] es una aproximación adecuada del contrafactual E[Yi(0)|Di = 1]. Formalmente, esto implica que
Éste se conoce como el supuesto de independencia condicional e indica que conocer Di no añade ninguna información adicional acerca de ui. En otras palabras, los individuos que participan en el programa no son sistemáticamente distintos de los individuos que no participan en el programa en características contenidas en ui .
Bajo el supuesto (2.12), el estimador de β1 por el método de mínimos cuadrados ordinarios (MCO)14 es consistente e insesgado.15 Lo primero implica que el estimador de β1 por MCO,
El parámetro β1 en la ecuación (2.11) se interpreta como el efecto del programa o la diferencia de medias de la variable de resultado entre el grupo de tratamiento y el grupo de control. Note que tomando expectativa condicional en la ecuación (2.11) se obtiene:
porque
Entonces
El estimador de MCO de β1 estaría dado por:16
que coincide precisamente con la definición del
Éste se conoce como