En este caso, y en adelante, se entiende que una variable es observada si la información existe y está registrada en los datos a disposición del investigador. De manera análoga, una variable no observada es aquella que no existe o no quedó registrada en la base de datos disponible.
En últimas, debido a que uno de los dos resultados en la ecuación (2.1) no es observable para cada individuo i, no es posible estimar el efecto individual del tratamiento,
donde E[·] denota el operador de expectativas.
Una representación simple de la variable de resultado con base en el modelo de regresión lineal está dada por:
El efecto
Por un lado, se puede utilizar el impacto promedio del programa sobre los tratados (o ATT9), que es, por lo general, el parámetro de mayor interés en una evaluación de impacto. Es decir, el efecto promedio del tratamiento en el subconjunto de individuos que fueron efectivamente tratados. Éste corresponde a la diferencia entre la media de la variable de resultado en el grupo de los participantes y la media que hubieran obtenido los participantes si el programa no hubiera existido:
donde E[.|D] denota el operador de expectativas condicional.
En este caso, E[Yi(0)|Di = 1] es el valor esperado de la variable de resultado en el grupo de tratamiento en presencia del tratamiento y E[Yi(0)|Di = 1] que se conoce como el resultado contrafactual, es el valor esperado de la variable de resultado en el grupo de tratamiento en ausencia del tratamiento. Evidentemente, el promedio contrafactual, es decir, el resultado promedio de los individuos tratados de no haber existido el programa o tratamiento, es un resultado hipotético, por lo cual no se observa en la realidad, y por tanto no queda registrado en los datos. El efecto promedio del programa sobre los tratados es particularmente relevante para definir si un programa existente debe continuar o, por el contrario, debe eliminarse o modificarse.
Por otra parte, se puede estimar el impacto promedio del programa sobre los no participantes (o ATU10), que corresponde a la diferencia entre la media de la variable de resultado que habrían tenido los no participantes si hubieran participado en el programa y la media de la variable de resultado que efectivamente tuvieron los no participantes al no haber participado:
En este caso, el resultado contrafactual, E[Yi(0)|Di = 1], corresponde al promedio de la variable de resultado de los no participantes si hubieran participado en el programa, dado que estos individuos no han sido tratados. Evidentemente, este contrafactual es hipotético, por lo cual no se observa en la realidad, y por tanto no queda registrado en los datos. El parámetro
En cualquiera de los dos casos,
Sin embargo, esta comparación podría generar estimaciones inexactas del efecto del programa, dado que los participantes y los no participantes generalmente son diferentes, aun en ausencia del programa.11 Por ende, las variables de resultado del grupo de tratamiento y el grupo de control podrían ser diferentes, aun si el programa no existiera. Este problema se conoce como sesgo de autoselección. Por ejemplo, es posible que los niños participantes en el programa de nutrición provengan de familias más vulnerables que los niños elegibles pero que no participan en el programa. Las variables de vulnerabilidad, como el ingreso del hogar y la educación de los padres, pueden tener efectos directos sobre los indicadores antropométricos que estamos utilizando como variable de resultado, aparte del efecto directo del programa evaluado. Por ejemplo, en hogares con más ingreso la dieta puede ser mejor que en hogares con menos ingresos. De ser así, al comparar los resultados de desnutrición, por ejemplo, del grupo de tratamiento con los del grupo de control podríamos estar atribuyendo al programa un efecto negativo que en realidad se debe a que el grupo de niños tratados es más pobre y de padres menos educados que el grupo de niños usados como control. En este caso, estaríamos subestimando el efecto del programa, debido a que no hemos tenido en cuenta las diferencias preexistentes entre los dos grupos que