Capítulo 15 - Teoremas
Apresentamos aqui alguns teoremas importantes para um aprofundamento em Regressão e Estatística
15.1 Independência e Correlação
Sejam \(X\) e \(Z\) duas variáveis aleatórias, com médias \(\mu_x\) e \(\mu_z\) respectivamente.
Definição 15.1 (independência): Dizemos que \(X\) e \(Z\) são independentes, denotado por \(X \perp Z\), se \(Z\) não traz nenhuma informação sobre \(X\) e vice-versa. Formalmente, isso quer dizer que:
\(f(x,z) = f_x(x)f_z(x)\), isto é, a função densidade conjunta é o produto das marginais.
Proposição 15.1 (independência na média): Se \(X\) e \(Z\) são independentes, então são independentes na média (o reverso não é verdade).
Prova:
\(\mathbb{E}[X|Z] = \sum xP_{x|z}(x) = \sum x \frac{P_x(x)P_Z(z)}{P_Z(z)} = \sum x P_x(x) = \mu_x\)
Da segunda igualdade para a terceira usamos a definição de probabilidade condicional.
Definição 15.1.2 (independência linear): Dizemos que \(X\) e \(Z\) são não-correlacionados ou linearmente independentes se \(\mathbb{E}[XZ] = \mu_x\mu_z \iff cov(X,Z) = 0\)
Proposição 15.1.2 (independência na média para independência linear): Se \(X\) e \(Y\) são independentes na média, então são linearmente independentes. O reverso não é verdade.
\[\begin{aligned} \mathbb{E}[XZ] &= \mathbb{E}\!\big[\mathbb{E}[XZ \mid Z]\big] \quad \text{(lei das esperanças iteradas)}\\ &= \mathbb{E}\!\big[ Z\,\mathbb{E}[X \mid Z] \big] \quad \text{(condicionado em $Z$, ele é constante)}\\ &= \mathbb{E}\!\big[ Z\,\mathbb{E}[X] \big] \quad \text{(independência na média)}\\ &= \mathbb{E}[X]\,\mathbb{E}[Z] \quad \text{(constante sai da esperança)}\\ &= \mu_X \mu_Z, \end{aligned}\]logo \(\mathrm{cov}(X,Z)=\mathbb{E}[XZ]-\mu_X\mu_Z=0\).
Observação:
O reverso não vale: por exemplo, se \(Z\) é uniforme em \((-1,1)\) e \(X = Z^2\), então \(\mathrm{cov}(X,Z) = 0\), mas \(\mathbb{E}[X \mid Z] \neq \mathbb{E}[X]\).
Para ver que \(\mathrm{cov}(X,Z) = 0\), considere:
\[\begin{aligned} \mathbb{E}[XZ]-\mu_X\mu_Z &= \mathbb{E}[XZ]-\mu_X 0 &= \mathbb{E}[XZ] &= \mathbb{E}[Z^3] = 0 \end{aligned}\]15.2 Propriedade de estimadores
15.2.1 Viés
Definição 15.2 (viés). Seja \(\theta_0\) o verdadeiro valor de um parâmetro de uma variável aleatória e seja \(\hat{\theta}\) um um estimador de \(\theta_0\). O viés de um estimador é o desvio absoluto entre o verdadeiro valor do parâmetro e a esperança do estimador.
\(|\theta_0 - \mathbb{E}[\hat{\theta}]|\).
Dizemos que um estimador é não-viesado se e somente se o viés é zero. Lembrem-se que se e somente se é uma relação de bi-implicação, ou seja, se é não viesado, o viés é zero. Se o viés é zero, é não viesado.
Observação: o estimador é que pode ser viesado ou não. Isso não se aplica a uma estimativa. Incorremos em erro quando dizemos que a estimativa é viesada (ou não viesada). O que é viesado ou não é o estimador. Similarmente, não cabe falar em amostra viesada ou não-viesada.
15.2.2 Variância
Definição 15.3. (variância do estimador). Seja \(\theta_0\) o verdadeiro valor de um parâmetro de uma variável aleatória e seja \(\hat{\theta}\) um um estimador de \(\theta_0\). A variância de um estimador é o valor esperado do quadrado dos desvios amostrais.
\(Var[\hat{\theta}] = \mathbb{E}[\left(\hat{\theta} - \mathbb{E}[\hat{\theta}] \right)^2]\)
Proposição 15.3. Seja \(Z_1, Z_2, ...\) uma sequência de variáveis aleatórias i.i.d tal que, para todo \(i\), \(\mathbb{E}[Z_i] = \mu\) e \(Var[Z_i] = \sigma^2\). Seja \(X_n\) a média amostral das primeiras \(n\) variáveis. A variância amostral é igual à variância de \(Z\) dividida por \(n\).
\(Var[X_n] = \frac{Var[Z]}{n} = \frac{\sigma^2}{n}\)
15.2.3 Eficiência
Entre um número de estimadores da mesma classe (por exemplo, todos são não-viesados e têm variância finita), o estimador com a menor variância é chamado de estimador (relativamente mais) eficiente.
15.2.4 Consistência
Definição: Um estimador \(\hat\theta_n\) é consistente para \(\theta\) se \(\hat\theta_n \xrightarrow{p} \theta\), i.e., \(\forall \varepsilon>0,\ \lim_{n\to\infty}\Pr(|\hat\theta_n-\theta|>\varepsilon)=0\).
Proposição: Condição suficiente via Chebyshev
Se \(\hat\theta_n\) é não-viesado e \(\mathrm{Var}(\hat\theta_n)\to 0\) quando \(n\to\infty\), então \(\hat\theta_n\) é consistente.
Pela desigualdade de Chebyshev, \(\Pr(|\hat\theta_n-\theta|>\varepsilon)\le \mathrm{Var}(\hat\theta_n)/\varepsilon^2 \to 0\).
15.3 Exercícios para o leitor
- Suponha que \(Z\) é uma distribuição uniforme \(Z \sim U(-1,1)\). Mostre que se \(X = Z^2\), então são independentes na média, mas não independentes entre si.
Mostre que \(X\) e \(Z\) são independentes na média, mas não independentes entre si no seguinte caso:
- Seja \(Y\) uma variável aleatória uniforme \(Y \sim U(-1,1)\). Defina \(X = Y+ \epsilon_1\) e \(Z = Y+ \epsilon_2\), em que \(\epsilon_1\) e \(\epsilon_2\) são ruídos aleatórios com média zero, independentes entre si, \(X\), \(Z\) e \(Y\).
Dica: em algum momento, use a definição (15.2) de que se \(Cov(X,Z) \neq 0\), então \(X\) e \(Z\) não são independentes.
- Mostre que a média amostral é um estimador não-viesado para a média populacional.
15.4 Lei das Esperanças Iteradas
Teorema: Lei simples das Esperanças Iteradas Se \(\mathbb{E}[Y] < \infty\) então para qualquer vetor de variáveis aleatórias \(X\), \(\mathbb{E}[\mathbb{E}[Y|X]] = \mathbb{E}[Y]\).
Prova: Para \(X\) discreto:
Como a esperença condicional é uma função de \(X\) apenas, a esperança é calculada somando apenas com respeito a \(X\).
\[\begin{align*} 1.\mathbb{E}[\mathbb{E}[Y|X]] &= \sum_{j=1}^{\infty}\mathbb{E}[Y|X=x_j]P[X=x_j] \\ 2. &= \sum_{j=1}^{\infty}\left(\sum_{i=1}^{\infty} y_i P[Y=y_i|X=x_j]\right)P[X=x_j] \\ 2.5. &= \sum_{j=1}^{\infty}y_1 P[Y=y_1|X=x_j]P[X=x_j] + y_2 P[Y=y_2|X=x_j]) P[X=x_j] + \cdots \\ 3. &= \sum_{j=1}^{\infty}\sum_{i=1}^{\infty} y_i P[Y=y_i|X=x_j]P[X=x_j] \\ 4. &= \sum_{j=1}^{\infty}\sum_{i=1}^{\infty} y_i P[Y=y_i, X=x_j] \\ 5. \ &= \sum_{i=1}^{\infty} y_i \color{red}{\sum_{j=1}^{\infty}} P[Y=y_i, X=x_j] \quad \text{(Troca na ordem dos somatórios)} \\ 6. &= \sum_{i=1}^{\infty} y_i P[Y=y_i] \\ 7. &= \mathbb{E}[Y] \end{align*}\]
Teorema: Lei das Esperanças Iteradas: Se \(\mathbb{E}[Y] < \infty\) então para quaisquer vetores de variáveis aleatórias \(X_1\) e \(X_2\), \(\mathbb{E}[\mathbb{E}[Y|X_1,X_2]|X_1] = \mathbb{E}[Y|X_1]\).
A esperança interna condiciona em \(X_1\) e \(X_2\), e a externa apenas em \(X_1\). E o resultado é o condiionamento apenas em \(X_1\). Uma forma de memorizar o teorema é dizer que “o menor conjunto de informações ganha”.
15.5 Teorema do Condicionamento
Propisição: Se \(\mathbb{E}[Y] < \infty\), então \(\mathbb{E}[g(x)Y|X] = g(x) \mathbb{E}[Y|X]\).
Se, além disso, \(\mathbb{E}[g(x)] < \infty\), então \(\mathbb{E}[g(x)Y] = \mathbb{E}[g(x) \mathbb{E}[Y|X]]\)
Prova 1:
\(\mathbb{E}[g(x)Y|X] = \sum_{y} g(x) y P(Y=y|X=x) = g(x) \sum_{y} y P(Y=y|X=x) = g(x)\mathbb{E}[Y|X]\).
Como estamos somando em \(Y\), \(g(x)\) age como uma constante com respeito à somatória de \(Y\). Depois é só aplicar a definição de esperança condicional.
Prova 2. Basta aplicar a lei das esperanças iteradas e a prova acima: \(\mathbb{E}[g(x)Y] = \mathbb{E}[\mathbb{E}[g(x)Y|X]] = \mathbb{E}[g(x)\mathbb{E}[Y|X]]\)