4.7 Variables aleatorias

A partir de un experimento aleatorio se pueden definir muchas preguntas de probabilidad, por ejemplo, en el caso de la ruina del jugador podríamos preguntarnos: las ganancias después del tercer juego, probabilidad de ganar, duración del experimento (cuántos juegos se jugaron antes de alcanzar las reglas de término). Sin embargo, muchas veces nos centramos en estudiar un solo aspecto numérico del experimento.

La variable aleatoria \(X\) es un mapeo entre el espacio de resultados y los números reales.

Este enfoque tiene dos ventajas importantes:

  • Simplifica muchas veces el ejercicio de modelación, pues en lugar de tener que entender y modelar la totalidad del experimento aleatorio, podemos concentrarnos en propiedades de la función \(X\).

  • Usando probabilidades asociadas a la función \(X\) podemos resumir aspectos de interés el experimento aleatorio.

  • El uso de variables aleatorias nos permite usar álgebra para derivar resultados y representar cómputos de manera conveniente.

Ejemplo

Supongamos que nuestro experimento aleatorio es tirar un dado 10 veces. Este experimento aleatorio tiene \(10^6\) posibles resultados. Supongamos que nos interesa principlamente \(X =\) número de seises que obtuvimos en le experimento.

Entonces es posible demostrar (o puedes estimar con simulación), que las probabilidades asociadas a \(X\) podemos escribirlas como:

X_prob <- tibble(X = seq(0, 10)) %>% 
    mutate(prob = dbinom(X, 10, 1/6), prob_redondear = round(prob, 3))
X_prob
#> # A tibble: 11 x 3
#>        X         prob prob_redondear
#>    <int>        <dbl>          <dbl>
#>  1     0 0.162                 0.162
#>  2     1 0.323                 0.323
#>  3     2 0.291                 0.291
#>  4     3 0.155                 0.155
#>  5     4 0.0543                0.054
#>  6     5 0.0130                0.013
#>  7     6 0.00217               0.002
#>  8     7 0.000248              0    
#>  9     8 0.0000186             0    
#> 10     9 0.000000827           0    
#> 11    10 0.0000000165          0

Y con esta función podemos resolver otros problemas de interés sin tener que recurrir al modelo probabilístico completo. Por ejemplo, contesta la siguientes preguntas (puedes usar simulación si es necesario) :

  • ¿Cuál es la probabilidad de que al jugar este juego obtengamos 2 o menos seises?
  • ¿Cuál es la probabilidad de que tiremos un número par de seises?
  • Si repetimos este juego 5 veces, ¿cuál es la probabilidad de obtener un número total de seises mayor a 5?

Distribución de probabilidad

En general, la distribución de probabilidad de una variable aleatoria \(X\) es la función que asigna a cada evento \(X\in A\) una probabilidad \(P(X\in A)\). A los eventos \(X \in A\) les llamamos eventos asociados a una variable aleatoria. Nótese que no todos los eventos posibles asociados son de la forma \(X\in A\) para una variable aleatoria fija.

Ejemplo

En el ejemplo anterior calculamos \(P(X \in \{ 0, 1, 2 \} = P(X \geq 2)\) y \(P(X \in \{0,2,4,6,8,10\}).\) Sin embargo, el evento “tiramos al menos un 3” no se puede escribir en la forma \(P(X\in A)\). Este tipo de eventos siempre está relacionado con el número de seises que obtuvimos en el experimento.


Como vimos arriba, si tenemos una variable aleatoria que toma un número finito de valores, las probabilidades \(P(X\in A)\) pueden calcularse sumando probabilidades individuales de los valores en A: \[P(X\in A) = \sum_{a \in A} P(X = a)\]

Y una argumento similar se puede utilizar para variables que toman un número infinito pero numerable de valores (por ejemplo, enteros de 0 a infinito).

Variables aleatorias continuas

Consideremos el ejemplo del dardo sesgado unidimensional que vimos arriba. Para este experimento aleatorio, definimos la variable aleatoria \(X =\) posición del dardo en el intervalo \([0,1]\), y propusimos un modelo donde las probabilidades se calculan integrando:

\[P(X\in [a,b]) = \int_a^b f(x)\, dx\]

En general, para cualquier subconjunto \(A\subset [0,1]\) podemos definir la integral que defina la función de destribución como:

\[P(X\in A) = \int_A f(x)\, dx\] que se calcula sumando las probabilidades de los intervalos individuales que componen \(A\)

Ejemplo

Si queremos calcular la probabilidad de que el dardo segado caiga en los extremos, por ejemplo en \([0,0.1]\) o \([0.9,1]\), podemos hacer \[A = [0,0.1]\cup[0.9,1]\] y calcular \[P(X\in A) = \int_0^{0.1} f(x)\, dx + \int_{0.9}^1 f(x)\, dx\]

La función de distribución acumulada contiene la misma información que la función de distribución y se define como \[P(X \le x)\] con la ventaja de que la definición aplica tanto al caso discreto como en el caso continuo.

Ejemplo

Calculamos la función de distribución acumulada para el ejemplo anterior:

X_prob %>% mutate(fda = cumsum(prob))
#> # A tibble: 11 x 4
#>        X         prob prob_redondear   fda
#>    <int>        <dbl>          <dbl> <dbl>
#>  1     0 0.162                 0.162 0.162
#>  2     1 0.323                 0.323 0.485
#>  3     2 0.291                 0.291 0.775
#>  4     3 0.155                 0.155 0.930
#>  5     4 0.0543                0.054 0.985
#>  6     5 0.0130                0.013 0.998
#>  7     6 0.00217               0.002 1.000
#>  8     7 0.000248              0     1.000
#>  9     8 0.0000186             0     1.000
#> 10     9 0.000000827           0     1.000
#> 11    10 0.0000000165          0     1.000

Pregunta: ¿cómo recuperamos la probabilidades de cada valor a partir de la función de distribución acumulada?

Esperanza

La esperanza (valor esperado o media) de una variable aleatoria \(X\), es la media de la distribución \(X\), esto es, \[E(X)=\sum_{x\in \Omega_x} x P(X=x)\] el promedio de todos los posibles valores de \(X\) ponderados por sus probabilidades.

Por ejemplo, si \(X\) toma únicamente dos posibles valores, \(a,b\) con probabilidad \(P(a)\) y \(P(b)\) entonces \[E(X)=aP(a)+bP(b).\]

Ejemplo: Supongamos que \(X\) es el valor que se produce cuando tiro un dado justo. Entonces, \[E(X)=1\cdot P(X=1) +2\cdot P(X=2) +3\cdot P(X=3) +4\cdot P(X=4) +5\cdot P(X=5) +6\cdot P(X=6) = 3.5\] Lo que nos dice que si tiramos el dado muchas veces deberíamos esperar que el promedio de las tiradas sea cercano a 3.5.

Esperanza como un promedio cuando n es grande. Si vemos las probabilidades de los valores de \(X\) como una aproximación de frecuencias relativas cuando n es grande, entonces \(E(X)\) es aproximadamente el valor promedio del valor de \(X\) cuando n es grande.

x <- rnorm(10000, mean = 10)
mean(x)
#> [1] 10

La esperanza cumple las siguientes reglas:

  1. Constantes. La esperanza de una variable aleatoria constante es su valor constante, \[E(c) = c\]

  2. Indicadoras. Si \(I_A\) es la función indicadora del evento \(A\), \[E(I_A) = P(A)\]

  3. Funciones. Típicamente, \(E[g(X)]\ne g[E(X)]\), pero \[E[g(X)] = \sum_{x \in \Omega_X} g(x) P(X=x)\]

  4. Factores constantes. Para una constante c, \[E(cX)=cE(X)\]

  5. Adición. Para cualquier par de variables aleatorias \(X\), \(Y\), \[E(X+Y) = E(X)+E(Y)\]

  6. Multiplicación. Típicamente \(E(XY) \ne E(X)E(Y)\), pero si \(X\) y \(Y\) son independientes, entonces \[E(XY)=E(X)E(Y)\]

Varianza y desviación estándar

Si intentamos predecir el valor de una variable aleatoria usando su media \(E(X)=\mu\), vamos a fallar por una cantidad aleatoria \(X-\mu\). Suele ser importante tener una idea de que tan grande será esta desviación. Debido a que \[E(X-\mu) = E(X)-\mu=0\] es necesario considerar la diferencia absoluta o la diferencia al cuadrado de \(X-\mu\) con el fin de tener una idea del tamaño de la desviación sin importar el signo de esta.

Varianza y desviación estándar. La varianza de \(X\), denotada \(var(X)=\sigma^2\) es la media de la desviación cuadrada de \(X\) respecto a su valor esperado \(\mu=E(X)\): \[\sigma^2(X)=var(X)=E(X-\mu)^2\] La desviación estándar de \(X\), es la raíz cuadrada de la varianza de X: \[\sigma(X)=sd(X)=\sqrt{var(X)}\]

Intuitivamente, \(sd(X)\) es una medida de la dispersión de la distribución de \(X\) alrededor de su media. Debido a que la varianza es el valor central de la distribución de \((X-\mu)^2\), su raíz cuadrada da una idea del tamaño típico de la desviación absoluta \(|X-\mu|\). Notemos que \(E(X)\), \(var(X)\) y \(sd(X)\) están determinados por \(X\), de tal manera que si dos variables aleatorias tienen la misma distribución, también tienen la misma media, varianza y desviación estándar.