PARA TRABAJAR ANTES DE LA PRACTICA. Esta sesión está dedicada a probabilidad y variable aleatoria.
El trabajo previo para la práctica consiste en aprender a calcular probabilidades con variables aleatorias discretas y probabilidades y cuantiles con variables aleatorias continuas.
Hay muchas herramientas para hacer estos cálculos, y aquí explicaremos como hacerlo con R
.
Hemos estudiado dos, la variable binomial
, B(n,p), y la variable de Poisson
, P(\(\lambda\)), que sirven para modelizar dos situaciones diferentes.
Ejemplo: Sea X la variable número de caras obtenidas al lanzar 5 veces una moneda equilibrada. Se trata de una variable binomial de parámetros \(n=5\) (número de repeticiones del experimento) y \(p=0.5\) (probabilidad de éxito en cada experimento).
dbinom(3, size = 5, prob = 0.5)
[1] 0.3125
donde primero escribimos el valor cuya probabilidad queremos calcular, luego se introducen los valores de los parámetros que definen la distribución: el número de experimentos dicotómicos e independientes “n”, y la probabilidad de éxito en cada uno de ellos “p”.
sum(dbinom(0:3, size = 5, prob = 0.5))
[1] 0.8125
Si desglosas el comando, tienes
0:3
[1] 0 1 2 3
que proporciona los números del 0 al 3. Ahora se calcula \(P(X=0)\), \(P(X=1)\), \(P(X=2)\), \(P(X=3)\) con
dbinom(0:3, size = 5, prob = 0.5)
[1] 0.03125 0.15625 0.31250 0.31250
y, finalmente, \(P(X\leq 3) = P(X=0)+P(X=1)+P(X=2)+P(X=3)\), es decir, sumamos las probabilidades puntuales ya calculadas con dbinom(0:3, size = 5, prob = 0.5))
:
sum(dbinom(0:3, size = 5, prob = 0.5))
[1] 0.8125
La forma directa de hacer este último cálculo es usar la función ‘pbinom’ para calcular probabilidades acumuladas, como \(P(X\leq 3)\):
pbinom(3, size = 5, prob = 0.5)
[1] 0.8125
Fíjate en que para calcular \(P(X\geq 4)\) tienes 2 opciones:
sum(dbinom(4:5, size = 5, prob = 0.5))
[1] 0.1875
o bien hacer el cálculo a través de la probabilidad del complementario
1- pbinom(3, size = 5, prob = 0.5)
[1] 0.1875
¿Entiendes la equivalencia entre las dos alternativas?
Ejemplo: la variable X = el número de llamadas de teléfono por hora a un teleoperador del 112 sigue una distribución de Poisson con, por ejemplo, parámetro \(\lambda = 2\).
dpois(1, lambda = 2)
[1] 0.2706706
donde primero escribimos el valor cuya probabilidad queremos calcular, y luego el de \(\lambda\).
sum(dpois(2:5, lambda = 2))
[1] 0.5774305
1- ppois(4, lambda = 2)
[1] 0.05265302
En este caso no podemos usar el primer enfoque que empleamos en el problema análogo con la binomial, porque no conocemos el número máximo de llamadas.
Fíjate en el paralelismo entre los pares de funciones pbinom
, dbinom
y ppois
, dpois
En este caso conoces la normal
, la uniforme
, la exponencial negativa
y, más adelante, aparecerán otras como la t de Student
, la chi cuadrado
, y la F de Snedecor
.
Con una variable continua los cálculos importantes son los cálculos directos (probabilidades), por ejemplo, dada una variable X, calcular \[ P(X<3)\qquad P(-1\leq X<5)\qquad P(X>0), \] y los cálculos inversos:
Por ejemplo Si \(X\sim N(\mu = 10, \sigma = 1.5)\) (normal de media 10, y desviación típica 1.5), para calcular la probabilidad \(P(X<11)\) se usa la función pnorm()
pnorm(11, mean = 10, sd = 1.5)
[1] 0.7475075
Esta instrucción proporciona el área bajo la curva de densidad, y a la izquierda del valor x=11. Primero escribimos el valor, y luego los valores de los parámetros que definen esa variable normal en concreto: su media (mean)y su desviación típica (sd).
Para calcular \(P(X>11)\) también puedes usas la función pnorm()
de dos formas diferentes: puedes calcular la probabilidad del evento complementario de \(P(X<11)\)
1-pnorm(11, mean = 10, sd = 1.5)
[1] 0.2524925
o bien pedir que en lugar de calcular el área a la izquierda del valor \(x=11\) (el área de la cola izquierda), calcule el área hacia la derecha
pnorm(11, mean = 10, sd = 1.5, lower.tail = FALSE)
[1] 0.2524925
eso es exáctamente lo que indica el argumento lower.tail = FALSE
.
Si para una normal la instrucción es pnorm()
, para una exponencial es pexp()
. Por ejemplo, si \(X\sim exp_{2}\), entonces \(P(0.5<X<1.5)=P(X<1.5) - P(X<0.5)\)es
pexp(1.5, rate = 2) - pexp(0.5, rate = 2)
[1] 0.3180924
En este caso, lo que hacemos es restar dos áreas, el área a la izquierda de x=1, y el área a la izquierda de x=0.5, ambas bajo la misma curva de densidad, correspondiente a la exponencial de parámetro \(\lambda=2\); observa que en cada caso, primero escribimos el valor de x, y luego el valor de \(\lambda\).
Geométricamente, buscamos el valor de la variable que deja por debajo (percentil) o por encima (valor crítico) de sí una determinada probabilidad.
Son problemas relacionados, porque si \[P(X<b)=0.6,\] como el área total bajo la curva la densidad es \(1\), entonces \(b\) cumple también que \[P(X>b)=0.4\]
Entonces, supón que queremos calcular el valor de la variabe que deja por debajo de sí una determinada probabilidad. Es decir, el valor que deja a su izquierda un cierto área bajo la curva de densidad. Ahora, la instrucción empieza por q
(de quantile, en inglés), seguido de una abreviatura del nombre de la variable (para una variable normal, por ejemplo, será qnorm
, para una exponencial qexp
, etc.) Por ejemplo, podemos querer calcular el valor \(a\) tal que \[P(X<a)=0.3\] para una cierta variable aleatoria X.
Ejemplo: resolvemos el problema anterior para una normal, y para una exponencial.
Consideramos \(X\sim N(\mu = 10, \sigma = 1.5)\). Si queremos encontrar el valor de “a” tal que \(P(X<a)=0.3\) (es el tercer decil) escribimos
qnorm(0.3, mean = 10, sd = 1.5)
[1] 9.213399
Por otro lado, para encontrar un valor b tal que \(P(X>b)=0.6\) (valor crítico) utilizamos que ese valor también satisface \(P(X<b)=0.4\), y escribimos
qnorm(0.4, mean = 10, sd = 1.5)
[1] 9.619979
También podrías usar el argumento lower.tail = FALSE
para hacer el cálculo con la cola derecha de la función de distribución:
qnorm(0.6, mean = 10, sd = 1.5, lower.tail = FALSE)
[1] 9.619979
Si \(X\sim exp_{2}\) (exponencial, con \(\lambda=2\)), entonces para encontrar \(P(X<a)=0.3\) escribimos
qexp(0.3, rate = 2)
[1] 0.1783375
mientras que para \(P(X>b)=0.6\) (que es igual que \(P(X<b)=0.4\))
qexp(0.4, rate = 2)
[1] 0.2554128
o bien
qexp(0.6, rate = 2, lower.tail = FALSE)
[1] 0.2554128