Los datos

En este fichero puedes encontrar parte de los resultados de la encuesta nacional de salud, en la que se preguntó por distintos hábitos a 21007 individuos.

A continuación aparecen las variables eleccionadas junto con su codificación.

Por si te interesa, aquí está en enlace a la página del INE. Allí encontrarás

Objetivos

Vamos a usar los datos de la encuesta nacional de salud realizada en 2011-2012 para estimar al probabilidad de ciertos eventos a nivel poblacional. Básicamente:

Ejercicio 1

  • Supondremos que has guardado la tabla de datos en la variable datos

  • Comprueba si hay filas incompletas

    all(complete.cases(datos))
    [1] TRUE
  • Determina el tamaño de la tabla (nº filas y columnas)

    dim(datos)
    [1] 21007     2
  • Elimina los “no sabe/no contesta”, codificados con 8 y 9.

    elimina1 = which(datos[ , 1] %in% c(8, 9))
    elimina2 = which(datos[ , 2] %in% c(8, 9))
    datos = datos[-c(elimina1, elimina2), ]
  • Determina el tamaño de la nueva tabla (nº filas y columnas tras eleiminar los ns/nc)

    dim(datos)
    [1] 20984     2

Ejercicio 2

  • Calcula la tabla de contingencia para las dos variables. Incluye los valores marginales.

    (tabla1 = table(datos))
         S105
    SEXOa    1    2    3    4
        1 2662  307 2759 3906
        2 2100  247 1422 7581

    Puedes cambiar los nombres de filas y columnas

    rownames(tabla1) <- c("hombre", "mujer")
    colnames(tabla1) <- c("habitual", "ocasional", "ex-fumador", "no-fumador")
    tabla1
            S105
    SEXOa    habitual ocasional ex-fumador no-fumador
      hombre     2662       307       2759       3906
      mujer      2100       247       1422       7581

    Y añadir los valores marginales.

    (tabla1Mrgs = addmargins(tabla1))
            S105
    SEXOa    habitual ocasional ex-fumador no-fumador   Sum
      hombre     2662       307       2759       3906  9634
      mujer      2100       247       1422       7581 11350
      Sum        4762       554       4181      11487 20984

Ejercicio 3

Calcula las siguientes probabilidades.

Puedes hacer los cálculos a mano (copiando directamente los valores de una de las tablas de contingencia) o refiriendote a las celdas de la tabla (por ejemplo, el contenido de la celda mujer \(\cap\) habitual en la tabla llamada tabla1 es tabla1[2,1] (2º fila, 1º columna)

  1. P(mujer \(\cap\) ocasional)

  2. P(mujer | ocasional)

  3. P(Fumador habitual)

  4. P(Fumador habitual|mujer)

  5. P(Fumador habitual|hombre)

SOLUCIONES

  1. P(mujer \(\cap\) Sí fuma, pero no diariamente)

    tabla1[2,2]/sum(tabla1[, ])
    [1] 0.01177087
    tabla1Mrgs[2,2]/tabla1Mrgs[3,5]
    [1] 0.01177087
  2. P(mujer | Sí fuma, pero no diariamente)

    tabla1[2,2]/sum(tabla1[ ,2])
    [1] 0.4458484
    tabla1Mrgs[2,2]/tabla1Mrgs[3,2]
    [1] 0.4458484
  3. P(Fumador habitual)

    sum(tabla1[ ,1])/sum(tabla1[ ,])
    [1] 0.2269348
    tabla1Mrgs[3,1]/tabla1Mrgs[3, 5]
    [1] 0.2269348
  4. P(Fumador habitual|mujer) Sabemos que es P(Fumador habitual \(\cap\) mujer)/P(mujer), lo que se puede calcular de varias formas

    tabla1[2,1]/sum(tabla1[2, ])
    [1] 0.185022
    tabla1Mrgs[2,1]/tabla1Mrgs[2,5]
    [1] 0.185022
  5. P(Fumador habitual|hombre)
    Sabemos que es P(Fumador habitual \(\cap\) hombre)/P(hombre), lo que se puede calcular de varias formas

    tabla1[1,1]/sum(tabla1[1 ,])
    [1] 0.2763131
    tabla1Mrgs[1,1]/tabla1Mrgs[1,5]
    [1] 0.2763131