## ----include = FALSE----------------------------------------------------------
knitr::opts_chunk$set(
  collapse = TRUE,
  comment = "#>",
  eval = FALSE
)

## ----setup--------------------------------------------------------------------
#  library(censo2022arg)

## ----configurar---------------------------------------------------------------
#  # Configurar para todas las sesiones futuras
#  censo_configurar("/ruta/a/mis/datos/censo2022", persistent = TRUE)

## ----info---------------------------------------------------------------------
#  censo_info()

## ----verificar----------------------------------------------------------------
#  censo_verificar_engine()

## ----descargar----------------------------------------------------------------
#  # Descargar todo (recomendado la primera vez)
#  censo_descargar()
#  
#  # Solo las bases REDATAM (~500 MB)
#  censo_descargar(que = "bases")
#  
#  # Solo los diccionarios de variables
#  censo_descargar(que = "metadatos")

## ----extraer------------------------------------------------------------------
#  # Extraer todas las provincias
#  extraer_redatam()
#  
#  # Extraer solo una provincia (util para probar)
#  extraer_redatam(provincias = 66)  # Salta
#  
#  # Extraer varias provincias
#  extraer_redatam(provincias = c(66, 38, 34))  # Salta, Jujuy, Formosa
#  
#  # Con bloques mas pequenos para equipos con poca RAM
#  extraer_redatam(max_por_bloque = 5)

## ----etiquetar----------------------------------------------------------------
#  # Etiquetar todas las provincias
#  censo_etiquetar()
#  
#  # Solo algunas provincias
#  censo_etiquetar(provincias = c(66, 38))
#  
#  # Solo la base de Personas
#  censo_etiquetar(bases = "Personas")

## ----leer-basico--------------------------------------------------------------
#  # Personas de Salta
#  personas <- censo_leer(base = "Personas", provincias = 66)
#  
#  # Hogares de Salta y Jujuy
#  hogares <- censo_leer(base = "Hogares", provincias = c(66, 38))
#  
#  # Viviendas de Formosa
#  viviendas <- censo_leer(base = "Viviendas", provincias = 34)

## ----leer-columnas------------------------------------------------------------
#  # Solo algunas variables
#  personas <- censo_leer(
#    base      = "Personas",
#    provincias = 66,
#    columnas  = c("EDAD", "P02", "CONDACT", "NIVEL_ED", "IDRADIO")
#  )

## ----leer-filtros-------------------------------------------------------------
#  # Personas mayores de 18
#  mayores <- censo_leer(
#    base       = "Personas",
#    provincias = 66,
#    filtro     = quote(EDAD >= 18)
#  )
#  
#  # Personas ocupadas
#  ocupados <- censo_leer(
#    base       = "Personas",
#    provincias = c(66, 38),
#    columnas   = c("EDAD", "P02", "CONDACT", "IDRADIO"),
#    filtro     = quote(CONDACT == 1)
#  )

## ----leer-formato-------------------------------------------------------------
#  # Como data.table (para grandes volumenes de datos)
#  personas_dt <- censo_leer(
#    base      = "Personas",
#    provincias = 66,
#    formato   = "data.table"
#  )
#  
#  # Como tibble (para flujos tidyverse)
#  personas_tbl <- censo_leer(
#    base      = "Personas",
#    provincias = 66,
#    formato   = "tibble"
#  )

## ----analisis-----------------------------------------------------------------
#  library(censo2022arg)
#  library(dplyr)
#  library(ggplot2)
#  
#  # Leer personas en edad activa con filtro previo a la carga en RAM
#  personas <- censo_leer(
#    base       = "Personas",
#    provincias = 66,
#    columnas   = c("P02", "EDAD", "CONDACT"),
#    filtro     = quote(EDAD >= 14)
#  )
#  
#  # Tasa de actividad por sexo y grupo de edad -- flujo dplyr estandar
#  tasa_actividad <- personas |>
#    mutate(
#      grupo_edad = cut(EDAD,
#        breaks = c(14, 24, 34, 44, 54, 64, Inf),
#        labels = c("14-24", "25-34", "35-44", "45-54", "55-64", "65+"),
#        right  = FALSE
#      )
#    ) |>
#    group_by(P02, grupo_edad) |>
#    summarise(
#      activos = sum(CONDACT == 1, na.rm = TRUE),
#      total   = n(),
#      tasa    = round(activos / total * 100, 1),
#      .groups = "drop"
#    )
#  
#  # Visualizar con ggplot2 -- sin salir del ecosistema R
#  ggplot(tasa_actividad, aes(x = grupo_edad, y = tasa, fill = P02)) +
#    geom_col(position = "dodge") +
#    labs(
#      title = "Tasa de actividad por sexo y grupo de edad -- Salta 2022",
#      x     = "Grupo de edad",
#      y     = "Tasa de actividad (%)",
#      fill  = "Sexo",
#      caption = "Fuente: Censo Nacional 2022 -- INDEC"
#    ) +
#    theme_minimal()