Análisis de datos, vamos paso por paso

Me gusta entender las cosas utilizando ciclos. No se si será porque desde la escuela nos enseñan de esa manera, por ejemplo el ciclo del agua, ciclo de la vida de una planta, y hasta el ciclo menstrual. Ver las cosas de esta manera nos simplifica el aprendizaje y facilita el poder recordar a largo plazo. El análisis de datos no es una excepción a esto, también podemos entenderlo a través de las etapas de un ciclo. 

Este ciclo tiene muchas variaciones, de manera general se puede resumir en 8 etapas. En siguientes publicaciones abundaré en cada una de ellas, pero por ahora me encantaría que puedan conocer el ciclo a vuelo de pájaro:

  1. Entender el contexto: Por un momento dejemos de pensar en la parte técnica. Es momento de entender la parte del negocio, la parte humana, y la necesidad que queremos atender. Aquí es donde vamos a:
    • Aclarar dudas sobre la industria (porqué el proyecto es relevante, cuáles son los procesos establecidos, estándares o regulaciones en ese campo)
    • Establecer los requisitos, características y limitaciones del proyecto
    • Identificar las partes interesadas (personas influyentes, quienes toman decisiones, quienes se afectan por el proyecto)
  2. Obtener los datos: Con una idea clara del problema que queremos resolver podemos entonces pensar en los datos. ¿Ya tienes lo que necesitas? ¿Alguien más te lo puede proveer? Podemos obtener datos de distintas fuentes.
    • Las fuentes primarias son las que se han creado o que se crearán como parte del proyecto trabajado. O sea, estas son las que pertenecen a las personas involucradas en el proyecto. Algunos ejemplos son:
      1. Cuestionarios
      2. Entrevistas
      3. Observaciones
      4. Seguimiento a clientes
    • Las fuentes secundarias son las que no son creadas como parte del proyecto pero ayudan a dar contexto, descartar opciones o validar resultados. Al trabajar con estas, debemos validar bajo qué condiciones podemos utilizarlas. Algunos ejemplos son:
      1. Academia
      2. API
      3. Datos abiertos
      4. Reportes por industria
  3. Entender los datos: Suponiendo que tenemos los datos, entonces es hora de jugar con ellos, o como formalmente dirían por ahí “hacer el análisis exploratorio”. Cuando estamos cocinando, en ocasiones probamos los ingredientes antes de ponerlos en la receta para comprobar cómo saben y si es lo que queremos. Similarmente, en esta etapa estamos tratando de descubrir cuáles de todos los datos son útiles. Algunas de las estrategias son:
    • Visualizar los datos a través de gráficas
    • Verificar cómo están distribuidos
    • Identificar si algunos de los datos están correlacionados
  4. Preparar los datos: Al jugar con los datos, es posible que veamos cosas que no hacen sentido o que se ven un poco fuera de lugar. En ocasiones los datos no vienen perfectos y hay que hacer una limpieza. ¿Qué cosas podemos hacer?
    • Identificar datos duplicados (ej. correos electrónicos)
    • Verificar si hay errores (ej. formatos de fecha o direcciones)
    • Identificar si hay campos vacíos o que faltan
  5. Modelar los datos: Por motivos de mantener este blog digerible, simplificaré la parte de crear modelos de datos. Me gusta verlo como una radiografía en la cual podemos ver los huesos, su estructura, y cómo están conectados. Así mismo, los modelos de datos nos permiten ver cómo éstos se relacionan entre sí, el tipo de relación que tienen, y cómo se verían si hiciéramos un diagrama de ellos. De esta manera es posible analizar los datos, desarrollar algoritmos y conseguir valor en los datos.
  6. Evaluación: Una parte importante es poder evaluar si lo que diseñamos funciona como lo necesitamos. En esta parte se definen estrategias para verificar si los resultados son de calidad. Un ejemplo bien sencillo puede ser, el porcentaje de predicciones correctas que generó nuestro análisis. 
  7. Visualización: Una de las razones más relevantes de por qué visualizamos datos es porque nuestra audiencia no necesariamente será una audiencia técnica y necesitan poder entender las lecciones aprendidas de manera rápida. Segundo, porque ayuda a que podamos memorizar la información ya que es más fácil ver los datos agregados que una tabla de miles de filas. Algunas de las maneras en las que podemos presentar los resultados son:
    • Gráficas
    • Dashboards
    • Reportes
    • Blogs
    • Presentaciones
  8. Implementación o lanzamiento: Parece obvio que tenemos que hacer esto, pero lo pongo para resaltar que todo proyecto de datos tiene que ser parte de una estrategia más grande que busque generar un cambio o una decisión. Así que además de limpiar datos o analizarlos, debemos poner una estrategia de monitoreo y seguimiento que nos permita comprobar si estamos cumpliendo con los objetivos del proyectos. Precisamente por este paso le llamamos ciclo de datos. Una vez llegas aquí, estás en una mejor posición de identificar qué puede mejorar y entonces comenzar a definir cómo solucionarlo (paso #1 😉 ).

Si te interesa aprender a profundidad de cada una de estas etapas, quédate cerquita o suscríbete para que te enteres de cuando el material nuevo esté listo.

Deja un comentario

Descubre más desde ¿Qué dicen los datos?

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo