Estamos viviendo en una época de grandes cantidades de datos, computadoras poderosas e inteligencia artificial. Y este es solo el comienzo, la ciencia de datos y el aprendizaje de maquina están impulsando nuevos desarrollos y revolucionando la toma de decisiones. ¿Cómo analizamos nuestras tendencias con datos escasos?
¿Qué podemos hacer si los datos relevantes a nuestra disposición son pocos?
Una muy buena opción a nuestra disposición es utilizar herramientas estadísticas para simular datos que nos ayuden a ver el panorama general y obtener así una herramienta más de apoyo en la toma de decisiones. Estas herramientas nos proveen de una aproximación fundamentada en tendencias a esquemas predictivos.
Tomemos un ejemplo de la vida real, simplificado para mantener este blog conciso, la ofensiva de un equipo de la NFL, en particular tomemos el desempeño de yardas por tierra de los 49s de San Francisco.
Durante sus primeros 7 partidos de la temporada 2022 los 49s tuvieron estos resultados:
SEMANA | YARDAS |
1 | 176 |
2 | 189 |
3 | 88 |
4 | 88 |
5 | 153 |
6 | 50 |
7 | 101 |
Lo que nos interesa saber es la tendencia de estos datos y (con cierta probabilidad) que resultado podemos esperar para la semana 8.
Para poder simular las posibilidades de la 8va semana necesitamos conocer la tendencia que tiene su desempeño (que por naturaleza es volátil), para ellos utilizaremos 3 puntos de referencia.
- El promedio simple (120 yardas)
- 3 regresiones estadísticas, una lineal y 2 polinomiales (ya que no sabemos cuál se ajusta mejor a nuestros datos)
En la gráfica podemos ver en rojo el resultado de las regresiones, en rosa el promedio simple y en morado la predicción de las 3 regresiones (2 de ellas prácticamente empalmadas).
Utilizando estos 4 puntos podemos obtener el desempeños mínimo y máximo esperado, y hacia donde tiende el sesgo intermedio. Esto nos permitirá generar datos aleatorios y graficar un histograma de los posibles datos esperados.
La mayoría de los datos simulados para la semana 8, se encuentran entre las 90 y 120 yardas.
¿El resultado real? – 111 yardas.
Con este rango de datos que tenemos la certeza que se aproximan a una realidad posible, se trabajó la parte del análisis predictivo que nos arrojaría el marcador y % de victoria de los 49s (59.6%, con un marcado de 24-13. El real fue 31-14). En otra edición revisaremos la predicción.
Hemos visto que tener pocos datos relevantes no es un impedimento para que la tecnología nos ayude a tomar mejores decisiones, con experiencia y tiempo estos modelos se pueden refinar a los casos particulares de tu empresa, tomando en cuenta más factores, como las relaciones ocultas entre los datos.