45. El uso de escalas ordinales del tipo 5, 4, 3, 2, 1 y su efecto indeseable en evaluaciones multicriterio
Visítanos: Ramiro A. Sánchez López | Vista Sur
Hace algunos días, un grupo de colegas se dio a la tarea de evaluar un puñado de alternativas utilizando un conjunto de criterios de evaluación, unas ponderaciones (o pesos) para los criterios y unas escalas de evaluación para cada criterio, del tipo 5, 4, 3, 2, 1. Este es un ejercicio clásico de Análisis Multicriterio... incorrecto.
Intenté advertirles que el uso de escalas de evaluación de tipo ordinal, a las que se asigna arbitrariamente valores (5, 4, 3, 2, 1) a sus niveles de evaluación, podía llevarlos a cometer errores.
Esta es una práctica tan extendida, que muchas veces resulta difícil explicar este fenómeno. Por este motivo, decidí escribir este post, tal que podamos referirnos a él en el futuro, cuando sea necesario explicar que en modelos de evaluación con múltiples criterios, no es conveniente utilizar escalas de evaluación del tipo 5, 4, 3, 2, 1, a menos que los valores sean debidamente justificados sobre la base de niveles de preferencia.
Lo muestro con un ejemplo:
Supongamos que tenemos 5 criterios de evaluación que denominaremos A, B, C, D y E, y dos alternativas, 1 y 2. Supongamos además que utilizamos la escala de evaluación ordinal del tipo 5, 4, 3, 2 y 1 para los niveles "muy bueno", "bueno", "regular", "malo" y "muy malo" respectivamente.
Supongamos que las ponderaciones para los criterios fueron determinadas de la siguiente manera: 18 para el criterio A, 35 para el criterio B, 7 para el criterio C, 12 para el criterio D y 28 para el criterio E, y las evaluaciones de las alternativas en cada criterio resultan como se muestra en la imagen:
Resultado de la suma ponderada: la Alternativa 1 (con 303 puntos), es mejor que la Alternativa 2 (con 297 puntos). Nos vamos a casa con la Alternativa 1 bajo el brazo.
Para que un análisis de decisiones sea verdaderamente inteligente (es decir, “racional”), el resultado debe depender únicamente de las características reales de las alternativas evaluadas, y no de factores externos. Un ejemplo de factor externo es asignar, por conveniencia, números arbitrarios a una escala ordinal (por ejemplo, 5, 4, 3, 2, 1).
Dicho de forma simple: si la Alternativa 1 es mejor que la Alternativa 2, esta conclusión debería mantenerse aunque se cambie la forma de numerar la escala, porque esos números no describen a las alternativas; sólo son una codificación elegida por quien evalúa.
Por ejemplo, supongamos que, en lugar de codificar la escala como 5, 4, 3, 2, 1, decidimos asignar a sus niveles los valores 16, 8, 4, 2, 1. Esta nueva codificación sigue siendo ordinal: el nivel “muy bueno” continúa siendo superior al nivel “bueno”, y así sucesivamente.
En esencia, no hemos cambiado la escala ni el juicio de preferencia; solo hemos cambiado los números con los que representamos esos niveles, de manera igualmente arbitraria.
Hacemos los cálculos utilizando las mismas ponderaciones de los criterios de evaluación y ¡oh sorpresa!, en este caso resulta que la Alternativa 2 es mejor que la Alternativa 1, como se muestra a continuación:
En otras palabras, acabamos de demostrar que elegir arbitrariamente una escala ordinal del tipo 5, 4, 3, 2, 1, es un error metodológico de gran importancia cuando utilizamos modelos de evaluación con múltiples criterios. Es la codificación de la escala y no las características de las alternativas, lo que determina cuál alternativa es mejor.
Es decir, esta es una mala práctica que debe ser evitada cuando se utilizan modelos de evaluación con múltiples criterios.
Es muy común, en comités y talleres de decisión, ver la misma escena: se definen varios criterios (costo, plazo, impacto, riesgo, etc.), se asignan ponderaciones que “suman 100”, y luego se evalúan las alternativas con una escala simple tipo 5, 4, 3, 2, 1. La lógica parece impecable: 5 es “muy bueno”, 1 es “muy malo”, y con eso basta para sumar y obtener un ranking.
El problema es que esa práctica, aunque extendida, puede inducir a error. El problema es que convertir una escala ordinal (un orden) en números como 5, 4, 3, 2, 1 es una decisión arbitraria. Y cuando esos números se combinan con ponderaciones en un modelo aditivo (la típica “suma ponderada”), el resultado puede depender más de esa arbitrariedad que de la realidad de las alternativas evaluadas.
¿Por qué importa esto? Porque una exigencia básica de un proceso racional de decisión es que factores externos a las alternativas —factores que no describen sus atributos reales— no deberían cambiar el ranking. En otras palabras: si las alternativas no cambian, el ranking no debería cambiar “porque sí”, por una decisión de modelado, por un capricho numérico, o por un reescalamiento arbitrario.
Y sin embargo, con escalas tipo 5, 4, 3, 2, 1, eso puede pasar.
Por eso esta mala práctica es peligrosa: porque puede inducir a decisiones incorrectas con apariencia de objetividad.
“Pero… si todos usamos la misma escala, ¿no está bien?” No necesariamente. El problema no es que sea “la misma”, sino que el método aditivo trata esos números como si tuvieran significado métrico. En una escala ordinal, los números son etiquetas de orden, no unidades de medida.
Si el modelo fuera coherente con una escala ordinal, el ranking no debería depender de si escribiste 5, 4, 3, 2, 1 o 16, 8, 4, 2, 1. Mientras se mantenga el mismo orden, el resultado debería ser estable. Pero el modelo aditivo no es ordinal: es cardinal. Necesita distancias.
¿Entonces qué se recomienda hacer?
Primero, reconocer el diagnóstico: si vas a sumar “puntos” con ponderaciones, no basta con una escala ordinal con números arbitrarios. Necesitas, explícitamente, una función de valor (una regla que diga cuánto vale pasar de un nivel a otro para ese criterio). Dicho de forma simple: debes definir el significado de los saltos entre nivel y nivel de la escala..
Hay varias formas prácticas de hacerlo, sin volverse matemático:
Definir descriptores claros y umbrales:
En vez de “5,4,3,2,1”, describe qué significa cada nivel con evidencia observable. Luego decide si los saltos son equivalentes o si hay niveles “críticos” (por ejemplo, “no aceptable” vs “aceptable”).
Usar comparación de “saltos” (swing weighting):
En lugar de ponderar criterios en abstracto, se comparan mejoras: ¿qué es más valioso, subir el criterio A desde su peor nivel al mejor, o hacer lo mismo en el criterio B? Esto ayuda a calibrar el peso real y, sobre todo, evita que la escala sea una simple etiqueta.
Construir una función de valor simple:
No hace falta una fórmula compleja. Puede ser una tabla que asigne valores que reflejen la importancia real de cada salto entre nivel y nivel: por ejemplo, 1, 2, 3, 5, 8 si los extremos importan más; o 1, 4, 7, 9, 10 si el umbral medio es el salto fuerte. Lo importante es que esa tabla esté justificada, no “copiada por costumbre”.
Hacer pruebas de sensibilidad:
Si, al cambiar razonablemente la codificación de la escala, el ranking cambia, entonces la decisión es frágil y el modelo no es confiable. Esa es una señal de alerta que conviene mostrar al comité antes de tomar una decisión definitiva.
Una idea final
Muchas organizaciones buscan decisiones “objetivas” y creen que poner números ayuda. Pero hay un matiz esencial: poner números no garantiza racionalidad; a veces solo disfraza arbitrariedad.
Piénsalo de esta manera: ¿el número 5 en la espalda de un jugador de fútbol, implica que es mejor que el número 4 en la espalda de otro jugador?; o, ¿el hecho de que la temperatura del hielo sea cero grados centígrados implica que carezca de temperatura? No, ¿verdad?
Una escala ordinal 5, 4, 3, 2, 1 es útil para ordenar percepciones. El problema aparece cuando tratamos esos números como si midieran algo con precisión, y luego los sumamos como si fueran dinero, tiempo o energía.
Si en tu organización se toman decisiones relevantes (inversiones, priorización de proyectos, adjudicaciones, selección de proveedores), vale la pena preguntarse: ¿estamos midiendo valor o solo estamos etiquetando preferencias?
Porque si el ranking puede cambiar por un detalle externo al mérito real de las alternativas, la decisión puede estar equivocada aun cuando el Excel “se vea perfecto”.
Te invito a echar un vistazo a una entrade de mi blog “El Análisis Multicriterio en la práctica”, escrito en 2013, en el que hago referencia a un extracto de mi tesis doctoral que explica, un poco más formalmente este mismo concepto:
Entrada del blog: sobre-escalas-cualitativas ...