Introducción
En esta entrada hablaremos sobre la escala SUS (System Usability Scale), concebida por John Brooke, en 1986, una escala estandarizada que va más allá de métricas convencionales, proporcionando insights valiosos sobre la experiencia del usuario respecto a la usabilidad de un sistema. Veamos entonces la importancia, aplicación y limitaciones de aplicar SUS para la mejora continua de la experiencia del usuario.
¿Se puede medir la usabilidad?
Para responder a esta pregunta, citemos el artículo de John Brooke, “SUS: A quick and dirty usability scale”, creador de este esta escala de medición de la usabilidad, como mencionamos antes. Traduciendo, un tanto libremente, el Abstract (resumen) de su trabajo:
La usabilidad no existe en sentido absoluto; sólo se puede definir con referencia a contextos particulares, lo que significa que no hay medidas absolutas de usabilidad, ya que es una cualidad general de la adecuación a un propósito de cualquier sistema o dispositivo, pero existe una necesidad de obtener mediciones que se puedan usar para evaluar la usabilidad en una variedad de contextos.
Para entrar en tema, podemos decir que el SUS nos permite evaluar la percepción de usabilidad de un sistema, es decir, su idoneidad para el propósito, por parte de los usuarios, a quienes debemos conocer, así como las tareas que estos usuarios realizarán, las características del entorno físico, organizacional y social en el que se utilizará dicho sistema o dispositivo.
Norma ISO 9241-11
El borrador del estándar internacional ISO 9241-11 refleja la versión anterior sobre la usabilidad, en el que se sugiere que las medidas de usabilidad deben considerar:
- La eficacia, definida como la capacidad de los usuarios para completar sus tareas usando el sistema, y la calidad del resultado de esas tareas,
- La eficiencia, como el nivel de recursos consumidos en la realización de tareas, y
- La satisfacción, como las reacciones subjetivas de los usuarios durante el uso del sistema.
Sin embargo, determinar las medidas precisas a utilizar en cada una de estas categorías pueden variar muchísimo, especialmente cuando consideramos aspectos como la especificidad del contexto.
Especificidad y comparación
La relación entre la especificidad del contexto de la usabilidad, y las métricas empleadas, dificultan mucho las comparaciones de usabilidad entre diferentes sistemas. Comparar diferentes sistemas destinados a diferentes propósitos es un caso claro de “comparar manzanas y naranjas”, algo que debería evitarse siempre que sea posible, igualmente, debido a repetibilidad y confiabilidad de la prueba, puede resultar muy útil para comparar la usabilidad entre sistemas diferentes, o de un mismo sistema en distintos contextos.
Por otra parte, recuerda que puede ser engañoso generalizar las relaciones entre características del diseño y la experiencia en todos los sistemas. Solo porque una característica de diseño en particular puede lograr un gran aporte en la usabilidad de un sistema. No necesariamente el resultado que se logrará con un sistema será el mismo si, por ejemplo, un grupo diferente de usuarios, buscan realizar diferentes tareas, o las mismas tareas en distintos contextos.
SUS: System Usability Scale
En respuesta a los problemas antes mencionados, John Brooke, en 1986, concibió esta escala de usabilidad simple, que, con solo diez puntos, propone una solución global para las evaluaciones de usabilidad de un sistema, basada en la escala de Likert:
- 1: Totalmente en desacuerdo
- 2: En desacuerdo
- 3: Neutro
- 4: De acuerdo
- 5: Totalmente de acuerdo
Para la construcción de la SUS se partió de un grupo de 50 potenciales opciones para el cuestionario, para luego seleccionar aquellos que conducían a las respuestas más extremas del grupo original, evitando sesgos en las respuestas de los encuestados, quienes de preferencia deberán responder con el mínimo esfuerzo posible.
Beneficios de usar la SUS
Entre otros beneficios, la escala de usabilidad del sistema de John Brook, podemos mencionar los siguientes:
- Es fácil de administrar a los participantes.
- Ofrece resultados confiables, aun con nuestras pequeñas. Un estudio de 2004, Thomas S. Tullis y Jacqueline N. Stetson encontraron que, con una muestra de 10 usuarios, la escala SUS ofrece una confiabilidad del 80%. (Tullis, T. S. & Stetson, J. N. (2004). A comparison of questionnaires for assessing website usability. Usability Professionals Association (UPA) 2004 Conference. Minneapolis, MN: UPA.)
- Permite clasificar y diferenciar fácilmente, sistemas usables, de sistemas no usables.
Las diez preguntas de la escala SUS
Cuando se emplea la SUS, se les pide a los participantes que califiquen los siguientes 10 ítems, a los que le asignará valores de entre 1 (Totalmente en desacuerdo) y 5 (Totalmente de acuerdo):
- Creo que me gustaría usar este sistema con frecuencia.
- Encontré el sistema innecesariamente complejo.
- Pensé que el sistema era fácil de usar.
- Creo que necesitaría el apoyo de un técnico para poder utilizar este sistema.
- Descubrí que las diversas funciones de este sistema estaban bien integradas.
- Pensé que había demasiada inconsistencia en este sistema.
- Me imagino que la mayoría de la gente aprendería a usar este sistema muy rápidamente.
- Encontré el sistema muy engorroso de usar.
- Me sentí muy confiado usando el sistema.
- Necesitaba aprender muchas cosas antes de poder ponerme en marcha con este sistema.
Consideraciones al usar la SUS
Antes de aplicar esta escala de usabilidad del sistema, debemos tener presentes los siguientes puntos:
- Generalmente, se usa después de que el encuestado haya tenido la oportunidad de usar el sistema que está evaluando, pero antes de que cualquier sesión informativa o discusión.
- Se le debe pedir al encuestado que registre su respuesta a cada opción, de manera inmediata, en lugar de pensar durante mucho tiempo antes de ofrecer su valoración.
- Si el encuestado siente que no puede responder a una determinada opción, debe marcar el punto central de la escala.
- La interpretación de los valores obtenidos puede resultar algo complejo, la escala de 0 a 100 puede confundirse con un porcentaje, cuando no es así. Los resultados obtenidos se interpretan a partir de una “normalización”, mediante el uso de percentiles.
- SUS no diagnostica, se utiliza para clasificar la facilidad de uso del sistema que se está probando, no las causas que están generando los resultados obtenidos.
Vamos por más:
Este material es parte de nuestro Taller de Diseño de Experiencia de Usuario.
Infórmate sobre nuestra comunidad creativa, y participa de 6 horas mensuales en vivo.
Con el apoyo de nuestro Campus Virtual, Red Social y Foros de Diseño.
Interpretando resultados
- La escala produce un solo número que representa una medida de la usabilidad general del sistema.
- Las puntuaciones de los elementos individuales no son significativas por sí mismas.
- Para calcular la puntuación SUS, debemos sumar la puntuación de cada elemento, que varía entre 0 y 4 puntos (1 menos que la escala mostrada).
- Para los ítems 1, 3, 5, 7 y 9, la contribución de cada uno de ellos resulta de restar 1 al valor indicado por el usuario (1 a 5).
- Para los ítems 2, 4, 6, 8 y 10, la contribución de cada uno de ellos resulta de restarle a 5 el valor indicado por el usuario.
- De los puntos anteriores, concluimos que los aportes obtenidos de cualesquiera de los ítems variará entre 0 y 4.
- La suma de los 10 valores obtenidos será multiplicada por 2,5 para obtener el valor total de SUS.
El rango de este valor estará comprendido entre 0 y 100.
Veamos un ejemplo práctico
La siguiente tabla muestra un conjunto de resultados obtenidos de un usuario, sobre su percepción de la usabilidad de un sistema, los que utilizaremos como ejemplo de obtener el valor (SUS) correspondiente:
A partir de los valores de esta tabla:
- Al sumar los 10 valores obtenidos obtenemos 32
- El valor SUS, obtenido con este usuario, es de: 32*2.5=80
La situación más habitual es trabajar sobre una muestra de varios usuarios al momento de evaluar un sistema. En estos casos, promediaremos los valores obtenidos de cada uno de estos usuarios, para obtener el valor SUS final para dicho sistema.
Interpretando resultados
En primer lugar, debemos comprender es que los valores que obtengamos durante una evaluación con SUS, no se interpretan como porcentajes. Existen varias formas de interpretación, aunque aquí interpretaremos los datos obtenidos a partir de la escala de percentiles y grados de usabilidad propuestas por el propio Jeff Sauro:
- El punto de equilibrio (percentil 50) se encuentra en los 68 puntos del valor SUS obtenido.
- Los 11 rangos de usabilidad son los mostrados en la tabla del gráfico anterior, clasificados entre A+ y F, de acuerdo al siguiente detalle:
- A+: Lo mejor imaginable
- A: Excelente
- C: Aceptable (Punto de equilibrio)
- D: Regular
- F: De lo peor imaginable a pobre usabilidad.
Nota: Consulta aquí las 5 propuestas de interpretación del SUS, según Jeff Sauro para la interpretación del SUS.
La opinión de Jakob Nielsen
Notas Finales
- Jeff Sauro propone 5 alternativas para la interpretación del SUS, que puedes leer aquí.
- Recuerda que: Aunque los resultados finales van de 0 a 100, estos no son porcentajes, éstos deben ser normalizados a través de los percentiles y grados vistos anteriormente.
- La escala SUS ha demostrado ser confiable, ofreciendo resultados consistentes con la percepción real de los usuarios. Aun con muestras muy pequeñas se logran obtener resultados confiables.
En este aspecto, debemos considerar que muestras muy pequeños pueden generar resultados imprecisos para grupos de usuarios desconocidos. Deben agregarse, en estos casos, intervalos de confianza para comprender la variabilidad de sus resultados. - Se ha demostrado que SUS distingue, con eficacia, entre sistemas usables y no usables.
- Recuerda que SUS no diagnostica: Pruebas demostraron que, en casos de pruebas grabadas, se debió recurrir a estas grabaciones para identificar los problemas encontrados con la interfaz. Muy pocas veces (un 6% aproximadamente) los puntajes SUS se relacionan con lo que sucede durante las pruebas de usabilidad.
Webgrafía
- Brooke, John. (1995). SUS: A quick and dirty usability scale. Usability Eval. Ind. 189.
- Measuring Usability with the System Usability Scale (SUS), Jeff Sauro, PhD, February 3, 2011
- 5 Ways to Interpret a SUS Score, Jeff Sauro, PhD, September 19, 2018
- Acerca de Jeff Sauro.
- Usability.gob: System Usability Scale (SUS)
- SUS: A Retrospective, by John Brooke
- Determining What Individual SUS Scores Mean: Adding an Adjective Rating Scale by Aaron Bangor, PhD, CHFP, Philip Kortum, PhD, and James Miller, PhD
- Tullis, T. S. & Stetson, J. N. (2004). A comparison of questionnaires for assessing website usability. Usability Professionals Association (UPA) 2004 Conference. Minneapolis, MN: UPA.
Enlaces recomendados
- GitLab: System Usability Scale
- The System Usability Scale & How It’s Used in UX
- Métricas de usabilidad y experiencia de usuario
- ISO 9241-11:2018(en)
- Sidar.org | Algunos cuestionarios conocidos
- Nielsen Norman Group | Usability Metrics
- Nielsen Norman Group | Beyond the NPS: Measuring Perceived Usability with the SUS, NASA-TLX, and the Single Ease Question After Tasks and Usability Tests
- SUS Guide & Calculator Package
- System Usability Score template (FigJam)
Si el artículo te resultó de utilidad, escríbenos y aprende UX, en serio, con nuestro taller personalizado de diseño de experiencia de usuario: El UXD más allá del UID.
¡Saludos y bonita jornada!
Plácido Luna.