Las pruebas con cinco usuarios tienen un margen de error estadístico mayor al aceptado en los estudios tradicionales de audiencias. Sin embargo, su nivel de confianza es suficiente para que deba hacerse algo al respecto.
En la primera parte de este artículo se describió qué es lo que las áreas de marketing tradicionalmente esperan de un estudio de audiencias y las diferencias que ese tipo de estudios tienen con los del campo de experiencia de usuario.
En esta segunda y última parte vamos a describir los alcances estadísticos de las pruebas de usabilidad realizadas con cinco usuarios y cuántos usuarios son necesarios para alcanzar los estándares esperados por los estudios tradicionales.
Validez estadística de las pruebas con cinco usuarios
Para explicar la validez estadística de pruebas con cinco usuarios es necesario explicar algunos conceptos estadísticos. Trataré de exponerlos de una forma comprensible para personas no especializadas en el tema y seguramente con menos rigurosidad que un especialista hubiese preferido.
El margen de error se extiende por encima y por debajo del valor obtenido, lo que genera un intervalo que en nuestro ejemplo va del 10% al 70%. Ese intervalo se denomina intervalo de confianza, y significa que el valor que se busca para la totalidad de la población se encontrará dentro de ese intervalo con una determinada confianza o probabilidad.
Comúnmente se dice que dos márgenes de error equivalen a un intervalo de confianza. Aunque la conversión no es directa sino que responde a una serie de cálculos estadísticos que evitaré describir aquí con fines didácticos (al respecto se puede consultar "10 Things To Know About Confidence Intervals" de Jeff Sauro).
Un valor muestral (el valor que se obtiene de una muestra con usuarios) se ubicará dentro de un determinado intervalo de confianza para la totalidad de la población con una cierta confianza. El porcentaje de confianza que suele usarse en la mayoría de los estudios de audiencias (incluidos los realizados por áreas de marketing) es normalmente del 90% o 95%.
Esto significa que, volviendo a nuestro ejemplo, hay un 90% o 95% de probabilidades ciertas de que el porcentaje de usuarios que pudieron resolver exitosamente la tarea se ubicará entre el 10% y 70%.
Para reducir el margen de error se requiere una muestra de 80 usuarios
Las técnicas de revelamiento de audiencias tradicionales, como por ejemplo las encuestas, utilizan un margen de error generalmente menor al 10%. Para disminuir el margen de error hasta ese valor con la técnica de pruebas de usabilidad es necesaria una muestra de aproximadamente 80 personas (en inglés).
Realizar pruebas de usabilidad con una muestra de ese tamaño demandaría, para un equipo de UX de dos personas, al menos dos semanas completas sin contar los plazos de reclutamiento y elaboración de informes.
La pregunta entonces es si tiene sentido hacer pruebas de usabilidad con una muestra de ese tamaño. Para proyectos de gran escala o que impactarán a varios millones de usuarios, disminuir el margen de error de las métricas obtenidas en pruebas de usabilidad puede ser relevante. Para todos los demás proyectos, el tiempo y la inversión necesaria no lo justifican.
¿Cuán seguro se necesita estar para resolver los problemas de los usuarios?
En el contexto de una prueba de usabilidad la pregunta sería cuáles son los problemas que tienen determinados usuarios para realizar una compra online con determinada interfaz en determinado contexto.
Cada equipo de desarrollo, diseño, marketing, etc. debería preguntarse entonces cuán seguro quiere estar de que algo es un problema para comenzar a resolverlo.
Dado que el margen de error de las pruebas con cinco usuarios es de aproximadamente el 30% eso significa que tienen un nivel de confianza del 70%. En otras palabras, que los problemas identificados durante las pruebas con usuarios tienen un 70% de chances de ser efectivamente un problema para todos los usuarios.
No resolver un problema de usabilidad que se manifieste con ese nivel de probabilidad conlleva un riesgo directamente proporcional: a mayor probabilidad de ocurrencia mayor riesgo al no resolverlo.
Dependiendo el esfuerzo necesario se podría resolver el problema directamente o realizar pruebas con más usuarios para aumentar la confianza en los resultados y verificar con mayor certeza que efectivamente se trata de un problema que requiere solución.
En este último caso, el paso siguiente sería hacer pruebas con 20 usuarios ya que con esa cantidad el margen de error disminuye al 20%. Luego de ese punto, el costo de reducir el margen de error se vuelve exponencial y, como comentamos anteriormente, requiere de muestras de 80 usuarios para alcanzar el 10%.
En síntesis
- Las pruebas con 5 usuarios tienen un margen de error del 30% lo que las hace suficientemente confiables para identificar la mayoría de los problemas de usabilidad de una interfaz.
- Tienen el beneficio adicional de hacerlo rápido y a bajo costo.
- Si este margen de error no es aceptable para el cliente se pueden realizar pruebas con 20 usuarios para disminuir el margen de error al 20%.
- Reducir el margen de error por debajo del 20% requiere de muestras de 80 usuarios, lo que resulta ineficiente para la mayoría de los proyectos de rediseño de interfaces.
No hay comentarios :
Publicar un comentario