Los sistemas de calificación atormentan a la economía gig

Cualquier sistema de evaluación genera propensión a que el sesgo y la discriminación puedan contaminar los resultados.

Tecnología

Las bajas calificaciones pueden condenar al fracaso y causar despidos.

iStock

POR:
Portafolio
septiembre 13 de 2019 - 07:30 p.m.
2019-09-13

Curiosamente, a mí me gustan los cuestionarios, pero parece que recientemente he pasado horas completando o rechazando solicitudes de calificaciones y de comentarios provenientes de impacientes anfitriones de Airbnb; de inútiles servicios públicos; de servicios de mensajería; de hoteles familiares obsesionados con TripAdvisor; de aerolíneas y restaurantes; e incluso de baños públicos, cuyo panel lleno de gérmenes con rostros que van de gruñones a sonrientes es la única encuesta que siempre evito. Todos quieren que cuantifique mi satisfacción.

(Lea: ¿Cómo está Colombia en tecnología para los negocios?)

Por eso, cuando una mujer que llevaba un cordón alrededor del cuello y una tabla sujetapapeles con la marca de la compañía me pidió que calificara a la compañía de alquiler en una escala del uno al 10 después de que dejara nuestro automóvil, yo estaba listo para hacerlo.

(Lea: Colombia, rezagada en habilidades para manejar las nuevas tecnologías)

Yo había sido el primero en llegar al bajar del avión, pero el automóvil que había reservado no estaba disponible y les había tomado 40 minutos para darme otro modelo mejor. Tomando todo en cuenta, yo pensé que un modesto, pero respetable, siete era apropiado. La mujer frunció el ceño. “Ocho es mejor”, señaló ella, innecesariamente, y me entregó una tarjeta que decía “Usted va a recibir una encuesta. Sólo un nueve o un 10 realmente hacen la diferencia”.

(Lea: ¿Cómo vencer la adicción a la tecnología en el trabajo?)

Yo sé que esto no es verdad. Cuando el comisionado laboral de California dictaminó que los conductores de Uber eran empleados y no contratistas en 2015, una prueba fue que el grupo de transporte privado podía ‘desactivar’ a un conductor si su calificación caía por debajo de 4,6 en una escala de 5.

Los académicos de la Universidad de Boston que estudiaron 600.000 propiedades de Airbnb, descubrieron que casi todas tenían una calificación de 4,5 o de 5 estrellas; casi ninguna clasificaba por debajo de 3,5.

Claramente, si la calificación para ‘pasar’ es del 70 por ciento o más, la calificación que “realmente hace la diferencia” es una menor, porque las bajas calificaciones pueden condenar al fracaso a una propiedad en alquiler, poner a un conductor en período de prueba y, potencialmente, ocasionar el despido de alguien.

Es aquí donde la ‘galaxia de evaluaciones de alegres estrellas’ se convierte en un lugar cada vez más frío y extrañamente familiar para cualquiera que haya tenido la experiencia de una evaluación de carrera basada en puntos.

Los empleadores han pasado los últimos años deshaciéndose de, o prohibiendo, los sistemas anticuados y demasiado simplificados usados para evaluar el desempeño del personal. Ha sido obvio durante décadas que el tal ‘stack ranking’ (clasificación de mayor a menor) puede fomentar viciosas políticas internas y socavar el trabajo en equipo.

Pero es solo recientemente que la sombra de la ‘curva de vitalidad’ de Jack Welch - el gráfico en forma de campana que condenó al olvido a los que estaban en la décima parte inferior - ha comenzado a desvanecerse.

En su lugar, grupos como Accenture y Deloitte, así como General Electric - la propia ‘alma mater’ de Welch - han desarrollado sistemas de instrucción y de retroalimentación más amigables. Según Accenture, cuyo fallecido presidente ejecutivo, Pierre Nanterme, prometió una revisión radical del antiguo sistema en 2015, el tiempo que los altos ejecutivos solían desperdiciar determinando forzadas clasificaciones ahora se dedica a proporcionar evaluaciones de rendimiento más frecuentes y más transparentes.

Este cambio representa el simple sentido común. Cualquier sistema de evaluación es propenso a lo que los expertos llaman el ‘efecto idiosincrásico del evaluador’, lo cual es una respetuosa forma de decir que el sesgo y la discriminación pueden contaminar los resultados.

Esto se aplica en particular a las evaluaciones ‘rank-and-yank’ (clasificar y despedir), pero también a la retroalimentación mal presentada. Como Marcus Buckingham, un consultor, y Ashley Goodall, de Cisco, escribieron en la revista Harvard Business Review a principios de este año: “Debido a que la retroalimentación presentada a terceros siempre contiene más sobre ti que acerca de ellos, conduce a errores sistemáticos, los cuales se magnifican cuando las calificaciones se consideran en conjunto”.

Habiendo probado estos métodos hasta el punto de destruir almas en algunas de las organizaciones más grandes del mundo, no es simplemente perverso, sino definitivamente peligroso, desenterrar sus fallas para que puedan atormentar a la economía gig, o la economía del trabajo eventual.

La discriminación ha sido uno de los primeros fantasmas en resurgir. Los investigadores que estudiaron a Uber concluyeron que, si bien su sistema de calificación era aparentemente neutral, podía ser un vehículo para, por ejemplo, prejuicios raciales.

Los académicos piensan que las calificaciones tienen un efecto personal. Los autores de otro artículo sobre Uber señalaron que las evaluaciones de sus propios estudiantes eran “relevantes para la renovación de los contratos de enseñanza, para promociones o para futuras solicitudes”, y también se sospecha que sufren de sesgo.

Su estudio sugirió que las soluciones pudieran incluir darles a los conductores de Uber la oportunidad de cuestionar una mala calificación, o nombrar a un tercero que pueda inspeccionar los comentarios en busca de posibles sesgos.

Uber permite que los conductores califiquen a los usuarios, los cuales pueden ser expulsados de la aplicación si su mal comportamiento hace que su calificación termine estando por debajo de lo aceptable.

Esto lleva a una mutuamente asegurada insinceridad de altas calificaciones de ambas partes (la falla en el sistema de revisión de Airbnb identificada en el estudio de Boston) y hace que tanto el cliente como el proveedor no hayan aprendido nada.

Sin embargo, la sombría alternativa no es mucho mejor (y lo tendré presente la próxima vez antes de someter una baja calificación). Es que todo el mundo vuelve a caer en un pantano de calificaciones de desempeño personal, donde los clientes asumen el papel de ‘clasificadores y despedidores’, de forma remota e involuntaria decidiendo el destino de personas como ellos.

Andrew Hill

Siga bajando para encontrar más contenido