Habilidades no técnicas del personal médico en Anestesiología en la atención de la salud: una revisión sistemática de instrumentos de medición y sus propiedades psicométricas S. Pareja1,*, M. A. Zamudio2, J. P. Ríos1, J. P. Zapata-Ospina3 1 Anestesiología y reanimación, Facultad de Medicina, Universidad de Antioquia, Medellín, Colombia 2 Sección de Anestesiología y Reanimación, Facultad de Medicina, Universidad de Antioquia; Anestesiología, Hospital Alma Máter de Antioquia, Medellín, Colombia 3 Instituto de Investigaciones Médicas, Facultad de Medicina, Universidad de Antioquia, Medellín, Colombia. Miembro del Grupo Académico de Epidemiología Clínica (GRAEPIC). Área de Investigación e Innovación, Hospital Alma Máter de Antioquia, Medellín, Colombia. Miembro del Grupo de Investigación Hospital Alma Máter (GHAMA). * Autor para correspondencia. Correo electrónico: sebastian.parejag@udea.edu.co Resumen Antecedentes: Las habilidades no técnicas (HNT) son fundamentales para la seguridad del paciente, pero se miden de manera inconsistente. Si bien se han desarrollado instrumentos para su medición, no está claro cuál es la más adecuada según sus propiedades psicométricas. Métodos: Revisión sistemática de la literatura para sintetizar los instrumentos de medición disponibles de las HNT en anestesiología. Se incluyeron estudios que evaluaron las propiedades de medición de estos instrumentos. Se realizaron búsquedas en PubMed, MEDLINE, LILACS, Embase, Scholar y PsycINFO hasta agosto de 2021, al igual que las referencias de los estudios incluidos y las revisiones publicadas anteriormente. Dos evaluadores independientes examinaron los artículos y extrajeron los datos por duplicado. La calidad se evaluó mediante la lista de chequeo de COSMIN. Resultados: De las 7561 referencias identificadas, se incluyeron 30 estudios sobre 12 instrumentos validados en anestesiología, principalmente en entornos simulados. Anaesthetists’ Non-Technical Skills (ANTS) y Ottawa Crisis Resource Management Global Rating Scale (Ottawa GRS) fueron los instrumentos con más evaluaciones. El riesgo de sesgo fue considerable y la propiedad psicométrica más estudiada fue la confiabilidad interevaluador, con valores aceptables para cada instrumento. Se evidenció gran heterogeneidad en los componentes conceptuales utilizados y deficiencias en la validez de contenido. Conclusiones: De los instrumentos evaluados, solo ANTS tiene descripción detallada de sus propiedades de medición, pero con deficiencias en propiedades fundamentales, que limitan la recomendación del instrumento más apropiado. Por tanto, se requiere el desarrollo de un instrumento de medición de propiedades psicométricas de HNT en anestesiología con gran fortaleza teórica y que cumpla con los componentes de validez de contenido. Palabras clave: Comunicación; consciencia situacional; error médico, psicometría; toma de decisiones; trabajo en equipo; validación de cuestionario. Introducción El origen del error médico se ha relacionado con la deficiencia de servicios, la falta de recursos y el diagnóstico inapropiado1; sin embargo, se ha dado reconocimiento a otros factores latentes que pueden influir en el2. Los factores latentes se relacionan con fallas en la comunicación, en el equipo y en el sistema, interactúan con factores activos llevando al desarrollo de una cadena de desaciertos que culminan en un error3. Los factores latentes, comenzaron a tomar un papel más activo en la medicina al cerrar uno de los eslabones de esa cadena de errores, que se corresponde con el concepto de habilidades no técnicas (HNT)4. Según Flin et al.5, las HNT son aquellas habilidades cognitivas, sociales y de recursos personales que complementan a las habilidades técnicas (HT) y contribuyen a la ejecución segura y eficiente de las tareas. Dada la multidimensionalidad en cuanto a la causalidad del error médico, se dio la necesidad de crear instrumentos que permitan valorar los atributos, cualidades, y constructos que no pueden medirse directamente, para impactar en las diferentes fases de la presentación de un error6. Las escalas, como una herramienta de medición, deben ser plenamente validadas y confiables para su posterior aplicación, evitar caer en sesgos y, lo más importante, para impactar en el actuar; es por esto que cada escala debe ser estrictamente valorada con respecto a sus cualidades psicométricas6. En la actualidad existen instrumentos que permiten medir de manera cuantitativa a las HNT en el contexto de crisis médicas, específicamente en Anestesiología se cuenta con Anaesthetists’ Non-Technical Skills (ANTS) y Ottawa Crisis Resource Management Global Rating Scale (Ottawa GRS), las cuales, además de identificar las habilidades, proponen estructurarlas de manera jerárquica789; no obstante, no se conoce una evidencia robusta que evalúe las diferentes propiedades de validez y confiabilidad a profundidad y recomiende la escala más apropiada. La elección de instrumentos de alta calidad está fuertemente determinada por tener propiedades psicométricas sólidas como validez y confiabilidad10. Dos revisiones sistemáticas de las propiedades psicométricas de los instrumentos de medición11,12 con evaluación respecto a la confiabilidad, la validez de contenido y la validez interna, de manera concreta dan razón de su capacidad de precisión y validez, sin embargo, no hay reportes en la literatura que valoren la validez de constructo, lo cual es imperioso al tener un gran riesgo de sesgo13. Con todo esto, en el momento existe incertidumbre sobre cuál es la mejor escala de medición de propiedades psicométricas de los instrumentos que evalúan las HNT en anestesiología, y considerando que, la mejor manera de seleccionar los instrumentos más confiables y válidos es revisando sistemáticamente la literatura sobre sus propiedades psicométricas14, se hace necesario aplicar los criterios propuestos por el COnsensus-based Standards for the selection of health Measurement INstruments (COSMIN)1516 para determinar la escala más confiable. Estas incluyen dentro de sus herramientas: una taxonomía que define cada propiedad psicométrica17, una lista de chequeo para evaluar la calidad metodológica de los estudios16, los criterios para evaluar cada resultado por estudio16, y un sistema de calificación que resume todos los resultados de los estudios y califica la calidad de toda la evidencia18. La ventaja más significativa de las guías COSMIN, es que fueron diseñadas para evaluar la calidad de todos los dominios de las propiedades psicométricas de manera integral, mientras que otros métodos lo fueron para evaluar aspectos limitados de algunas propiedades. Dado lo anterior, se infiere la necesidad de realizar una valoración diversificada con respecto a la validez para determinar si los instrumentos con los que se disponen hoy en día son lo suficientemente aceptables y precisos para valorar las HNT en la práctica de la anestesiología durante el manejo de los diferentes escenarios a los que se enfrentan en su práctica clínica. El objetivo de este estudio fue sintetizar de manera sistemática los instrumentos de medición de las HNT del personal médico en anestesiología en la atención de la salud. Materiales y métodos Se realizó una revisión sistemática de las propiedades psicométricas de los instrumentos de medición de acuerdo con las recomendaciones de Preferred Reporting Items for Systematic reviews and Meta-Analyses (PRISMA) statement19, COSMIN guideline for systematic reviews of patient-reported outcome measures15, COSMIN checklist for assessing the methodological quality of studies on measurement properties of health status measurement instruments: an international Delphi study20 y el protocolo para revisiones sistemáticas de propiedades de medición de COSMIN21. Esta revisión se realizó en cuatro pasos secuenciales (Figura 1): Paso 1: Búsqueda sistemática de literatura La búsqueda sistemática de literatura para esta revisión se realizó en dos pasos: formulación de criterios de elegibilidad (Paso 1.1) y búsqueda de la literatura y selección de estudios (Paso 1.2). Estos dos pasos están de acuerdo con las recomendaciones de PRISMA19. Criterios de elegibilidad (Paso 1.1). Se incluyeron (1) estudios de validación, cohorte, corte transversal, ensayos clínicos y estudios cuasi-experimentales que (2) evaluaran al menos una propiedad psicométrica de un instrumento cuyo constructo sea explícitamente las HNT; (3) incluyeran personal médico en anestesia bien sea en formación o graduados, (4) en entornos clínicos o de simulación y que (5) presentaran un análisis cuantitativo de propiedades psicométricas (validez, fiabilidad y sensibilidad al cambio) o la evaluación cualitativa para la validez de contenido, según lo definido en la taxonomía COSMIN17: validez estructural, consistencia interna, confiabilidad, error de medición, prueba de hipótesis para validez de constructo, validez de criterio, validez transcultural y validez de contenido. Solo se incluyeron artículos en inglés y en español. Se excluyeron los estudios que determinan la eficacia de intervenciones en los que se usen la herramienta como desenlace sin estudiar las propiedades psicométricas, por la dificultad en su interpretación, tal y como recomienda COSMIN15, así como aquellos instrumentos que evalúan las HNT en otras especialidades o en profesionales de enfermería y asistentes de anestesia. Búsqueda de literatura y selección de estudios (Paso 1.2): se realizó una búsqueda sistemática exhaustiva con acompañamiento de una bibliotecóloga en seis bases de datos electrónicas: National Library of Medicine (PubMed), MEDLINE (Ovid), LILACS, Embase, Scholar y PsycINFO. Se usó el filtro metodológico de búsqueda de PubMed como se recomienda para este tipo de revisiones22 y para las demás bases de datos se utilizaron palabras de texto libre. Se realizaron búsquedas manuales en las referencias de los textos incluidos para identificar estudios elegibles adicionales. Todas las búsquedas se realizaron en julio de 2020 y se actualizaron en agosto de 2021. No se empleó restricción de idioma ni de fecha de publicación. Ver material suplementario 1. La selección de los estudios se realizó en dos fases. En la primera dos evaluadores de forma independiente y por duplicado seleccionaron los manuscritos que según título y resumen cumplían con los criterios de elegibilidad y se descartaron los duplicados. En la segunda, se realizó una lectura completa de los textos seleccionados y se determinó cuáles cumplían con los criterios de inclusión; se presentó la justificación para los textos que fueron excluidos (material suplementario 2). Cualquier diferencia entre dos evaluadores se resolvió mediante consenso con un tercer evaluador. Paso 2: Evaluación de la calidad metodológica La calidad metodológica de los estudios se calificó mediante la lista de chequeo de riesgo de sesgo de COSMIN23, que es una herramienta estandarizada para evaluar la calidad de los estudios psicométricos y que contiene de 3 a 38 elementos para cada propiedad psicométrica. Esta lista fue traducida al español por uno de los investigadores y revisada por un par externo (material suplementario 3). Los elementos de esta lista califican la calidad del diseño del estudio y la solidez de los análisis estadísticos realizados en estudios sobre cualquiera de las propiedades psicométricas. Dos revisores, de manera independiente, utilizaron un formato elaborado en Microsoft Excel que conservó el formato de la lista original. Los desacuerdos se resolvieron mediante discusión basada en argumentos y consenso. Uno de los estudios incluidos en la revisión sistemática es de la autoría de uno de los investigadores, por lo que se aplicó la lista de chequeo por un tercer evaluador. Se calculó el acuerdo entre evaluadores con el estadístico k. Al puntuar la calidad metodológica de los estudios incluidos, cada elemento de la lista de chequeo se clasificó en una escala de calificación de 4 puntos: 1= inadecuado, 2= dudoso, 3= adecuado y 4= muy bueno23. En total, en el orden propuesto por COSMIN23 se evaluaron los diez componentes de la lista de chequeo como se listan en la figura 1. En este paso, se extrajeron los siguientes datos tanto de los estudios como de los instrumentos: (1) características del estudio, es decir, diseño del estudio, país, idioma, tipo participantes, tamaño de la muestra, contexto, metodología y propiedades psicométricas evaluadas; (2) características del instrumento, es decir, nombre del instrumento, definición del constructo, población, número de ítems, tiempo de aplicación y propiedades psicométricas evaluadas y (3) los resultados de las propiedades psicométricas descritas. Dos evaluadores extrajeron todos los datos relevantes de los estudios incluidos y otros dos evaluadores verificaron la precisión y la integridad de los datos extraídos y completaron los faltantes. Paso 3: Evaluación de las propiedades psicométricas de los instrumentos Cada una de las propiedades psicométricas de los instrumentos se evaluaron en tres pasos consecutivos: en el paso 3.1 se hizo la evaluación individual de los resultados de cada estudio, en el paso 3.2 se resumieron los resultados de todos los estudios por instrumento y en el paso 3.3 se evaluó la calidad de la evidencia sobre las propiedades psicométricas. Todas las calificaciones fueron realizadas por dos evaluadores de forma independiente, luego las calificaciones de consenso se determinaron mediante discusión entre ellos mismos. Evaluación individual de resultados por cada estudio (Paso 3.1): Esta evaluación se realizó para cada propiedad psicométrica por separado. Los resultados de cada propiedad en cada estudio se calificaron como suficientes, insuficientes o indeterminados de acuerdo con los criterios ya definidos16. Resumen de resultados de todos los estudios por instrumento (Paso 3.2): Los resultados de cada propiedad psicométrica de los estudios por cada herramienta se resumieron cualitativamente en calificaciones generales de cada propiedad. Según como recomiendan Prinsen et al16., para cada propiedad psicométrica por herramienta se dio una puntuación: suficiente (+), insuficiente (-), inconsistente (±) o indeterminada (?). Los dos primeros, definidos como si el 75% o más de los estudios que reportan la propiedad psicométrica son suficientes o insuficientes, respectivamente; inconsistentes si menos del 75% de los estudios tienen la misma calificación o indeterminada cuando todos los estudios son indeterminados. Evaluación de la calidad de la evidencia de propiedades psicométricas (Paso 3.3): La calidad de la evidencia de cada propiedad psicométrica de una herramienta se clasificó como alta, moderada, baja o muy baja utilizando el sistema Grading of Recommendations Assessment, Development and Evaluation (GRADE)16. Básicamente, este sistema parte de una calificación alta y de acuerdo a preocupaciones sobre la calidad se van bajando uno, dos o tres puntos, para su puntuación se tienen en cuenta diferentes factores: riesgo de sesgo, inconsistencia, falta de direccionalidad en las poblaciones objetivo e imprecisión, todo esto basado en las recomendaciones COSMIN para este tipo de revisiones sistemáticas16. Paso 4: Selección de instrumentos La selección de los instrumentos y las recomendaciones sobre estos se realizaron con base en los resultados obtenidos en los dos pasos inmediatamente anteriores. Intentando responder a los objetivos de la investigación para determinar los instrumentos de medición apropiados para anestesia, se consideraron la validez de contenido, la validez de constructo y la consistencia interna como propiedades psicométricas fundamentales para la evaluación dado su alto riesgo de sesgo y que son el punto de partida para la evaluación del resto de propiedades. De esta manera, según estos resultados se clasificaron los diferentes instrumentos en categorías de acuerdo con Mokkink et al.16 en categoría A como la más recomendada por su evidencia de alta calidad en validez de contenido y al menos evidencia de baja calidad en consistencia interna; en categoría B como prometedora, pero que necesita más estudios de validación; y en categoría C como no recomendable por evidencia de alta calidad insuficiente. El protocolo de la revisión sistemática se registró en PROSPERO (número de serie). Resultados Búsqueda sistemática de literatura La búsqueda bibliográfica arrojó 7.561 referencias entre bases de datos y búsqueda manual. Después de eliminar los duplicados, 7.293 estudios procedieron a la selección de títulos y resúmenes, de los cuales se seleccionaron para revisión de texto completo 48, de estos, 30 estudios y 12 instrumentos fueron incluidos en esta revisión sistemática. El proceso de selección de muestra en la figura 1 según lo relacionado con la búsqueda de literatura y la selección de estudios (Paso 1.2) según PRISMA19. Se evaluó el acuerdo entre evaluadores para la selección de estudios con el estadístico k=, considerado muy bueno24. Caracterización de estudios incluidos Se identificaron 12 instrumentos para evaluar a las HNT en Anestesiología en 30 estudios incluidos que miden las propiedades de medición de estos instrumentos (Tabla 1). Se realizaron 29 estudios en países de altos ingresos, los más comunes fueron Estados Unidos [9 estudios (30%)], Canadá [6 estudios (20%)] y Dinamarca [3 estudios (10%)]. El idioma inglés configuró más común entre ellos. Los estudios se desarrollaron principalmente en un entorno de simulación [20 estudios (67%)] y en la gran mayoría solo participaron anestesiólogos o residentes de Anestesiología [20 estudios (67%)] y 11 estudios examinaron el desempeño de residentes únicamente. Los instrumentos con la gran mayor parte de estudios relacionados fueron ANTS [16 estudios (53.3%)], Ottawa GRS [4 estudios (13.3%)] y NOTECHS [2 estudios (6.6%)]. Las características generales de los estudios psicométricos de los instrumentos de HNT incluidos se presentan en el material suplementario 4. Caracterización de los instrumentos de evaluación Las HNT evaluadas fueron relativamente comunes en todos los instrumentos encontrados, incluyendo en su mayoría toma de decisiones, consciencia situacional, trabajo en equipo, gestión de tareas, liderazgo, comunicación, uso de recursos y planificación. Los componentes conceptuales específicos evaluados por cada una de los 12 instrumentos se describen en la Tabla 2 donde se evidencia gran parte de la heterogeneidad encontrada. Calidad metodológica de los estudios La calidad metodológica de los 30 estudios incluidos se evaluó mediante la lista de chequeo de riesgo de sesgo de COSMIN23. Para los 30 estudios, en la Tabla 3 se muestra una descripción general de todas las calificaciones de calidad metodológica donde solo un estudio midió hasta cinco propiedades psicométricas y cinco estudios midieron solo una propiedad psicométrica. Algunos estudios incluyeron más de un instrumento. Como no se obtuvieron resultados para validez transcultural y error medición en ningún estudio, estas propiedades se eliminaron de la tabla. La mayoría de los estudios informó sobre confiabilidad [27 estudios (90%)], validez de constructo [16 estudios (53%)] y desarrollo de PROM [14 estudios (46.7%)]. Solo un pequeño número de estudios incluyó datos psicométricos sobre validez de contenido [4 estudios (13%)], validez de criterio [3 estudios (10%)] y validez estructural [2 estudios (6.7%)]. Se evaluó el acuerdo entre evaluadores para la evaluación de la calidad de los estudios incluidos con el estadístico k=, considerado muy bueno24. Propiedades sicométricas y calidad de la evidencia de los instrumentos (Paso 3) Las propiedades de medición evaluadas para cada herramienta se resumen en la Tabla S1. Las propiedades de medición de ANTS se evaluaron con mayor frecuencia [16 estudios (53%)], se estudiaron tres tipos de confiabilidad: consistencia interna (n= 5), confiabilidad interevaluador (n = 15) y confiabilidad intraevaluador (n = 1); tres tipos de validez: de contenido (n = 1), criterio (n = 1) y constructo discriminatoria (n = 3), convergente (n = 6) y divergente (n = 1), y además, en cuatro estudios se evaluó la sensibilidad al cambio. Entre los cuatro estudios que evaluaron las propiedades de medición de Ottawa GRS, se examinaron cuatro tipos de confiabilidad y cuatro tipos de validez: consistencia interna (n = 2), confiabilidad interevaluador (n = 4), confiabilidad intraevaluador (n = 1), confiabilidad test-retest (n = 1), de contenido (n = 1), constructo discriminatoria (n = 3), constructo convergente (n = 2) y constructo divergente (n = 1). La escala NOTECHS se evaluó en dos estudios, dando razón de dos tipos de confiabilidad: confiabilidad test-retest e interevaluador, y tres tipos de validez: criterio concurrente, criterio predictiva y constructo convergente, cada una de ellas con un estudio. La confiabilidad, la validez y la sensibilidad al cambio de los instrumentos se evaluaron con mayor frecuencia en situaciones de gestión de recursos en escenarios de crisis rutinarias en el servicio de Anestesiología, considerando principalmente casos de crisis de emergencias rutinarias en quirófano, vía aérea difícil, anestesia general para paciente programada para cesárea, choque hemorrágico y arritmias (tabla 1). Adicionalmente, como se resume en la Tabla 3, se evidenció que la sensibilidad al cambio solo se evaluó para ANTS y NOTECHS. El resto de instrumentos tuvo cada una un estudio encargado de evaluar sus propiedades de medición, principalmente consistencia interna, confiabilidad interevaluador y validez de constructo. La Tabla 4 presenta un resumen las calificaciones generales (Paso 3.2) y la calidad de la evidencia (Paso 3.3) para cada propiedad psicométrica por instrumento. Ninguno de los instrumentos arrojó resultados para todas las propiedades psicométricas. Además, las calificaciones de la calidad de la evidencia se informaron en solo el 40% (39 de 96 calificaciones posibles) de todas las calificaciones generales sobre la calidad psicométrica para los 12 instrumentos, mientras que el resto de la calidad de la evidencia se calificó como NR debido a que no se informaron datos psicométricos o los datos disponibles eran indeterminados. Los resultados completos de estos pasos se encuentran en la Tabla S2. Discusión Esta revisión sistemática identificó 12 instrumentos para evaluar las HNT en anestesiología. En general, la mayoría de instrumentos difería en los componentes conceptuales abarcados, a pesar de que algunos eran compartidos, se encontró una amplía gama de dimensiones, también difería en las escalas de calificación y la base del sistema de calificación. Las propiedades de medición de los instrumentos se estudiaron principalmente en entornos simulados, que al comparar con otras revisiones sistemáticas hay resultados divergentes11,12, en entornos clínicos. En general, la calidad metodológica de los estudios incluidos fue adecuada. Sin embargo, el 75% de los instrumentos identificados informaron solo sobre tres o menos propiedades psicométricas de las diez bajo revisión. La confiabilidad, la validez y la sensibilidad al cambio de estos instrumentos se investigaron en 29, 22 y 5 estudios, respectivamente, que en su mayoría involucraron situaciones de gestión de recursos de crisis rutinarias en anestesia. Es importante contar con un instrumento sólido para la evaluación de HNT en la práctica clínica y parece haber más opciones en anestesiología que en cirugía, donde principalmente se describen tres, Non Technical Skills for Surgeons (NOTSS), Non Technical Skills (NOTECHS) y Observational Teamwork Assessment for Surgery (OTAS)25. De los instrumentos aplicables en anestesiología, todos tienen escalas de calificación diferentes, por lo que, como es natural con cualquier instrumento, es válido preguntarse qué tan valiosa es una calificación numérica por sí sola para brindar retroalimentación con el objetivo final de mejorar el desempeño. Esto es cuestionable para instrumentos que evalúen las HNT en el desempeño general de un equipo con miembros asignados a tareas específicas (anestesia, cirugía, enfermería) porque no queda claro el aporte que representa cada miembro, por lo que surge la dificultad de interpretar un bajo puntaje global que puede, explicarse por un problema de grupo o de profesión individual. Esta dificultad aplica para NOTECHS, T-NOTECHS y MINTS-DR que son escalas para el grupo quirúrgico, mientras que ANTS resultaría más adecuada para evaluar las HNT en anestesia según las apreciaciones sobre su validez de contenido. Para establecer si los puntajes obtenidos a partir de un instrumento son válidos, este se debe comparar con una forma de medición previamente existente que haya mostrado ser el mejor instrumento disponible para la medición del constructo26, a esto se le conoce como validez de criterio (concurrente o predictiva). La validez predictiva implica probar a un grupo para un determinado constructo y luego compararlo con los resultados subsiguientes, indicando el grado de certeza con que se pueden predecir algunas características medidas a partir del instrumento. Esta propiedad solo se exploró en NOTECHS en situaciones cotidianas en quirófano, por lo que, si se pretende comparar el desempeño individual en anestesia con la puntuación global del equipo, NOTECHS puede ser un instrumento útil al ser el único en cumplir este criterio. A medida que la evaluación de las decisiones se vuelve cada vez más importante para mantener una atención segura y eficaz al paciente4,27, es imperativo identificar el instrumento más apropiado basado en la evidencia de medición existente. La confiabilidad interevaluador fue la propiedad más estudiada, los valores parecían ser aceptables para cada herramienta y el riesgo de sesgos por COSMIN en el 75% de los casos se consideró como adecuado a muy bueno, no obstante, la fuente de error de medición, no fue abordada por ninguno de los estudios incluidos, luego cuando se aplica cada instrumento no se pueden atribuir cambios verdaderos en el constructo de las HNT. Los resultados soportan el concepto que la mayoría de estudios que evaluaron ANTS, Ottawa GRS y los otros instrumentos identificados tenía riesgo de sesgo, aunque los valores parecían ser aceptables para esas herramientas, lo cual, resulta similar a lo que encontraron Boet et al11 en su revisión sistemática. Al analizar ese riesgo de sesgo, resaltamos la alta heterogeneidad en los componentes conceptuales de todos los instrumentos asociada a que las propiedades de medición fueron limitadas, además, la falta de claridad sobre las pruebas estadísticas para cada propiedad como lo recomienda COSMIN18 y sobre la metodología de desarrollo o validación aplicada. Las propiedades de medición abarcaron principalmente confiabilidad interevaluador y validez de constructo. La escala ANTS, Ottawa GRS y NOTECHS fueron los instrumentos con más propiedades de medición en los resultados, entre seis y nueve, con resultados ampliamente dispersos. La validez estructural solo se evaluó para dos herramientas, al igual que la prueba de hipótesis para validez de constructo divergente, la validez de criterio concurrente solo se evaluó para una herramienta y la validez transcultural no se evaluó para ninguna herramienta. Con todo esto, se pudo hacer una valoración diversificada de manera parcial con respecto a la validez y confiabilidad de las tres herramientas anteriormente descritas para establecer recomendaciones de su capacidad de precisión en la práctica de la anestesia, sobresaliendo ANTS y Ottawa GRS como las más estudiadas, y posiblemente la primera como la herramienta más recomendada, con lo que médicos, investigadores y educadores que buscan evaluar las HNT en anestesia pueden usar los hallazgos de nuestra revisión sistemática para tomar una decisión informada sobre qué instrumento de evaluación elegir, así como pueden considerar cuál de estos instrumentos, es el más adecuado para hacer comentarios en entornos clínicos reales. Por otro lado, considerando el riesgo de sesgos en la sensibilidad al cambio, no está claro si se puede asignar un significado cualitativo a los resultados cuantitativos asignados al desempeño por cada instrumento incluido en esta revisión. Con base en los resultados globales, se señala la necesidad de disponer de un instrumento que cumpla con un proceso de desarrollo con gran fortaleza teórica y demuestre tener los componentes de la validez de contenido, deficiencia que se logró demostrar con esta revisión sistemática. Así como se han diseñado laboratorios de simulación de alta fidelidad para abordaje de la vía aérea, reanimación cardiopulmonar y anestesia para pacientes en situaciones o poblaciones especiales, estos escenarios deben ir asociados a la implementación activa de las HNT, permitiendo que se desarrollen las habilidades esenciales para manejar crisis de forma eficaz, y de esta manera, los estudiantes luego de su formación tendrán la capacidad de comunicarse asertivamente, tomar decisiones apropiadas y ser líderes, lo que impacta en la cadena de errores y mejora los resultados para los pacientes y el sistema, esto en relación a que como demostraron Rogers et al.28, donde las deficiencias en HNT contribuyeron en el 82% de demandas en actos quirúrgicos. Las limitaciones de esta revisión sistemática giran en torno a que la mayoría de los estudios incluidos tuvieron un alto riesgo de sesgo, lo que representa que cualquier evidencia sobre la confiabilidad, validez y sensibilidad de cualquiera de las 12 herramientas debe interpretarse con cautela. Además, solo Ottawa GRS fue validada al castellano en un país de ingresos medios, con adecuada consistencia interna, confiabilidad y validez de constructo29, el resto lo fue en países de altos ingresos; por lo tanto, se desconoce hasta qué punto la validez y la confiabilidad se mantienen en varios contextos culturales e institucionales. Asimismo, solo se incluyeron estudios publicados en inglés y en español, entonces, es posible que se hayan excluido algunos hallazgos sobre las propiedades psicométricas de los instrumentos publicados en otros idiomas. En último lugar, esta revisión no informó sobre las diez propiedades psicométricas de la taxonomía COSMIN17 y se dejaron por fuera elementos importantes a la hora de dar recomendaciones sobre los instrumentos de medición más apropiados, interpretabilidad y factibilidad16, que son importantes, porque en condiciones idóneas, los instrumentos deberían ser sencillos en el sentido de tener la menor cantidad de ítems a aplicar para representar la totalidad del constructo bajo investigación. Conclusiones Con todo esto, de los instrumentos evaluados, solo ANTS tiene descripción detallada de sus propiedades de medición, pero con deficiencias en propiedades fundamentales, que limitan la recomendación del instrumento más apropiado. Por tanto, se requiere el desarrollo de un instrumento de medición de propiedades psicométricas de HNT en anestesiología con gran fortaleza teórica y que cumpla con los componentes de validez de contenido. Contribuciones de los autores Todos los autores hicieron contribuciones sustanciales a la concepción y diseño, adquisición de datos o análisis e interpretación de datos; redactar el artículo o revisarlo críticamente en busca de contenido intelectual importante; aprobación final de la versión a publicar. Acordamos ser responsables de todos los aspectos del trabajo, garantizando así que las preguntas relacionadas con la precisión o integridad de cualquier parte del trabajo se investiguen y resuelvan adecuadamente. Agradecimientos Agradecemos a Jesenia Avendaño Ramírez, por su ayuda en el desarrollo y ejecución de las estrategias de búsqueda. Conflicto de intereses Los autores declaran no tener ningún conflicto de intereses. Financiación No contamos con financiación por ningún grupo que se vea implicado en la valoración psicometría ni clinimétrica. Anexo. Material suplementario Se puede consultar material suplementario a este artículo en su versión electrónica disponible en [link]. Referencias 1. Croskerry, P. The importance of cognitive errors in diagnosis and strategies to minimize them. Academic Medicine vol. 78 775–780 Preprint at https://doi.org/10.1097/00001888-200308000-00003 (2003). 2. Rosser, W. et al. VOL 5�: MARCH • MARS 2005 d Canadian Family Physician • Le Médecin de famille canadien Medical errors in primary care Results of an international study of family practice. 5, (2005). 3. Alvarado-guevara, A. T. & Flores-sandí, G. Revisión Errores médicos. 16–23 (2009). 4. Flin, R. & Maran, N. Basic concepts for crew resource management and non- technical skills. Best Practice and Research: Clinical Anaesthesiology vol. 29 27–39 Preprint at https://doi.org/10.1016/j.bpa.2015.02.002 (2015). 5. Flin, R., Patey, R., Glavin, R. & Maran, N. Anaesthetists’ non-technical skills. Br J Anaesth 105, 38–44 (2010). 6. Bland, J. M. & Altman, D. G. Validating scales and indexes. Br Med J 324, 606– 607 (2002). 7. Fletcher, G. et al. Rating non-technical skills: developing a behavioural marker system for use in anaesthesia. Cognition, Technology & Work 6, 165–171 (2004). 8. Fletcher et al. Final report: the identification and measurement of anaesthetists’ non-technical skills. (2001). 9. Kim, J., Neilipovitz, D., Cardinal, P., Chiu, M. & Clinch, J. A pilot study using high-fidelity simulation to formally evaluate performance in the resuscitation of critically ill patients: The University of Ottawa Critical Care Medicine, High- Fidelity Simulation, and Crisis Resource Management I Study. Crit Care Med 34, 2167–2174 (2006). 10. Karanicolas, P. J. et al. Evaluating agreement: Conducting a reliability study. Journal of Bone and Joint Surgery vol. 91 99–106 Preprint at https://doi.org/10.2106/JBJS.H.01624 (2009). 11. Boet, S. et al. Measuring non-technical skills of anaesthesiologists in the operating room: a systematic review of assessment tools and their measurement properties. Br J Anaesth 121, 1218–1226 (2018). 12. Etherington, N. et al. Measuring the teamwork performance of operating room teams: a systematic review of assessment tools and their measurement properties. J Interprof Care 35, 37–45 (2021). 13. Jirativanont, T., Raksamani, K., Aroonpruksakul, N., Apidechakul, P. & Suraseranivongse, S. Validity of non-technical skills assessment instruments Validity evidence of non-technical skills assessment instruments in simulated anaesthesia crisis management. Anaesth Intensive Care vol. 45 (2017). 14. Scholtes, V. A., Terwee, C. B. & Poolman, R. W. What makes a measurement instrument valid and reliable? Injury 42, 236–240 (2011). 15. CAC, P. et al. COSMIN guideline for systematic reviews of patient-reported outcome measures. Qual Life Res 27, 1147–1157 (2018). 16. Prinsen, C. A. C. et al. COSMIN guideline for systematic reviews of patient- reported outcome measures. Quality of Life Research 27, 1147–1157 (2018). 17. Mokkink, L. B. et al. The COSMIN study reached international consensus on taxonomy, terminology, and definitions of measurement properties for health- related patient-reported outcomes. J Clin Epidemiol 63, 737–745 (2010). 18. Terwee, C. B. et al. COSMIN methodology for evaluating the content validity of patient-reported outcome measures: a Delphi study. Quality of Life Research vol. 27 1159–1170 Preprint at https://doi.org/10.1007/s11136-018-1829-0 (2018). 19. Moher, D. et al. Preferred reporting items for systematic reviews and meta- analyses: The PRISMA statement. PLoS Medicine vol. 6 Preprint at https://doi.org/10.1371/journal.pmed.1000097 (2009). 20. Mokkink, L. B. et al. The COSMIN checklist for assessing the methodological quality of studies on measurement properties of health status measurement instruments: An international Delphi study. Quality of Life Research 19, 539–549 (2010). 21. Terwee, C. B. Protocol for systematic reviews of measurement properties. www.cosmin.nl (2011). 22. Terwee, C. B., Jansma, E. P., Riphagen, I. I. & De Vet, H. C. W. Development of a methodological PubMed search filter for finding studies on measurement properties of measurement instruments. Quality of Life Research 18, 1115–1123 (2009). 23. Mokkink, L. B. COSMIN Risk of Bias checklist [PDF File]. 1–37 (2018). 24. Graham’, P. & Jackson, R. THE ANALYSIS OF ORDINAL AGREEMENT BEYOND WEIGHTED KAPPA DATA. J clin Epidem&l vol. 46 (1993). 25. Sharma, B., Mishra, A., Aggarwal, R. & Grantcharov, T. P. Non-technical skills assessment in surgery. Surgical Oncology vol. 20 169–177 Preprint at https://doi.org/10.1016/j.suronc.2010.10.001 (2011). 26. Alejandro Lamprea, J. M. & Gómez-Restrepo, C. Metodología de investigación y lectura crítica de estudios. 27. Jeffcott, S. A. & Mackenzie, C. F. Measuring team performance in healthcare: Review of research and implications for patient safety. J Crit Care 23, 188–196 (2008). 28. Rogers, S. O. et al. Analysis of surgical errors in closed malpractice claims at 4 liability insurers. Surgery 140, 25–33 (2006). 29. Zamudio Burbano, M. A., González Giraldo, D., López Agudelo, L. D. & Casas Arroyave, F. D. Validation in spanish of the Ottawa scale for non-techical skills in health personnel in crisis situations. Rev Esp Anestesiol Reanim 68, 523–530 (2021). 30. Fletcher, G. et al. Anaesthetists’ non-technical skills (ANTS): Evaluation of a behavioural marker system. Br J Anaesth 90, 580–588 (2003). 31. Yee, B. et al. Nontechnical Skills in Anesthesia Crisis Management with Repeated Exposure to Simulation-based Education. Anesthesiology vol. 103 http://pubs.asahq.org/anesthesiology/article-pdf/103/2/241/359087/0000542- 200508000-00006.pdf (2005). 32. Graham, J., Hocking, G. & Giles, E. Anaesthesia Non-Technical Skills: Can anaesthetists be trained to reliably use this behavioural marker system in 1 day? Br J Anaesth 104, 440–445 (2010). 33. Mudumbai, S. C., Gaba, D. M., Boulet, J. R., Howard, S. K. & Davies, M. F. External validation of simulation-based assessments with other performance measures of third-year anesthesiology residents. Simulation in Healthcare 7, 73– 80 (2012). 34. Phitayakorn, R. et al. Practicality of intraoperative teamwork assessments. Journal of Surgical Research 190, 22–28 (2014). 35. Balki, M., Chakravarty, S., Salman, A. & Wax, R. S. Effectiveness of using high- fidelity simulation to teach the management of general anesthesia for Cesarean delivery. Canadian Journal of Anesthesia 61, 922–934 (2014). 36. Gjeraa, K., Jepsen, R. M. H. G., Rewers, M., Østergaard, D. & Dieckmann, P. Exploring the relationship between anaesthesiologists’ non-technical and technical skills. Acta Anaesthesiol Scand 60, 36–47 (2016). 37. Jepsen, R. M. H. G., Spanager, L., Lyk-Jensen, H. T., Dieckmann, P. & Østergaard, D. Customisation of an instrument to assess anaesthesiologists’ non- technical skills. Int J Med Educ 6, 17–25 (2015). 38. Phitayakorn, R., Minehart, R. D., Hemingway, M. W., Pian-Smith, M. C. M. & Petrusa, E. The relationship between intraoperative teamwork and management skills in patient care. in Surgery (United States) vol. 158 1434–1440 (Mosby Inc., 2015). 39. Doleman, B. et al. Anaesthetists stress is induced by patient ASA grade and may impair non-technical skills during intubation. Acta Anaesthesiol Scand 60, 910– 916 (2016). 40. Jepsen, R. M. H. G. et al. Evaluating structured assessment of anaesthesiologists’ non-technical skills. Acta Anaesthesiol Scand 60, 756–766 (2016). 41. Zwaan, L. et al. The reliability and usability of the Anesthesiologists’ Non- Technical Skills (ANTS) system in simulation research. Advances in Simulation 1, (2016). 42. Cole, D. C., Giordano, C. R., Vasilopoulos, T. & Fahy, B. G. Resident Physicians Improve Nontechnical Skills When on Operating Room Management and Leadership Rotation. Anesth Analg 124, 300–307 (2017). 43. Watkins, S. C., Roberts, D. A., Boulet, J. R., Mcevoy, M. D. & Weinger, M. B. Evaluation of a simpler tool to assess nontechnical skills during simulated critical events. Simulation in Healthcare 12, 69–75 (2017). 44. Moll-Khosrawi, P. et al. Anaesthesiology students’ Non-Technical skills: Development and evaluation of a behavioural marker system for students (AS- NTS). BMC Med Educ 19, (2019). 45. Crossingham, G. V., Sice, P. J. A., Roberts, M. J., Lam, W. H. & Gale, T. C. E. Development of workplace-based assessments of non-technical skills in anaesthesia. Anaesthesia 67, 158–164 (2012). 46. Kim, J., Neilipovitz, D., Cardinal, P., Chiu, M. & Clinch, J. A pilot study using high-fidelity simulation to formally evaluate performance in the resuscitation of critically ill patients: The University of Ottawa Critical Care Medicine, High- Fidelity Simulation, and Crisis Resource Management I Study. Crit Care Med 34, 2167–2174 (2006). 47. Lockyer, J. M., Violato, C. & Fidler, H. A multi source feedback program for anesthesiologists [Un programme de rétroaction multisources pour les anesthésiologistes]. 48. Mcneer, R. R., Dudaryk, R., Nedeff, N. B. & Bennett, C. L. Development and Testing of Screen-Based and Psychometric Instruments for Assessing Resident Performance in an Operating Room Simulator. Anesthesiol Res Pract 2016, (2016). 49. Mishra, A., Catchpole, K. & Mcculloch, P. The Oxford NOTECHS system: reliability and validity of a tool for measuring teamwork behaviour In the operating theatre. Qual Saf Health Care 18, 104–108 (2009). 50. Robertson, E. R. et al. Oxford NOTECHS II: A modified theatre team non- technical skills scoring system. PLoS One 9, (2014). 51. van Maarseveen, O. E. C., Ham, W. H. W., Huijsmans, R. L. N., Dolmans, R. G. F. & Leenen, L. P. H. Reliability of the assessment of non-technical skills by using video-recorded trauma resuscitations. European Journal of Trauma and Emergency Surgery 48, 441–447 (2022). 52. Meng, L., Metro, D. G. & Patel, R. M. Evaluating Professionalism and Interpersonal and Communication Skills: Implementing a 360-Degree Evaluation Instrument in an Anesthesiology Residency Program. J Grad Med Educ 1, 216– 220 (2009). 53. Toy, S., Daly Guris, R. J., Duarte, S. S. & Dwivedi, P. Development of a scale to measure intrapersonal factors influencing speaking up in the operating room. Perspect Med Educ 8, 253–260 (2019). 54. Bracco, F. et al. Adaptation of non-technical skills behavioural markers for delivery room simulation. BMC Pregnancy Childbirth 17, (2017). In cl ui do s E le g ib il id a d Ta m iz ac ió n Id en tif ic ac ió n Registros identificados mediante búsquedas en bases de datos= 7561 Registros adicionales identificados a través de otras fuentes= 0 Registros después de eliminar los duplicados n= 7184 Registros de títulos y resúmenes tamizados= 7184 Registros de texto completo evaluados para elegibilidad= 48 Registros excluidos= 7136 • No evaluaron psicometría • No evaluaron HNT • Idiomas de exclusión • No aplicados en Anestesiología Registros de texto completo excluidos= 18 • Evaluación de HT y HNT= 6 • No propiedades psicométricas= 5 • No propiedades de medición= 1 • Evaluación docente= 2 • Selección de residentes en entrevistas= 2 • Estudios secundarios tipo revisión sistemática= 2 Número total de estudios incluidos= 30 Figura 2. Diagrama de flujo PRISMA. PRISMA, Preferred Reporting Items for Systematic Reviews and Meta-Analyses. * HNT: Habilidades no técnicas * HT: Habilidades técnicas Tabla 1. Características de los estudios incluidos que evaluaron las propiedades psicométricas de instrumentos para la evaluación de Habilidades no técnicas del personal médico en Anestesiología Autor, año Diseño del estudio País (idioma) Participantes Contexto Instrumento: Anaesthetists’ Non-Technical Skills (ANTS) Fletcher, 2003 Desarrollo y validación de instrumento Escocia (Inglés) Anestesiólogos Simulación Yee, 2005 Validación de instrumento Canadá (Inglés) Residentes de anestesiología Simulación Graham, 2010 Validación de instrumento Australia (Inglés) Anestesiólogos Clínico Morgan., 2011 Ensayo clínico aleatorizado Canadá (Inglés) Anestesiólogos Simulación Mudumbai., 2011 Validación de instrumento Estados Unidos (Inglés) Residentes de anestesiología Simulación Phitayakorn., 2014 Transversal Estados Unidos (Inglés) Equipo de quirófano (residentes de anestesiología) Simulación Balki, 2014 Cohorte prospectiva Canadá (Inglés) Residentes de anestesiología Simulación Gjeraa., 2015 Métodos mixtos Dinamarca (Danés) Residentes de anestesiología Simulación Jepsen, 2015 Cualitativo exploratorio Dinamarca (Danés) Anestesiólogos Clínico Phitayakorn., 2015 Transversal Estados Unidos (Inglés) Equipo de quirófano (residentes de anestesiología) Simulación Doleman, 2016 Transversal Reino Unido (Inglés) Anestesiólogos Clínico Jepsen, 2016 Transversal Dinamarca (Danés) Anestesiólogos Simulación Zwaan, 2016 Ensayo clínico aleatorizado cruzado Holanda (Inglés) Anestesiólogos y residentes de anestesiología Simulación Cole, 2017 Cohorte Estados Unidos (Inglés) Residentes de anestesiología Clínico Jirativanont, 2017* Validación de instrumento Tailandia (Tailandés) Residentes de anestesiología Simulación Watkins., 2017 Validación de instrumento Estados Unidos (Inglés) Residentes de anestesiología y estudiantes de enfermería anestesistas Simulación Instrumento: Anaesthesiology Students’ Non-Technical Skills (AS-NTS) Moll-Khosrawi, 2019 Desarrollo de instrumento Alemania (Alemán) Estudiantes del pregrado de medicina en anestesiología Simulación Instrumento: Workplace-based assessments of non-technical skills in anaesthesia (WBANTS) Crossingham, 2012 Estudio de desarrollo de instrumento Reino Unido (Inglés) Residentes de anestesiología Clínico Instrumento: Ottawa CRM (Crisis resource management) Kim, 2006 Estudio de desarrollo de instrumento Canadá (Inglés) Residentes de áreas clínicas y quirúrgicas Simulación Kim, 2009 Estudio de validación de instrumento Canadá (Inglés) Residentes de áreas clínicas y quirúrgicas Simulación Jirativanont, 2017 * Estudio de validación de instrumento Tailandia (Tailandés) Residentes de anestesiología Simulación Zamudio, 2021 Estudio de adaptación cultural y validación de instrumento Colombia (Español) Internos, médicos generales y residentes de anestesiología Simulación Instrumento: Multi source feedback (MSF) system program for anesthesiologists Lockyer, 2006 Estudio de desarrollo y validación de instrumento Canadá (Inglés) Anestesiólogos Clínico Instrumento: Global Rating Scale - Crisis Management Checklist Mcneer, 2016 Estudio de desarrollo y validación de instrumento en el marco de desarrollo de un simulador Estados Unidos (Inglés) Residentes de anestesiología Simulación Instrumento: The Oxford Non-Technical Skills (NOTECHS) Mishra, 2009 Estudio de desarrollo y validación de instrumento Reino Unido (Inglés) Grupo quirúrgico (anestesiólogo) Clínico Robertson, 2014 Estudio de desarrollo y validación de instrumento Australia (Inglés) Grupo quirúrgico (anestesiólogos) Clínico Instrumento: Trauma Non-Technical Skills (T-NOTECHS) Maarseveen, 2020 Estudio transversal Holanda (Inglés) Grupo de trauma (anestesiólogo) Clínico Instrumento: Evaluación de 360 grados para la rotación de la Unidad de Cuidados Posanestésicos (UCPA) Meng, 2009 Estudio transversal Estados Unidos (Inglés) Residentes de anestesiología Clínico Instrumento: Intrapersonal Factors Scale for speaking-up in the Operating Room (IPFS) Toy, 2019 Estudio de desarrollo y validación de instrumento Estados Unidos (Inglés) Residentes de anestesiología y anestesiólogos Hipotético Instrumento: Multi-professional Inventory for Non-Technical Skills in the Delivery Room: MINTS-DR Bracco, 2017 Estudio observacional Italia (Italiano) Grupo de sala de partos (anestesiólogo) Simulación Instrumento: Proceso Delphi de dominios conductuales Blum, 2014 Estudio observacional prospectivo Estados unidos (Inglés) Residentes de anestesiología Simulación * Evalúo tanto ANTS y Ottawa Tabla 2. Componentes conceptuales de las herramientas que evalúan las propiedades de medición de habilidades no técnicas para Anestesiología (n = 12). Componente conceptual Herramienta de evaluación ANTS Ottawa NOTECHS WBANTS MSF system program for anesthesiologists GRS - CMC T- NOTECHS AS- NTS Evaluación de 360 grados para la rotación de la Unidad de Cuidados Posanestésicos IPFS MINTS- DR Proceso Delphi de dominios conductuales Autoeficacia ✓ Asertividad ✓ Colaboración ✓ Cooperación ✓ ✓ ✓ Compañerismo ✓ Comunicación ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ Consciencia situacional ✓ ✓ ✓ ✓ ✓ ✓ Desarrollo profesional continuo ✓ Detección de cambio de estado ✓ Empatía y sensibilidad ✓ Expectativa de resultados ✓ Gestión de tareas ✓ ✓ ✓ Habilidades interpersonales ✓ ✓ Identificación de formas para mejorar el rendimiento ✓ Liderazgo ✓ ✓ ✓ ✓ ✓ ✓ Orientación del equipo ✓ Organización y planeación ✓ ✓ Plan de implementación según cambios ✓ Percepción sobre resolución de crisis ✓ Profesionalismo ✓ ✓ Reconocimiento de límites ✓ Resolución de problemas ✓ ✓ Síntesis de información ✓ Toma de decisiones ✓ ✓ ✓ ✓ Trabajo en equipo ✓ ✓ ✓ Trabajo bajo presión ✓ ✓ ✓ Uso de recursos ✓ ✓ ✓ ✓ Tabla 3. Evaluación de la calidad metodológica de los estudios sobre las propiedades psicométricas de los instrumentos incluidos * Evalúo ANTS y Ottawa NA: No aplica; NR: No reportado ª El primer resultado corresponde a inter-evaluador y la segunda a test-retest Propiedades psicométricas Referencias, año Desarrollo PROM Validez de contenido Validez estructural Consistencia interna Confiabilidad Validez de criterio Validez de constructo Sensibilidad al cambio Instrumento: Anaesthetists’ Non-Technical Skills (ANTS) Fletcher et al., 2003 Inadecuado Adecuado NA Dudoso Muy bueno Inadecuado NA NA Yee et al., 2005 NR NR NR NR Adecuado NR Dudoso Muy bueno Graham et al., 2010 NR NR NR Muy bueno Muy bueno NR NR NA Morgan et al., 2011 NR NR NR NR Adecuado NR NR Adecuado Mudumbai et al., 2011 NR NR NR NR Dudoso NR Inadecuado NR Phitayakorn et al., 2014 NR NR NR NR Muy bueno NR NR NA Balki et al., 2014 NR NR NR NR Muy bueno NR Dudoso Dudoso Gjeraa et al., 2015 NR NR NR NR Muy bueno NR Inadecuado NR Jepsen et al., 2015 Muy bueno NA NA NR NA NA NA NA Phitayakorn et al., 2015 NR NR NR NR Muy bueno NR Muy bueno NR Doleman et al., 2016 NR NR NR NR Adecuado NR Muy bueno NA Jepsen et al., 2016 NA Inadecuado NA Inadecuado Muy bueno NA NA NA Zwaan et al., 2016 NR NR NR NR Muy bueno NR NR NA Cole et al., 2017 NR NR NR Inadecuado Dudoso NR NR Adecuado Jirativanont et al., 2017 NR NR NR Inadecuado Muy bueno NR Dudoso NR Watkins et al., 2017 NR NR NR NR Dudoso NR Dudoso NA Instrumento: Anaesthesiology Students’ Non-Technical Skills (AS-NTS) Moll-Khosrawi et al., 2019 Adecuado Dudoso NR NR Muy bueno NR NR NA Instrumento: Workplace-based assessments of non-technical skills in anaesthesia (WBANTS) Crossingham et al., 2012 Inadecuado NR NR NR Inadecuado NR NR NA Instrumento: Ottawa CRM (Crisis resource management) Kim et al., 2006 Inadecuado NR NR Inadecuado Muy bueno NR Muy bueno NR Kim et al., 2009 Inadecuado Dudoso NR NR Muy bueno NR Muy bueno NA Jirativanont et al., 2017 * NR NR NR Inadecuado Muy bueno NR Dudoso NR Zamudio Burbano et al., 2021 NR NR NR Inadecuado Adecuado NR Muy bueno NA Instrumento: Multi source feedback (MSF) system program for anesthesiologists Lockyer et al., 2006 Inadecuado NR Adecuado Muy bueno NR NR NR NA Instrumento: Global Rating Scale - Crisis Management Checklist Mcneer et al., 2016 Inadecuado NR NR Dudoso Muy bueno NR Inadecuado NA Instrumento: The Oxford Non-Technical Skills (NOTECHS) Mishra et al., 2009 Inadecuado NR NR NR Adecuado/Inadecuadoª Muy bueno Dudoso Adecuado Robertson et al., 2014 Inadecuado NR NR NR Adecuado Muy bueno NR NA Instrumento: Trauma Non-Technical Skills (T-NOTECHS) Maarseveen et al., 2020 NR NR NR NR Muy bueno NR NR NA Instrumento: Evaluación de 360 grados para la rotación de la Unidad de Cuidados Posanestésicos (UCPA) Meng et al., 2009 Inadecuado NR NR NR Inadecuado NR NR NA Instrumento: Intrapersonal Factors Scale for speaking-up in the Operating Room (IPFS) Toy et al., 2019 Inadecuado NR Inadecuado Muy bueno NR NR Dudoso NA Instrumento: Multi-professional Inventory for Non-Technical Skills in the Delivery Room: MINTS-DR Bracco et al., 2017 Inadecuado NR NR NR NR NR NR NR Instrumento: Proceso Delphi de dominios conductuales Blum et al., 2014 Inadecuado NR NR NR Dudoso NR Dudoso NR Tabla 4. Resumen de la evidencia sobre las propiedades psicométricas de los instrumentos que evalúan las habilidades no técnicas para Anestesiología. Propiedades psicométricas Instrumentos Desarrollo PROM Validez de contenido Validez estructural Consistencia interna Confiabilidad Validez de criterio Validez de constructo Sensibilidad al cambio ANTS ⊕⊕⊕⊕ ⊕⊕⊕⊝ NR ⊕⊝⊝⊝ ⊕⊕⊕⊕ NR ⊕⊕⊕⊕ ⊕⊕⊕⊕ AS - ANTS ⊕⊕⊕⊝ ⊕⊕⊝⊝ NR NR ⊕⊕⊕⊕ NR NR NR WB - ANTS ⊕⊝⊝⊝ NR NR NR ⊕⊝⊝⊝ NR NR NR GRS Ottawa ⊕⊝⊝⊝ ⊕⊕⊝⊝ NR ⊕⊝⊝⊝ ⊕⊕⊕⊕ NR ⊕⊕⊕⊕ NR CMC Ottawa ⊕⊝⊝⊝ NR NR ⊕⊕⊝⊝ ⊕⊕⊕⊕ NR ⊕⊝⊝⊝ NA MSF ⊕⊝⊝⊝ NR ⊕⊕⊕⊝ ⊕⊕⊕⊕ NR NR NR NR Notechs ⊕⊝⊝⊝ NR NR NR ⊕⊕⊕⊝ ⊕⊕⊕⊕ ⊕⊕⊝⊝ ⊕⊕⊕⊝ T-Notechs NR NR NR NR ⊕⊕⊕⊕ NR NR NR E 360 ⊕⊝⊝⊝ NR NR NR ⊕⊝⊝⊝ NR NR NA IPFS ⊕⊝⊝⊝ NR ⊕⊝⊝⊝ ⊕⊕⊕⊕ NR NR ⊕⊕⊝⊝ NA Mints-Dr ⊕⊝⊝⊝ NR NR NR NR NR NR NR Behavioral domains ⊕⊝⊝⊝ NR NR NR ⊕⊕⊝⊝ NR ⊕⊕⊝⊝ NR Muy Baja Calidad ⊕⊝⊝⊝ Baja Calidad ⊕⊕⊝⊝ Moderada Calidad ⊕⊕⊕⊝ Alta Calidad ⊕⊕⊕⊕