Habilidades no técnicas del personal médico en Anestesiología en la 

atención de la salud: una revisión sistemática de instrumentos de 

medición y sus propiedades psicométricas 

S. Pareja1,*, M. A. Zamudio2,  J. P. Ríos1, J. P. Zapata-Ospina3 

1 Anestesiología y reanimación, Facultad de Medicina, Universidad de Antioquia, 

Medellín, Colombia 

2 Sección de Anestesiología y Reanimación, Facultad de Medicina, Universidad de 

Antioquia; Anestesiología, Hospital Alma Máter de Antioquia, Medellín, Colombia 

3 Instituto de Investigaciones Médicas, Facultad de Medicina, Universidad de Antioquia, 

Medellín, Colombia. Miembro del Grupo Académico de Epidemiología Clínica 

(GRAEPIC). Área de Investigación e Innovación, Hospital Alma Máter de Antioquia, 

Medellín, Colombia. Miembro del Grupo de Investigación Hospital Alma Máter 

(GHAMA). 

* Autor para correspondencia. Correo electrónico: sebastian.parejag@udea.edu.co 

 
Resumen 

Antecedentes: Las habilidades no técnicas (HNT) son fundamentales para la seguridad del 

paciente, pero se miden de manera inconsistente. Si bien se han desarrollado instrumentos 

para su medición, no está claro cuál es la más adecuada según sus propiedades 

psicométricas. 

Métodos: Revisión sistemática de la literatura para sintetizar los instrumentos de medición 

disponibles de las HNT en anestesiología. Se incluyeron estudios que evaluaron las 

propiedades de medición de estos instrumentos. Se realizaron búsquedas en PubMed, 

MEDLINE, LILACS, Embase, Scholar y PsycINFO hasta agosto de 2021, al igual que las 

referencias de los estudios incluidos y las revisiones publicadas anteriormente. Dos 

evaluadores independientes examinaron los artículos y extrajeron los datos por duplicado. 

La calidad se evaluó mediante la lista de chequeo de COSMIN. 

Resultados: De las 7561 referencias identificadas, se incluyeron 30 estudios sobre 12 

instrumentos validados en anestesiología, principalmente en entornos simulados. 

Anaesthetists’ Non-Technical Skills (ANTS) y Ottawa Crisis Resource Management 

Global Rating Scale (Ottawa GRS)  fueron los instrumentos con más evaluaciones. El 

riesgo de sesgo fue considerable y la propiedad psicométrica más estudiada fue la 

confiabilidad interevaluador, con valores aceptables para cada instrumento. Se evidenció 

gran heterogeneidad en los componentes conceptuales utilizados y deficiencias en la 

validez de contenido.  

Conclusiones: De los instrumentos evaluados, solo ANTS tiene descripción detallada de 

sus propiedades de medición, pero con deficiencias en propiedades fundamentales, que 

limitan la recomendación del instrumento más apropiado. Por tanto, se requiere el 

desarrollo de un instrumento de medición de propiedades psicométricas de HNT en 


anestesiología con gran fortaleza teórica y que cumpla con los componentes de validez de 

contenido. 

 
Palabras clave: Comunicación; consciencia situacional; error médico, psicometría; toma 

de decisiones; trabajo en equipo; validación de cuestionario. 

 
Introducción 

El origen del error médico se ha relacionado con la deficiencia de servicios, la falta de 

recursos y el diagnóstico inapropiado1; sin embargo, se ha dado reconocimiento a otros 

factores latentes que pueden influir en el2.  Los factores latentes se relacionan con fallas 

en la comunicación, en el equipo y en el sistema, interactúan con factores activos llevando 

al desarrollo de una cadena de desaciertos que culminan en un error3. Los factores 

latentes, comenzaron a tomar un papel más activo en la medicina al cerrar uno de los 

eslabones de esa cadena de errores, que se corresponde con el concepto de habilidades no 

técnicas (HNT)4. Según Flin et al.5, las HNT son aquellas habilidades cognitivas, sociales 

y de recursos personales que complementan a las habilidades técnicas (HT) y contribuyen 

a la ejecución segura y eficiente de las tareas. 

Dada la multidimensionalidad en cuanto a la causalidad del error médico, se dio la 

necesidad de crear instrumentos que permitan valorar los atributos, cualidades, y 

constructos que no pueden medirse directamente, para impactar en las diferentes fases de 

la presentación de un error6. Las escalas, como una herramienta de medición, deben ser 

plenamente validadas y confiables para su posterior aplicación, evitar caer en sesgos y, lo 

más importante, para impactar en el actuar; es por esto que cada escala debe ser 

estrictamente valorada con respecto a sus cualidades psicométricas6.  

En la actualidad existen instrumentos que permiten medir de manera cuantitativa a las 

HNT en el contexto de crisis médicas, específicamente en Anestesiología se cuenta con 

Anaesthetists’ Non-Technical Skills (ANTS) y Ottawa Crisis Resource Management 

Global Rating Scale (Ottawa GRS), las cuales, además de identificar las habilidades, 

proponen estructurarlas de manera jerárquica789; no obstante, no se conoce una evidencia 

robusta que evalúe las diferentes propiedades de validez y confiabilidad a profundidad y 


recomiende la escala más apropiada. La elección de instrumentos de alta calidad está 

fuertemente determinada por tener propiedades psicométricas sólidas como validez y 

confiabilidad10. Dos revisiones sistemáticas de las propiedades  psicométricas de los 

instrumentos de medición11,12 con evaluación respecto a la confiabilidad, la validez de 

contenido y la validez interna, de manera concreta dan razón de su capacidad de precisión 

y validez, sin embargo, no hay reportes en la literatura que valoren la validez de 

constructo, lo cual es imperioso al tener un gran riesgo de sesgo13.  

Con todo esto, en el momento existe incertidumbre sobre cuál es la mejor escala de 

medición de propiedades psicométricas de los instrumentos que evalúan las HNT en 

anestesiología, y considerando que, la mejor manera de seleccionar los instrumentos más 

confiables y válidos es revisando sistemáticamente la literatura sobre sus propiedades 

psicométricas14, se hace necesario aplicar los criterios propuestos por el COnsensus-based 

Standards for the selection of health Measurement INstruments (COSMIN)1516 para 

determinar la escala más confiable. Estas incluyen dentro de sus herramientas: una 

taxonomía que define cada propiedad psicométrica17, una lista de chequeo para evaluar 

la calidad metodológica de los estudios16, los criterios para evaluar cada resultado por 

estudio16, y un sistema de calificación que resume todos los resultados de los estudios y 

califica la calidad de toda la evidencia18. La ventaja más significativa de las guías 

COSMIN, es que fueron diseñadas para evaluar la calidad de todos los dominios de las 

propiedades psicométricas de manera integral, mientras que otros métodos lo fueron para 

evaluar aspectos limitados de algunas propiedades. 

Dado lo anterior, se infiere la necesidad de realizar una valoración diversificada con 

respecto a la validez para determinar si los instrumentos con los que se disponen hoy en 

día son lo suficientemente aceptables y precisos para valorar las HNT en la práctica de la 

anestesiología durante el manejo de los diferentes escenarios a los que se enfrentan en su 


práctica clínica. El objetivo de este estudio fue sintetizar de manera sistemática los 

instrumentos de medición de las HNT del personal médico en anestesiología en la 

atención de la salud. 

Materiales y métodos 

Se realizó una revisión sistemática de las propiedades  psicométricas de los instrumentos 

de medición de acuerdo con las recomendaciones de Preferred Reporting Items for 

Systematic reviews and Meta-Analyses (PRISMA) statement19, COSMIN guideline for 

systematic reviews of patient-reported outcome measures15, COSMIN checklist for 

assessing the methodological quality of studies on measurement properties of health 

status measurement instruments: an international Delphi study20 y el protocolo para 

revisiones sistemáticas de propiedades de medición de COSMIN21. Esta revisión se 

realizó en cuatro pasos secuenciales (Figura 1):  

Paso 1: Búsqueda sistemática de literatura 

La búsqueda sistemática de literatura para esta revisión se realizó en dos pasos: 

formulación de criterios de elegibilidad (Paso 1.1) y búsqueda de la literatura y selección 

de estudios (Paso 1.2). Estos dos pasos están de acuerdo con las recomendaciones de 

PRISMA19. 

Criterios de elegibilidad (Paso 1.1). Se incluyeron (1) estudios de validación, cohorte, 

corte transversal, ensayos clínicos y estudios cuasi-experimentales que (2) evaluaran al 

menos una propiedad psicométrica de un instrumento cuyo constructo sea explícitamente 

las HNT; (3) incluyeran personal médico en anestesia bien sea en formación o graduados, 

(4) en entornos clínicos o de simulación y que (5) presentaran un análisis cuantitativo de 

propiedades psicométricas (validez, fiabilidad y sensibilidad al cambio) o la evaluación 


cualitativa para la validez de contenido, según lo definido en la taxonomía COSMIN17: 

validez estructural, consistencia interna, confiabilidad, error de medición, prueba de 

hipótesis para validez de constructo, validez de criterio, validez transcultural y validez de 

contenido. Solo se incluyeron artículos en inglés y en español. Se excluyeron los estudios 

que determinan la eficacia de intervenciones en los que se usen la herramienta como 

desenlace sin estudiar las propiedades psicométricas, por la dificultad en su 

interpretación, tal y como recomienda COSMIN15, así como aquellos instrumentos que 

evalúan las HNT en otras especialidades o en profesionales de enfermería y asistentes de 

anestesia. 

Búsqueda de literatura y selección de estudios (Paso 1.2): se realizó una búsqueda 

sistemática exhaustiva con acompañamiento de una bibliotecóloga en seis bases de datos 

electrónicas: National Library of Medicine (PubMed), MEDLINE (Ovid), LILACS, 

Embase, Scholar y PsycINFO. Se usó el filtro metodológico de búsqueda de PubMed 

como se recomienda para este tipo de revisiones22 y para las demás bases de datos se 

utilizaron palabras de texto libre. Se realizaron búsquedas manuales en las referencias de 

los textos incluidos para identificar estudios elegibles adicionales. Todas las búsquedas 

se realizaron en julio de 2020 y se actualizaron en agosto de 2021. No se empleó 

restricción de idioma ni de fecha de publicación. Ver material suplementario 1.     

La selección de los estudios se realizó en dos fases. En la primera dos evaluadores de 

forma independiente y por duplicado seleccionaron los manuscritos que según título y 

resumen cumplían con los criterios de elegibilidad y se descartaron los duplicados. En la 

segunda,  se realizó una lectura completa de los textos seleccionados y se determinó 

cuáles cumplían con los criterios de inclusión; se presentó la justificación para los textos 

que fueron excluidos (material suplementario 2). Cualquier diferencia entre dos 

evaluadores se resolvió mediante consenso con un tercer evaluador.  


Paso 2: Evaluación de la calidad metodológica  

La calidad metodológica de los estudios se calificó mediante la lista de chequeo de riesgo 

de sesgo de COSMIN23, que es una herramienta estandarizada para evaluar la calidad de 

los estudios psicométricos y que contiene de 3 a 38 elementos para cada propiedad 

psicométrica. Esta lista fue traducida al español por uno de los investigadores y revisada 

por un par externo (material suplementario 3). Los elementos de esta lista califican la 

calidad del diseño del estudio y la solidez de los análisis estadísticos realizados en 

estudios sobre cualquiera de las propiedades psicométricas. Dos revisores, de manera 

independiente, utilizaron un formato elaborado en Microsoft Excel que conservó el 

formato de la lista original. Los desacuerdos se resolvieron mediante discusión basada en 

argumentos y consenso.  Uno de los estudios incluidos en la revisión sistemática es de la 

autoría de uno de los investigadores, por lo que se aplicó la lista de chequeo por un tercer 

evaluador. Se calculó el acuerdo entre evaluadores con el estadístico k. Al puntuar la 

calidad metodológica de los estudios incluidos, cada elemento de la lista de chequeo se 

clasificó en una escala de calificación de 4 puntos: 1= inadecuado, 2= dudoso, 3= 

adecuado y 4= muy bueno23. 

En total, en el orden propuesto por COSMIN23 se evaluaron los diez componentes de la 

lista de chequeo como se listan en la figura 1. En este paso, se extrajeron los siguientes 

datos tanto de los estudios como de los instrumentos: (1) características del estudio, es 

decir, diseño del estudio, país, idioma, tipo participantes, tamaño de la muestra, contexto, 

metodología y propiedades psicométricas evaluadas; (2) características del instrumento, 

es decir, nombre del instrumento, definición del constructo, población, número de ítems, 

tiempo de aplicación y propiedades psicométricas evaluadas y (3) los resultados de las 

propiedades psicométricas descritas. Dos evaluadores extrajeron todos los datos 


relevantes de los estudios incluidos y otros dos evaluadores verificaron la precisión y la 

integridad de los datos extraídos y completaron los faltantes. 

 
Paso 3: Evaluación de las propiedades psicométricas de los instrumentos 

Cada una de las propiedades psicométricas de los instrumentos se evaluaron en tres pasos 

consecutivos: en el paso 3.1 se hizo la evaluación individual de los resultados de cada 

estudio, en el paso 3.2 se resumieron los resultados de todos los estudios por instrumento 

y en el paso 3.3 se evaluó la calidad de la evidencia sobre las propiedades psicométricas. 

Todas las calificaciones fueron realizadas por dos evaluadores de forma independiente, 

luego las calificaciones de consenso se determinaron mediante discusión entre ellos 

mismos. 

Evaluación individual de resultados por cada estudio (Paso 3.1): Esta evaluación se 

realizó para cada propiedad psicométrica por separado. Los resultados de cada propiedad 

en cada estudio se calificaron como suficientes, insuficientes o indeterminados de acuerdo 

con los criterios ya definidos16.  

Resumen de resultados de todos los estudios por instrumento (Paso 3.2): Los resultados 

de cada propiedad psicométrica de los estudios por cada herramienta se resumieron 

cualitativamente en calificaciones generales de cada propiedad. Según como recomiendan 

Prinsen et al16., para cada propiedad psicométrica por herramienta se dio una puntuación: 

suficiente (+), insuficiente (-), inconsistente (±) o indeterminada (?). Los dos primeros, 

definidos como si el 75% o más de los estudios que reportan la propiedad psicométrica 

son suficientes o insuficientes, respectivamente; inconsistentes si menos del 75% de los 

estudios tienen la misma calificación o indeterminada cuando todos los estudios son 

indeterminados.  


Evaluación de la calidad de la evidencia de propiedades psicométricas (Paso 3.3): La 

calidad de la evidencia de cada propiedad psicométrica de una herramienta se clasificó 

como alta, moderada, baja o muy baja utilizando el sistema Grading of Recommendations 

Assessment, Development and Evaluation (GRADE)16. Básicamente, este sistema parte 

de una calificación alta y de acuerdo a preocupaciones sobre la calidad se van bajando 

uno, dos o tres puntos, para su puntuación se tienen en cuenta diferentes factores: riesgo 

de sesgo, inconsistencia, falta de direccionalidad en las poblaciones objetivo e 

imprecisión, todo esto basado en las recomendaciones COSMIN para este tipo de 

revisiones sistemáticas16. 

 
Paso 4: Selección de instrumentos 

La selección de los instrumentos y las recomendaciones sobre estos se realizaron con base 

en los resultados obtenidos en los dos pasos inmediatamente anteriores. Intentando 

responder a los objetivos de la investigación para determinar los instrumentos de 

medición apropiados para anestesia, se consideraron la validez de contenido, la validez 

de constructo y la consistencia interna como propiedades psicométricas fundamentales 

para la evaluación dado su alto riesgo de sesgo y que son el punto de partida para la 

evaluación del resto de propiedades. De esta manera, según estos resultados se 

clasificaron los diferentes instrumentos en categorías de acuerdo con Mokkink et al.16 en 

categoría A como la más recomendada por su evidencia de alta calidad en validez de 

contenido y al menos evidencia de baja calidad en consistencia interna; en categoría B 

como prometedora, pero que necesita más estudios de validación; y en categoría C como 

no recomendable por evidencia de alta calidad insuficiente. 

El protocolo de la revisión sistemática se registró en PROSPERO (número de serie).  


Resultados  

Búsqueda sistemática de literatura 

La búsqueda bibliográfica arrojó 7.561 referencias entre bases de datos y búsqueda 

manual. Después de eliminar los duplicados, 7.293 estudios procedieron a la selección de 

títulos y resúmenes, de los cuales se seleccionaron para revisión de texto completo 48, de 

estos, 30 estudios y 12 instrumentos fueron incluidos en esta revisión sistemática. El 

proceso de selección de muestra en la figura 1 según lo relacionado con la búsqueda de 

literatura y la selección de estudios (Paso 1.2) según PRISMA19. Se evaluó el acuerdo 

entre evaluadores para la selección de estudios con el estadístico k=, considerado muy 

bueno24.  

 
Caracterización de estudios incluidos 

Se identificaron 12 instrumentos para evaluar a las HNT en Anestesiología en 30 estudios 

incluidos que miden las propiedades de medición de estos instrumentos (Tabla 1). Se 

realizaron 29 estudios en países de altos ingresos, los más comunes fueron Estados 

Unidos [9 estudios (30%)], Canadá [6 estudios (20%)] y Dinamarca [3 estudios (10%)]. 

El idioma inglés configuró más común entre ellos. Los estudios se desarrollaron 

principalmente en un entorno de simulación [20 estudios (67%)] y en la gran mayoría 

solo participaron anestesiólogos o residentes de Anestesiología [20 estudios (67%)] y 11 

estudios examinaron el desempeño de residentes únicamente. Los instrumentos con la 

gran mayor parte de estudios relacionados fueron ANTS [16 estudios (53.3%)], Ottawa 

GRS [4 estudios (13.3%)] y NOTECHS [2 estudios (6.6%)]. 

Las características generales de los estudios psicométricos de los instrumentos de HNT 

incluidos se presentan en el material suplementario 4. 

 
Caracterización de los instrumentos de evaluación 

Las HNT evaluadas fueron relativamente comunes en todos los instrumentos 

encontrados, incluyendo en su mayoría toma de decisiones, consciencia situacional, 

trabajo en equipo, gestión de tareas, liderazgo, comunicación, uso de recursos y 

planificación. Los componentes conceptuales específicos evaluados por cada una de los 

12 instrumentos se describen en la Tabla 2 donde se evidencia gran parte de la 

heterogeneidad encontrada. 

 
Calidad metodológica de los estudios  

La calidad metodológica de los 30 estudios incluidos se evaluó mediante la lista de 

chequeo de riesgo de sesgo de COSMIN23. Para los 30 estudios, en la Tabla 3 se muestra 

una descripción general de todas las calificaciones de calidad metodológica donde solo 

un estudio midió hasta cinco propiedades psicométricas y cinco estudios midieron solo 

una propiedad psicométrica. Algunos estudios incluyeron más de un instrumento. Como 

no se obtuvieron resultados para validez transcultural y error medición en ningún estudio, 

estas propiedades se eliminaron de la tabla. La mayoría de los estudios informó sobre 

confiabilidad [27 estudios (90%)], validez de constructo [16 estudios (53%)] y desarrollo 

de PROM [14 estudios (46.7%)]. Solo un pequeño número de estudios incluyó datos 

psicométricos sobre validez de contenido [4 estudios (13%)], validez de criterio [3 

estudios (10%)] y validez estructural [2 estudios (6.7%)]. Se evaluó el acuerdo entre 

evaluadores para la evaluación de la calidad de los estudios incluidos con el estadístico 

k=, considerado muy bueno24.  

 
Propiedades sicométricas y calidad de la evidencia de los instrumentos (Paso 3) 

Las propiedades de medición evaluadas para cada herramienta se resumen en la Tabla S1.  


Las propiedades de medición de ANTS se evaluaron con mayor frecuencia [16 estudios 

(53%)], se estudiaron tres tipos de confiabilidad: consistencia interna (n= 5), 

confiabilidad interevaluador (n = 15) y confiabilidad intraevaluador (n = 1); tres tipos de 

validez: de contenido (n = 1), criterio (n = 1) y constructo discriminatoria (n = 3), 

convergente (n = 6) y divergente (n = 1), y además, en cuatro estudios se evaluó la 

sensibilidad al cambio.  

Entre los cuatro estudios que evaluaron las propiedades de medición de Ottawa GRS, se 

examinaron cuatro tipos de confiabilidad y cuatro tipos de validez: consistencia interna 

(n = 2), confiabilidad interevaluador (n = 4), confiabilidad intraevaluador (n = 1), 

confiabilidad test-retest (n = 1), de contenido (n = 1), constructo discriminatoria (n = 3), 

constructo convergente (n = 2) y constructo divergente (n = 1). 

La escala NOTECHS se evaluó en dos estudios, dando razón de dos tipos de 

confiabilidad: confiabilidad test-retest e interevaluador, y tres tipos de validez: criterio 

concurrente, criterio predictiva y constructo convergente, cada una de ellas con un 

estudio.  

La confiabilidad, la validez y la sensibilidad al cambio de los instrumentos se evaluaron 

con mayor frecuencia en situaciones de gestión de recursos en escenarios de crisis 

rutinarias en el servicio de Anestesiología, considerando principalmente casos de crisis 

de emergencias rutinarias en quirófano, vía aérea difícil, anestesia general para paciente 

programada para cesárea, choque hemorrágico y arritmias (tabla 1). Adicionalmente, 

como se resume en la Tabla 3, se evidenció que la sensibilidad al cambio solo se evaluó 

para ANTS y NOTECHS. El resto de instrumentos tuvo cada una un estudio encargado 

de evaluar sus propiedades de medición, principalmente consistencia interna, 

confiabilidad interevaluador y validez de constructo.  


La Tabla 4 presenta un resumen las calificaciones generales (Paso 3.2) y la calidad de la 

evidencia (Paso 3.3) para cada propiedad psicométrica por instrumento. Ninguno de los 

instrumentos arrojó resultados para todas las propiedades psicométricas. Además, las 

calificaciones de la calidad de la evidencia se informaron en solo el 40% (39 de 96 

calificaciones posibles) de todas las calificaciones generales sobre la calidad psicométrica 

para los 12 instrumentos, mientras que el resto de la calidad de la evidencia se calificó 

como NR debido a que no se informaron datos psicométricos o los datos disponibles eran 

indeterminados. Los resultados completos de estos pasos se encuentran en la Tabla S2. 

 
Discusión  

Esta revisión sistemática identificó 12 instrumentos para evaluar las HNT en 

anestesiología. En general, la mayoría de instrumentos difería en los componentes 

conceptuales abarcados, a pesar de que algunos eran compartidos, se encontró una amplía 

gama de dimensiones, también difería en las escalas de calificación y la base del sistema 

de calificación. Las propiedades de medición de los instrumentos se estudiaron 

principalmente en entornos simulados, que al comparar con otras revisiones sistemáticas 

hay resultados divergentes11,12, en entornos clínicos. En general, la calidad metodológica 

de los estudios incluidos fue adecuada. Sin embargo, el 75% de los instrumentos 

identificados informaron solo sobre tres o menos propiedades psicométricas de las diez 

bajo revisión. La confiabilidad, la validez y la sensibilidad al cambio de estos 

instrumentos se investigaron en 29, 22 y 5 estudios, respectivamente, que en su mayoría 

involucraron situaciones de gestión de recursos de crisis rutinarias en anestesia.  

 
Es importante contar con un instrumento sólido para la evaluación de HNT en la práctica 

clínica y parece haber más opciones en anestesiología que en cirugía, donde 


principalmente se describen tres, Non Technical Skills for Surgeons (NOTSS), Non 

Technical Skills (NOTECHS) y Observational Teamwork Assessment for Surgery 

(OTAS)25. De los instrumentos aplicables en anestesiología, todos tienen escalas de 

calificación diferentes, por lo que, como es natural con cualquier instrumento, es válido 

preguntarse qué tan valiosa es una calificación numérica por sí sola para brindar 

retroalimentación con el objetivo final de mejorar el desempeño. Esto es cuestionable 

para instrumentos que evalúen las HNT en el desempeño general de un equipo con 

miembros asignados a tareas específicas (anestesia, cirugía, enfermería) porque no queda 

claro el aporte que representa cada miembro, por lo que surge la dificultad de interpretar 

un bajo puntaje global que puede, explicarse por un problema de grupo o de profesión 

individual. Esta dificultad aplica para NOTECHS, T-NOTECHS y MINTS-DR que son 

escalas para el grupo quirúrgico, mientras que ANTS resultaría más adecuada para 

evaluar las HNT en anestesia según las apreciaciones sobre su validez de contenido. 

Para establecer si los puntajes obtenidos a partir de un instrumento son válidos, este se 

debe comparar con una forma de medición previamente existente que haya mostrado ser 

el mejor instrumento disponible para la medición del constructo26, a esto se le conoce 

como validez de criterio (concurrente o predictiva). La validez predictiva  implica probar 

a un grupo para un determinado constructo y luego compararlo con los resultados 

subsiguientes, indicando el grado de certeza con que se pueden predecir algunas 

características medidas a partir del instrumento. Esta propiedad solo se exploró en 

NOTECHS en situaciones cotidianas en quirófano, por lo que, si se pretende comparar el 

desempeño individual en anestesia con la puntuación global del equipo, NOTECHS 

puede ser un instrumento útil al ser el único en cumplir este criterio.  

 
A medida que la evaluación de las decisiones se vuelve cada vez más importante para 

mantener una atención segura y eficaz al paciente4,27, es imperativo identificar el 

instrumento más apropiado basado en la evidencia de medición existente. La 

confiabilidad interevaluador fue la propiedad más estudiada, los valores parecían ser 

aceptables para cada herramienta y el riesgo de sesgos por COSMIN en el 75% de los 

casos se consideró como adecuado a muy bueno, no obstante, la fuente de error de 

medición, no fue abordada por ninguno de los estudios incluidos, luego cuando se aplica 

cada instrumento no se pueden atribuir cambios verdaderos en el constructo de las HNT.  

 
Los resultados soportan el concepto que la mayoría de estudios que evaluaron ANTS, 

Ottawa GRS y los otros instrumentos identificados tenía riesgo de sesgo, aunque los 

valores parecían ser aceptables para esas herramientas, lo cual, resulta similar a lo que 

encontraron Boet et al11 en su revisión sistemática. Al analizar ese riesgo de sesgo, 

resaltamos la alta heterogeneidad en los componentes conceptuales de todos los 

instrumentos asociada a que las propiedades de medición fueron limitadas, además, la 

falta de claridad sobre las pruebas estadísticas para cada propiedad como lo recomienda 

COSMIN18 y sobre la metodología de desarrollo o validación aplicada. Las propiedades 

de medición abarcaron principalmente confiabilidad interevaluador y validez de 

constructo. La escala ANTS, Ottawa GRS y NOTECHS fueron los instrumentos con más 

propiedades de medición en los resultados, entre seis y nueve, con resultados 

ampliamente dispersos. La validez estructural solo se evaluó para dos herramientas, al 

igual que la prueba de hipótesis para validez de constructo divergente, la validez de 

criterio concurrente solo se evaluó para una herramienta y la validez transcultural no se 

evaluó para ninguna herramienta. Con todo esto, se pudo hacer una valoración 

diversificada de manera parcial con respecto a la validez y confiabilidad de las tres 


herramientas anteriormente descritas para establecer recomendaciones de su capacidad 

de precisión en la práctica de la anestesia, sobresaliendo ANTS y Ottawa GRS como las 

más estudiadas, y posiblemente la primera como la herramienta más recomendada, con 

lo que médicos, investigadores y educadores que buscan evaluar las HNT en anestesia 

pueden usar los hallazgos de nuestra revisión sistemática para tomar una decisión 

informada sobre qué instrumento de evaluación elegir, así como pueden considerar cuál 

de estos instrumentos, es el más adecuado para hacer comentarios en entornos clínicos 

reales. Por otro lado, considerando el riesgo de sesgos en la sensibilidad al cambio, no 

está claro si se puede asignar un significado cualitativo a los resultados cuantitativos 

asignados al desempeño por cada instrumento incluido en esta revisión. 

Con base en los resultados globales, se señala la necesidad de disponer de un instrumento 

que cumpla con un proceso de desarrollo con gran fortaleza teórica y demuestre tener los 

componentes de la validez de contenido, deficiencia que se logró demostrar con esta 

revisión sistemática. 

Así como se han diseñado laboratorios de simulación de alta fidelidad para abordaje de 

la vía aérea, reanimación cardiopulmonar y anestesia para pacientes en situaciones o 

poblaciones especiales, estos escenarios deben ir asociados a la implementación activa de 

las HNT, permitiendo que se desarrollen las habilidades esenciales para manejar crisis de 

forma eficaz, y de esta manera, los estudiantes luego de su formación tendrán la capacidad 

de comunicarse asertivamente, tomar decisiones apropiadas y ser líderes, lo que impacta 

en la cadena de errores y mejora los resultados para los pacientes y el sistema, esto en 

relación a que como demostraron Rogers et al.28, donde las deficiencias en HNT 

contribuyeron en el 82% de demandas en actos quirúrgicos. 

 
Las limitaciones de esta revisión sistemática giran en torno a que la mayoría de los 

estudios incluidos tuvieron un alto riesgo de sesgo, lo que representa que cualquier 

evidencia sobre la confiabilidad, validez y sensibilidad de cualquiera de las 12 

herramientas debe interpretarse con cautela. Además, solo Ottawa GRS fue validada al 

castellano en un país de ingresos medios, con adecuada consistencia interna, confiabilidad 

y validez de constructo29, el resto lo fue en países de altos ingresos; por lo tanto, se 

desconoce hasta qué punto la validez y la confiabilidad se mantienen en varios contextos 

culturales e institucionales. Asimismo, solo se incluyeron estudios publicados en inglés y 

en español, entonces, es posible que se hayan excluido algunos hallazgos sobre las 

propiedades psicométricas de los instrumentos publicados en otros idiomas. En último 

lugar, esta revisión no informó sobre las diez propiedades psicométricas de la taxonomía 

COSMIN17 y se dejaron por fuera elementos importantes a la hora de dar 

recomendaciones sobre los instrumentos de medición más apropiados, interpretabilidad 

y factibilidad16, que son importantes, porque en condiciones idóneas, los instrumentos 

deberían ser sencillos en el sentido de tener la menor cantidad de ítems a aplicar para 

representar la totalidad del constructo bajo investigación.  

 
Conclusiones 

Con todo esto, de los instrumentos evaluados, solo ANTS tiene descripción detallada de 

sus propiedades de medición, pero con deficiencias en propiedades fundamentales, que 

limitan la recomendación del instrumento más apropiado. Por tanto, se requiere el 

desarrollo de un instrumento de medición de propiedades psicométricas de HNT en 

anestesiología con gran fortaleza teórica y que cumpla con los componentes de validez de 

contenido. 

 
Contribuciones de los autores 

Todos los autores hicieron contribuciones sustanciales a la concepción y diseño, 

adquisición de datos o análisis e interpretación de datos; redactar el artículo o revisarlo 

críticamente en busca de contenido intelectual importante; aprobación final de la versión 

a publicar. Acordamos ser responsables de todos los aspectos del trabajo, garantizando 

así que las preguntas relacionadas con la precisión o integridad de cualquier parte del 

trabajo se investiguen y resuelvan adecuadamente. 

 
Agradecimientos  

Agradecemos a Jesenia Avendaño Ramírez, por su ayuda en el desarrollo y ejecución de 

las estrategias de búsqueda. 

 
Conflicto de intereses 

Los autores declaran no tener ningún conflicto de intereses.  

 
Financiación 

No contamos con financiación por ningún grupo que se vea implicado en la valoración 

psicometría ni clinimétrica. 

 
Anexo. Material suplementario 

Se puede consultar material suplementario a este artículo en su versión electrónica 

disponible en [link]. 

 
Referencias 

1. Croskerry, P. The importance of cognitive errors in diagnosis and strategies to 
minimize them. Academic Medicine vol. 78 775–780 Preprint at 
https://doi.org/10.1097/00001888-200308000-00003 (2003). 

2. Rosser, W. et al. VOL 5�: MARCH • MARS 2005 d Canadian Family Physician 
• Le Médecin de famille canadien Medical errors in primary care Results of an 
international study of family practice. 5, (2005). 

3. Alvarado-guevara, A. T. & Flores-sandí, G. Revisión Errores médicos. 16–23 
(2009). 

4. Flin, R. & Maran, N. Basic concepts for crew resource management and non-
technical skills. Best Practice and Research: Clinical Anaesthesiology vol. 29 
27–39 Preprint at https://doi.org/10.1016/j.bpa.2015.02.002 (2015). 

5. Flin, R., Patey, R., Glavin, R. & Maran, N. Anaesthetists’ non-technical skills. Br 
J Anaesth 105, 38–44 (2010). 

6. Bland, J. M. & Altman, D. G. Validating scales and indexes. Br Med J 324, 606–
607 (2002). 

7. Fletcher, G. et al. Rating non-technical skills: developing a behavioural marker 
system for use in anaesthesia. Cognition, Technology & Work 6, 165–171 (2004). 

8. Fletcher et al. Final report: the identification and measurement of anaesthetists’ 
non-technical skills. (2001). 

9. Kim, J., Neilipovitz, D., Cardinal, P., Chiu, M. & Clinch, J. A pilot study using 
high-fidelity simulation to formally evaluate performance in the resuscitation of 
critically ill patients: The University of Ottawa Critical Care Medicine, High-
Fidelity Simulation, and Crisis Resource Management I Study. Crit Care Med 
34, 2167–2174 (2006). 

10. Karanicolas, P. J. et al. Evaluating agreement: Conducting a reliability study. 
Journal of Bone and Joint Surgery vol. 91 99–106 Preprint at 
https://doi.org/10.2106/JBJS.H.01624 (2009). 

11. Boet, S. et al. Measuring non-technical skills of anaesthesiologists in the 
operating room: a systematic review of assessment tools and their measurement 
properties. Br J Anaesth 121, 1218–1226 (2018). 

12. Etherington, N. et al. Measuring the teamwork performance of operating room 
teams: a systematic review of assessment tools and their measurement properties. 
J Interprof Care 35, 37–45 (2021). 

13. Jirativanont, T., Raksamani, K., Aroonpruksakul, N., Apidechakul, P. & 
Suraseranivongse, S. Validity of non-technical skills assessment instruments 
Validity evidence of non-technical skills assessment instruments in simulated 
anaesthesia crisis management. Anaesth Intensive Care vol. 45 (2017). 

14. Scholtes, V. A., Terwee, C. B. & Poolman, R. W. What makes a measurement 
instrument valid and reliable? Injury 42, 236–240 (2011). 

15. CAC, P. et al. COSMIN guideline for systematic reviews of patient-reported 
outcome measures. Qual Life Res 27, 1147–1157 (2018). 

16. Prinsen, C. A. C. et al. COSMIN guideline for systematic reviews of patient-
reported outcome measures. Quality of Life Research 27, 1147–1157 (2018). 

17. Mokkink, L. B. et al. The COSMIN study reached international consensus on 
taxonomy, terminology, and definitions of measurement properties for health-
related patient-reported outcomes. J Clin Epidemiol 63, 737–745 (2010). 


18. Terwee, C. B. et al. COSMIN methodology for evaluating the content validity of 
patient-reported outcome measures: a Delphi study. Quality of Life Research vol. 
27 1159–1170 Preprint at https://doi.org/10.1007/s11136-018-1829-0 (2018). 

19. Moher, D. et al. Preferred reporting items for systematic reviews and meta-
analyses: The PRISMA statement. PLoS Medicine vol. 6 Preprint at 
https://doi.org/10.1371/journal.pmed.1000097 (2009). 

20. Mokkink, L. B. et al. The COSMIN checklist for assessing the methodological 
quality of studies on measurement properties of health status measurement 
instruments: An international Delphi study. Quality of Life Research 19, 539–549 
(2010). 

21. Terwee, C. B. Protocol for systematic reviews of measurement properties. 
www.cosmin.nl (2011). 

22. Terwee, C. B., Jansma, E. P., Riphagen, I. I. & De Vet, H. C. W. Development of 
a methodological PubMed search filter for finding studies on measurement 
properties of measurement instruments. Quality of Life Research 18, 1115–1123 
(2009). 

23. Mokkink, L. B. COSMIN Risk of Bias checklist [PDF File]. 1–37 (2018). 
24. Graham’, P. & Jackson, R. THE ANALYSIS OF ORDINAL AGREEMENT 

BEYOND WEIGHTED KAPPA DATA. J clin Epidem&l vol. 46 (1993). 
25. Sharma, B., Mishra, A., Aggarwal, R. & Grantcharov, T. P. Non-technical skills 

assessment in surgery. Surgical Oncology vol. 20 169–177 Preprint at 
https://doi.org/10.1016/j.suronc.2010.10.001 (2011). 

26. Alejandro Lamprea, J. M. & Gómez-Restrepo, C. Metodología de investigación y 
lectura crítica de estudios. 

27. Jeffcott, S. A. & Mackenzie, C. F. Measuring team performance in healthcare: 
Review of research and implications for patient safety. J Crit Care 23, 188–196 
(2008). 

28. Rogers, S. O. et al. Analysis of surgical errors in closed malpractice claims at 4 
liability insurers. Surgery 140, 25–33 (2006). 

29. Zamudio Burbano, M. A., González Giraldo, D., López Agudelo, L. D. & Casas 
Arroyave, F. D. Validation in spanish of the Ottawa scale for non-techical skills 
in health personnel in crisis situations. Rev Esp Anestesiol Reanim 68, 523–530 
(2021). 

30. Fletcher, G. et al. Anaesthetists’ non-technical skills (ANTS): Evaluation of a 
behavioural marker system. Br J Anaesth 90, 580–588 (2003). 

31. Yee, B. et al. Nontechnical Skills in Anesthesia Crisis Management with 
Repeated Exposure to Simulation-based Education. Anesthesiology vol. 103 
http://pubs.asahq.org/anesthesiology/article-pdf/103/2/241/359087/0000542-
200508000-00006.pdf (2005). 

32. Graham, J., Hocking, G. & Giles, E. Anaesthesia Non-Technical Skills: Can 
anaesthetists be trained to reliably use this behavioural marker system in 1 day? 
Br J Anaesth 104, 440–445 (2010). 

33. Mudumbai, S. C., Gaba, D. M., Boulet, J. R., Howard, S. K. & Davies, M. F. 
External validation of simulation-based assessments with other performance 
measures of third-year anesthesiology residents. Simulation in Healthcare 7, 73–
80 (2012). 

34. Phitayakorn, R. et al. Practicality of intraoperative teamwork assessments. 
Journal of Surgical Research 190, 22–28 (2014). 


35. Balki, M., Chakravarty, S., Salman, A. & Wax, R. S. Effectiveness of using high-
fidelity simulation to teach the management of general anesthesia for Cesarean 
delivery. Canadian Journal of Anesthesia 61, 922–934 (2014). 

36. Gjeraa, K., Jepsen, R. M. H. G., Rewers, M., Østergaard, D. & Dieckmann, P. 
Exploring the relationship between anaesthesiologists’ non-technical and 
technical skills. Acta Anaesthesiol Scand 60, 36–47 (2016). 

37. Jepsen, R. M. H. G., Spanager, L., Lyk-Jensen, H. T., Dieckmann, P. & 
Østergaard, D. Customisation of an instrument to assess anaesthesiologists’ non-
technical skills. Int J Med Educ 6, 17–25 (2015). 

38. Phitayakorn, R., Minehart, R. D., Hemingway, M. W., Pian-Smith, M. C. M. & 
Petrusa, E. The relationship between intraoperative teamwork and management 
skills in patient care. in Surgery (United States) vol. 158 1434–1440 (Mosby Inc., 
2015). 

39. Doleman, B. et al. Anaesthetists stress is induced by patient ASA grade and may 
impair non-technical skills during intubation. Acta Anaesthesiol Scand 60, 910–
916 (2016). 

40. Jepsen, R. M. H. G. et al. Evaluating structured assessment of anaesthesiologists’ 
non-technical skills. Acta Anaesthesiol Scand 60, 756–766 (2016). 

41. Zwaan, L. et al. The reliability and usability of the Anesthesiologists’ Non-
Technical Skills (ANTS) system in simulation research. Advances in Simulation 
1, (2016). 

42. Cole, D. C., Giordano, C. R., Vasilopoulos, T. & Fahy, B. G. Resident Physicians 
Improve Nontechnical Skills When on Operating Room Management and 
Leadership Rotation. Anesth Analg 124, 300–307 (2017). 

43. Watkins, S. C., Roberts, D. A., Boulet, J. R., Mcevoy, M. D. & Weinger, M. B. 
Evaluation of a simpler tool to assess nontechnical skills during simulated critical 
events. Simulation in Healthcare 12, 69–75 (2017). 

44. Moll-Khosrawi, P. et al. Anaesthesiology students’ Non-Technical skills: 
Development and evaluation of a behavioural marker system for students (AS-
NTS). BMC Med Educ 19, (2019). 

45. Crossingham, G. V., Sice, P. J. A., Roberts, M. J., Lam, W. H. & Gale, T. C. E. 
Development of workplace-based assessments of non-technical skills in 
anaesthesia. Anaesthesia 67, 158–164 (2012). 

46. Kim, J., Neilipovitz, D., Cardinal, P., Chiu, M. & Clinch, J. A pilot study using 
high-fidelity simulation to formally evaluate performance in the resuscitation of 
critically ill patients: The University of Ottawa Critical Care Medicine, High-
Fidelity Simulation, and Crisis Resource Management I Study. Crit Care Med 
34, 2167–2174 (2006). 

47. Lockyer, J. M., Violato, C. & Fidler, H. A multi source feedback program for 
anesthesiologists [Un programme de rétroaction multisources pour les 
anesthésiologistes]. 

48. Mcneer, R. R., Dudaryk, R., Nedeff, N. B. & Bennett, C. L. Development and 
Testing of Screen-Based and Psychometric Instruments for Assessing Resident 
Performance in an Operating Room Simulator. Anesthesiol Res Pract 2016, 
(2016). 

49. Mishra, A., Catchpole, K. & Mcculloch, P. The Oxford NOTECHS system: 
reliability and validity of a tool for measuring teamwork behaviour In the 
operating theatre. Qual Saf Health Care 18, 104–108 (2009). 

50. Robertson, E. R. et al. Oxford NOTECHS II: A modified theatre team non-
technical skills scoring system. PLoS One 9, (2014). 


51. van Maarseveen, O. E. C., Ham, W. H. W., Huijsmans, R. L. N., Dolmans, R. G. 
F. & Leenen, L. P. H. Reliability of the assessment of non-technical skills by 
using video-recorded trauma resuscitations. European Journal of Trauma and 
Emergency Surgery 48, 441–447 (2022). 

52. Meng, L., Metro, D. G. & Patel, R. M. Evaluating Professionalism and 
Interpersonal and Communication Skills: Implementing a 360-Degree Evaluation 
Instrument in an Anesthesiology Residency Program. J Grad Med Educ 1, 216–
220 (2009). 

53. Toy, S., Daly Guris, R. J., Duarte, S. S. & Dwivedi, P. Development of a scale to 
measure intrapersonal factors influencing speaking up in the operating room. 
Perspect Med Educ 8, 253–260 (2019). 

54. Bracco, F. et al. Adaptation of non-technical skills behavioural markers for 
delivery room simulation. BMC Pregnancy Childbirth 17, (2017). 

  
In
cl

ui
do

s 
E

le
g
ib

il
id

a
d
 

Ta
m

iz
ac

ió
n 

Id
en

tif
ic

ac
ió

n Registros identificados mediante 

búsquedas en bases de datos= 7561 

Registros adicionales identificados 

a través de otras fuentes= 0 

Registros después de eliminar los duplicados n= 7184 

Registros de títulos y 

resúmenes tamizados= 

7184 

Registros de texto 

completo evaluados para 

elegibilidad= 48 

Registros excluidos= 7136 

• No evaluaron psicometría  
• No evaluaron HNT 
• Idiomas de exclusión 
• No aplicados en Anestesiología 

Registros de texto completo 

excluidos= 18 

• Evaluación de HT y HNT= 6 
• No propiedades psicométricas= 

5 
• No propiedades de medición= 1 
• Evaluación docente= 2 
• Selección de residentes en 

entrevistas= 2 
• Estudios secundarios tipo 

revisión sistemática= 2 
 

Número total de estudios 

incluidos= 30 

Figura 2. Diagrama de flujo PRISMA.  

PRISMA, Preferred Reporting Items for Systematic Reviews 

and Meta-Analyses. 

* HNT: Habilidades no técnicas * HT: Habilidades técnicas  

 
Tabla 1. Características de los estudios incluidos que evaluaron las propiedades psicométricas de instrumentos para la evaluación de Habilidades no técnicas 
del personal médico en Anestesiología 
 

Autor, año Diseño del estudio País (idioma) Participantes Contexto 
Instrumento: Anaesthetists’ Non-Technical Skills (ANTS) 
Fletcher, 2003 Desarrollo y validación  de instrumento Escocia (Inglés) Anestesiólogos Simulación 
Yee, 2005 Validación de instrumento Canadá (Inglés) Residentes de anestesiología Simulación 
Graham, 2010 Validación de instrumento Australia (Inglés) Anestesiólogos Clínico 
Morgan., 2011 Ensayo clínico aleatorizado Canadá (Inglés) Anestesiólogos Simulación 
Mudumbai., 2011 Validación de instrumento  Estados Unidos (Inglés) Residentes de anestesiología Simulación 
Phitayakorn., 2014 Transversal Estados Unidos (Inglés) Equipo de quirófano (residentes de anestesiología) Simulación 
Balki, 2014 Cohorte prospectiva Canadá (Inglés)  Residentes de anestesiología Simulación 
Gjeraa., 2015 Métodos mixtos Dinamarca (Danés) Residentes de anestesiología Simulación 
Jepsen, 2015 Cualitativo exploratorio  Dinamarca (Danés) Anestesiólogos  Clínico 
Phitayakorn., 2015 Transversal Estados Unidos (Inglés) Equipo de quirófano (residentes de anestesiología) Simulación 
Doleman, 2016 Transversal  Reino Unido (Inglés) Anestesiólogos Clínico 
Jepsen, 2016 Transversal  Dinamarca (Danés) Anestesiólogos Simulación 
Zwaan, 2016 Ensayo clínico aleatorizado cruzado Holanda (Inglés) Anestesiólogos y residentes de anestesiología Simulación 
Cole, 2017 Cohorte Estados Unidos (Inglés) Residentes de anestesiología Clínico 
Jirativanont, 2017* Validación de instrumento Tailandia (Tailandés) Residentes de anestesiología Simulación 
Watkins., 2017 Validación de instrumento Estados Unidos (Inglés) Residentes de anestesiología y estudiantes de enfermería 

anestesistas 
Simulación 

Instrumento: Anaesthesiology Students’ Non-Technical Skills (AS-NTS) 
Moll-Khosrawi, 2019 Desarrollo de instrumento Alemania (Alemán) Estudiantes del pregrado de medicina en anestesiología Simulación 
Instrumento: Workplace-based assessments of non-technical skills in anaesthesia (WBANTS) 
Crossingham, 2012 Estudio de desarrollo de instrumento Reino Unido (Inglés)  Residentes de anestesiología Clínico  
Instrumento: Ottawa CRM (Crisis resource management) 
Kim, 2006 Estudio de desarrollo de instrumento  Canadá (Inglés)  Residentes de áreas clínicas y quirúrgicas Simulación 
Kim, 2009 Estudio de validación de instrumento Canadá (Inglés)  Residentes de áreas clínicas y quirúrgicas Simulación 
Jirativanont, 2017 * Estudio de validación de instrumento Tailandia (Tailandés) Residentes de anestesiología Simulación 
Zamudio, 2021 Estudio de adaptación cultural y validación de instrumento Colombia (Español) Internos, médicos generales y residentes de anestesiología Simulación 
Instrumento: Multi source feedback (MSF) system program for anesthesiologists 
Lockyer, 2006 Estudio de desarrollo y validación de instrumento Canadá (Inglés) Anestesiólogos Clínico 
Instrumento: Global Rating Scale - Crisis Management Checklist 
Mcneer, 2016 Estudio de desarrollo y validación de instrumento en el marco de desarrollo de un simulador Estados Unidos (Inglés) Residentes de anestesiología Simulación 
Instrumento: The Oxford Non-Technical Skills (NOTECHS) 
Mishra, 2009 Estudio de desarrollo y validación de instrumento Reino Unido (Inglés) Grupo quirúrgico (anestesiólogo) Clínico 
Robertson, 2014 Estudio de desarrollo y validación de instrumento Australia (Inglés) Grupo quirúrgico (anestesiólogos) Clínico 
Instrumento: Trauma Non-Technical Skills (T-NOTECHS) 
Maarseveen, 2020 Estudio transversal  Holanda (Inglés) Grupo de trauma (anestesiólogo) Clínico 
Instrumento: Evaluación de 360 grados para la rotación de la Unidad de Cuidados Posanestésicos (UCPA) 
Meng, 2009 Estudio transversal  Estados Unidos (Inglés) Residentes de anestesiología Clínico 
Instrumento: Intrapersonal Factors Scale for speaking-up in the Operating Room (IPFS) 
Toy, 2019 Estudio de desarrollo y validación de instrumento  Estados Unidos (Inglés) Residentes de anestesiología y anestesiólogos Hipotético 
Instrumento: Multi-professional Inventory for Non-Technical Skills in the Delivery Room: MINTS-DR 
Bracco, 2017 Estudio observacional Italia (Italiano) Grupo de sala de partos (anestesiólogo) Simulación 
Instrumento: Proceso Delphi de dominios conductuales 
Blum, 2014 Estudio observacional prospectivo Estados unidos (Inglés) Residentes de anestesiología Simulación 

 
* Evalúo tanto ANTS y Ottawa 
 

Tabla 2. Componentes conceptuales de las herramientas que evalúan las propiedades de medición de habilidades no técnicas para Anestesiología (n = 12). 
 

Componente conceptual 

Herramienta de evaluación 
ANTS Ottawa NOTECHS WBANTS MSF system program for 

anesthesiologists 
GRS - 
CMC 

T-
NOTECHS 

AS-
NTS 

Evaluación de 360 grados para la 
rotación de la Unidad de Cuidados 

Posanestésicos 

IPFS MINTS-
DR 

Proceso Delphi de 
dominios conductuales 

Autoeficacia          ✓   
Asertividad          ✓   
Colaboración      ✓        
Cooperación   ✓    ✓    ✓  
Compañerismo     ✓        
Comunicación   ✓ ✓ ✓ ✓  ✓  ✓  ✓ ✓ 
Consciencia situacional ✓ ✓ ✓   ✓ ✓    ✓  
Desarrollo profesional 
continuo 

    ✓        

Detección de cambio de 
estado 

     ✓       

Empatía y sensibilidad    ✓         
Expectativa de resultados          ✓   
Gestión de tareas ✓       ✓   ✓  
Habilidades interpersonales         ✓   ✓ 
Identificación de formas 
para mejorar el rendimiento 

           ✓ 

Liderazgo ✓ ✓ ✓    ✓ ✓   ✓  
Orientación del equipo        ✓     
Organización y planeación    ✓    ✓     
Plan de implementación 
según cambios 

           ✓ 

Percepción sobre resolución 
de crisis 

     ✓       

Profesionalismo     ✓    ✓    
Reconocimiento de límites            ✓ 
Resolución de problemas  ✓      ✓     
Síntesis de información            ✓ 
Toma de decisiones ✓  ✓    ✓    ✓  
Trabajo en equipo ✓       ✓   ✓  
Trabajo bajo presión   ✓ ✓   ✓      
Uso de recursos  ✓ ✓   ✓ ✓      


Tabla 3. Evaluación de la calidad metodológica de los estudios sobre las propiedades psicométricas de los instrumentos incluidos 
* Evalúo ANTS y Ottawa 
NA: No aplica; NR: No reportado 
ª El primer resultado corresponde a inter-evaluador y la segunda a test-retest 
 

 Propiedades psicométricas 

Referencias, año Desarrollo PROM Validez de contenido Validez estructural Consistencia interna Confiabilidad Validez de criterio Validez de constructo Sensibilidad al cambio 

Instrumento: Anaesthetists’ Non-Technical Skills (ANTS) 

Fletcher et al., 2003 Inadecuado Adecuado NA Dudoso Muy bueno Inadecuado NA NA 
Yee et al., 2005 NR NR NR NR Adecuado NR Dudoso Muy bueno 
Graham et al., 2010 NR NR NR Muy bueno Muy bueno NR NR NA 

Morgan et al., 2011 NR NR NR NR Adecuado NR NR Adecuado 
Mudumbai et al., 2011 NR NR NR NR Dudoso NR Inadecuado NR 
Phitayakorn et al., 2014 NR NR NR NR Muy bueno NR NR NA 
Balki et al., 2014 NR NR NR NR Muy bueno NR Dudoso Dudoso 
Gjeraa et al., 2015 NR NR NR NR Muy bueno NR Inadecuado NR 
Jepsen et al., 2015 Muy bueno NA NA NR NA NA NA NA 
Phitayakorn et al., 2015 NR NR NR NR Muy bueno NR Muy bueno NR 
Doleman et al., 2016 NR NR NR NR Adecuado NR Muy bueno NA 
Jepsen et al., 2016 NA Inadecuado NA Inadecuado Muy bueno NA NA NA 
Zwaan et al., 2016 NR NR NR NR Muy bueno NR NR NA 
Cole et al., 2017 NR NR NR Inadecuado Dudoso NR NR Adecuado 
Jirativanont et al., 2017 NR NR NR Inadecuado Muy bueno NR Dudoso NR 
Watkins et al., 2017 NR NR NR NR Dudoso NR Dudoso NA 
Instrumento: Anaesthesiology Students’ Non-Technical Skills (AS-NTS) 
Moll-Khosrawi et al., 2019 Adecuado Dudoso NR NR Muy bueno NR NR NA 
Instrumento: Workplace-based assessments of non-technical skills in anaesthesia (WBANTS) 
Crossingham et al., 2012 Inadecuado NR NR NR Inadecuado NR NR NA 
Instrumento: Ottawa CRM (Crisis resource management) 
Kim et al., 2006 Inadecuado NR NR Inadecuado Muy bueno NR Muy bueno NR 
Kim et al., 2009 Inadecuado Dudoso NR NR Muy bueno NR Muy bueno NA 
Jirativanont et al., 2017 * NR NR NR Inadecuado Muy bueno NR Dudoso NR 
Zamudio Burbano et al., 2021 NR NR NR Inadecuado Adecuado NR Muy bueno NA 
Instrumento: Multi source feedback (MSF) system program for anesthesiologists 
Lockyer et al., 2006 Inadecuado NR Adecuado Muy bueno NR NR NR NA 
Instrumento: Global Rating Scale - Crisis Management Checklist 
Mcneer et al., 2016 Inadecuado NR NR Dudoso Muy bueno NR Inadecuado NA 
Instrumento: The Oxford Non-Technical Skills (NOTECHS) 
Mishra et al., 2009 Inadecuado NR NR NR Adecuado/Inadecuadoª Muy bueno Dudoso Adecuado 


Robertson et al., 2014 Inadecuado NR NR NR Adecuado Muy bueno NR NA 
Instrumento: Trauma Non-Technical Skills (T-NOTECHS) 
Maarseveen et al., 2020 NR NR NR NR Muy bueno NR NR NA 
Instrumento: Evaluación de 360 grados para la rotación de la Unidad de Cuidados Posanestésicos (UCPA) 
Meng et al., 2009 Inadecuado NR NR NR Inadecuado NR NR NA 
Instrumento: Intrapersonal Factors Scale for speaking-up in the Operating Room (IPFS) 
Toy et al., 2019 Inadecuado NR Inadecuado Muy bueno NR NR Dudoso NA 
Instrumento: Multi-professional Inventory for Non-Technical Skills in the Delivery Room: MINTS-DR 
Bracco et al., 2017 Inadecuado NR NR NR NR NR NR NR 
Instrumento: Proceso Delphi de dominios conductuales 
Blum et al., 2014 Inadecuado NR NR NR Dudoso NR Dudoso NR 

 
Tabla 4. Resumen de la evidencia sobre las propiedades psicométricas de los instrumentos que evalúan las habilidades no técnicas para Anestesiología. 
 

 Propiedades psicométricas 
Instrumentos Desarrollo 

PROM 
Validez de 
contenido 

Validez 
estructural 

Consistencia 
interna 

Confiabilidad Validez de 
criterio 

Validez de 
constructo 

Sensibilidad al 
cambio 

ANTS ⊕⊕⊕⊕ ⊕⊕⊕⊝ NR ⊕⊝⊝⊝ ⊕⊕⊕⊕ NR ⊕⊕⊕⊕ ⊕⊕⊕⊕ 
AS - ANTS ⊕⊕⊕⊝ ⊕⊕⊝⊝ NR NR ⊕⊕⊕⊕ NR NR NR 
WB - ANTS ⊕⊝⊝⊝ NR NR NR ⊕⊝⊝⊝ NR NR NR 
GRS Ottawa ⊕⊝⊝⊝ ⊕⊕⊝⊝ NR ⊕⊝⊝⊝ ⊕⊕⊕⊕ NR ⊕⊕⊕⊕ NR 

CMC Ottawa  ⊕⊝⊝⊝ NR NR ⊕⊕⊝⊝ ⊕⊕⊕⊕ NR ⊕⊝⊝⊝ NA 
MSF ⊕⊝⊝⊝ NR ⊕⊕⊕⊝ ⊕⊕⊕⊕ NR NR NR NR 
Notechs  ⊕⊝⊝⊝ NR NR NR ⊕⊕⊕⊝ ⊕⊕⊕⊕ ⊕⊕⊝⊝ ⊕⊕⊕⊝ 
T-Notechs NR NR NR NR ⊕⊕⊕⊕ NR NR NR 
E 360 ⊕⊝⊝⊝ NR NR NR ⊕⊝⊝⊝ NR NR NA 
IPFS ⊕⊝⊝⊝ NR ⊕⊝⊝⊝ ⊕⊕⊕⊕ NR NR ⊕⊕⊝⊝ NA 
Mints-Dr ⊕⊝⊝⊝ NR NR NR NR NR NR NR 
Behavioral domains ⊕⊝⊝⊝ NR NR NR ⊕⊕⊝⊝ NR ⊕⊕⊝⊝ NR 

 
Muy Baja Calidad   ⊕⊝⊝⊝ 
Baja Calidad           ⊕⊕⊝⊝  
Moderada Calidad   ⊕⊕⊕⊝ 
Alta Calidad               ⊕⊕⊕⊕