Presentación Prepona • Verticales

¿Qué hace de Prepona una solución confiable, flexible y completa?

Lo invitamos a leer descripciones detalladas de nuestra plataforma en tres de sus verticales más importantes: Tipos de Prueba, Configuración de su Propio Organismo Certificador y Teoría de Respuesta al Íten y Análisis de Distractores. Disfrute y no dude en contactarnos para obtener más información.

Tipos de Prueba

Proporción Correcta

Para ser justos, un organismo de certificación debe utilizar la misma "regla" para medir los diferentes niveles de conocimiento en un grupo de personas; entonces, la coherencia y coherencia de la regla es un factor importante. También puede utilizar la misma regla a lo largo del tiempo (durante años en el caso de la certificación). Y en este caso, la cuestión de la calidad de esta regla se vuelve muy importante, porque tiene que tener una consistencia más allá de un momento puntual. Es por eso que Prepona® se dedica exclusivamente a la calidad en el montaje y aplicación de pruebas digitales a distancia. Y por la misma razón, dedica tiempo y tiene un gran compromiso en cada proceso de calibración (ver nuestro servicio de Análisis Estadístico y TRI). Entre las modalidades de las pruebas de opción múltiple ofrecidas, la proporción correcta es:

Opción Múltiple Tradicional

La aplicación de pruebas de opción múltiple, proporción correcta, es la modalidad más común en el campo de las pruebas y cumple con los requisitos de muchos clientes. El cliente establece el número de aciertos necesarios para que un candidato sea aprobado y la interpretación del resultado se basa simplemente en ese requisito. Esta modalidad se utiliza cuando no hay suficientes datos para calibrar los puntos. Por lo tanto, es utilizado por Prepona® más en el montaje y aplicación de pruebas de simulación, cuyo propósito es la calibración de los ítems a utilizar en un examen de certificación (ver nuestro servicio de pruebas de simulación).

Elección múltiple con valores psicométricos similares (Ítems calibrados)

Esta versión de la prueba de opción múltiple, proporción correcta, tiene varias ventajas porque, desde un gran banco de artículos calibrados, y de acuerdo con los parámetros establecidos con el cliente, podemos generar millones de combinaciones de pruebas con valores y condiciones psicométricas similares. Este proceso permite que la aplicación del examen se realice los 365 días del año y, al mismo tiempo, ayuda a preservar su integridad: la evidencia contiene diferentes puntos, reduciendo así el fraude. Además, los bancos de ítems con valores psicométricos similares ayudan a mantener la misma dificultad entre una prueba y la otra, ofreciendo una evaluación más justa a los candidatos.

Elección múltiple dividida por módulos, temas y/o subtemas (con ítems calibrados)

Esta versión también permite el montaje de pruebas que evalúan el grado de conocimiento en varias áreas distintas en una sola prueba, sin dañar la generación de resultados. Prepona® proporcionará datos estadísticos al cliente que nos permitirán identificar en qué áreas el candidato es fuerte o débil. Esta opción es utilizada por uno de los programas de certificación más grandes de Brasil.

Prueba Adaptativa de Computadora - Computer Adaptive Test (CAT)

Esta modalidad de prueba es muy recomendable para la evaluación de un área de conocimiento debido a la alta precisión del resultado y el grado de fiabilidad en la medición consecuente del nivel al que una persona se posiciona. Es por eso que es la opción preferida de la mayoría de las organizaciones de certificación más respetadas en todo el mundo.

El hecho de que el candidato se ocupe de un pequeño número de preguntas obviamente permite una reducción significativa en la duración de la prueba, y, trae un beneficio considerable: cuando está respondiendo a las preguntas más relevantes a su nivel de conocimiento, su grado de concentración es máxima, mejorando la calidad de la información que proporciona la evaluación y, en consecuencia, mejorando la calidad de la decisión que se tomará en función del resultado del ensayo.

El programa de pruebas interpreta estos datos para hacer una evaluación dinámica del candidato (según sus respuestas) y dentro de 5 a 6 preguntas respondidas ya está ofreciendo preguntas cercanas al nivel de conocimiento del candidato, eligiendo siempre los elementos de la que mejor describen ese grado de dificultad. Tan pronto como las respuestas dadas comienzan a ajustarse a las probabilidades preestablecidas de respuestas correctas para una persona en ese grado de dificultad, la evaluación se cierra. En la práctica, esto significa que la nivelación precisa se produce con aproximadamente 40 preguntas.

Otro beneficio de este sistema se refiere a la seguridad. El contenido de la prueba no se repite de un candidato a otro a menos que una persona reciba una serie inicial de preguntas idénticas y, quién responde de manera idéntica, lo que no sería imposible, pero muy poco probable estadísticamente.

Por último, la aplicación de pruebas CAT permite la calibración de nuevos ítems para ser utilizados en futuras pruebas. Es decir, sin darse cuenta, los candidatos responden a un cierto número de artículos que no están incluidos en la generación de su nivel de conocimiento. Este proceso de calibración con el público objetivo aporta muchos beneficios a los clientes de Prepona®.

En resumen, el modo CAT ofrece parámetros de la mejor calidad posible en términos de precisión del resultado, consistencia e integridad, además de reducir la posibilidad de fraude. La prueba CAT también reduce el nivel de estrés del candidato, que siempre debe ser un factor importante para cualquier organismo de certificación que busque calidad en su programa.

Configuración de su Propio Organismo Certificador

Preceptos

Ya existe toda la orientación necesaria para crear un organismo de certificación, y esta orientación es tan valiosa como realista en el sentido de que el “sentido común” impregna la norma ABNT/ISO 17024 y sus preceptos de razonabilidad:

imparcialidad
competencia
responsabilidad
transparencia
confidencialidad
velocidad al responder a quejas o apelaciones

Pero sería bueno comenzar con lo que en Prepona® entendemos por la frase ‘certificación de personas’:

“La medición periódica de los conocimientos o habilidades que demuestran su actualización.”

La periodicidad de la certificación o recertificación de personas puede depender del campo de actividad, y los dos programas de certificación más grandes del mundo – Tecnología de Informática y Enfermería- demuestran esta diferencia.

La certificación en la industria de TI es correcta, de acuerdo con conocimientos muy específicos y las pruebas tienen la validez que refleja todo esto. Es decir, se puede certificar en Office 2003, o en Office 2007, por ejemplo. Este tipo de certificación refleja el producto que no cambia: Office 2007 se considera un producto distinto de Office 2003. Pero además de este hecho, Microsoft todavía aplica una validez. En enfermería, el enfoque se centra en el cambio/progreso en la tecnología y en las prácticas en un área determinada. Por ejemplo, una enfermera especializada en cardiología en Inglaterra tiene que someterse al proceso de certificación cada dos años, porque "las cosas cambian" rápidamente. En general, sin embargo, la validez de un examen de certificación es de entre 4 y 5 años.

De cualquier manera, los organismos de certificación que se adhieren a los preceptos de la Norma ISO 17024 ofrecen sus exámenes a todos.

***“Garantizar la buena gobernanza, evitando conflictos de intereses.”***

- Otro objetivo importante para un Organismo de Certificación (OC)

Estructura correcta

La estructura y la base documental de un organismo de certificación son de suma importancia.

El organismo de certificación debe tener su independencia e integridad reconocidas por todos. En ausencia de un marco reglamentario, tal vez la mejor manera de lograr la independencia es con una decisión del directorio o consejo de administración que dé "su bendición". Es decir, el reconocimiento de la junta o consejo sentará todas las bases que su organismo de certificación necesita. Con esto en las manos, la estructura esencial a ensamblar consta de:

Comité de Certificación
Subcomités de Certificación (si hay más de un área de certificación)
Comité de Apelaciones

El Comité de Certificación tiene que ser el "poder" en este proceso y debe ser independiente de las presiones de otras áreas del banco. Está a cargo, pero tiene que enviarlo de una manera responsable y transparente, evitando conflictos de intereses, nada más nada menos que un buen gobierno.

Es el Comité de Certificación el que contratará los contenidos y los socios tecnológicos (como Prepona®) y de la logística de la red de centros de exámenes. El comité debe cobrar la calidad y la integridad (contra el fraude) de todos sus socios, garantizando siempre la calidad en el servicio prestado a los candidatos.

Se recomienda crear subcomités (uno para cada certificación), dejando así que el Comité de Certificación actúe como el poder ejecutivo. También debe estar listo para tomar medidas en el Comité de Apelaciones. La certificación es algo serio, y los solicitantes tienen que tener todos sus derechos protegidos. Por lo tanto, se debe poner a disposición toda la estructura formal de recursos.

Documentos Necesarios

Además de la estructura, los documentos esenciales para un Organismo de Certificación son:

Reglamento (en algunos casos también el marco reglamentario)
Manual de Aplicación
Código de Conducta
Manual de Uso del Sello, o Marca comercial, de Certificación

Según la Norma ISO 17024, un organismo de certificación (OC) debe tener sus reglas totalmente explícitas.

El Reglamento es el documento principal de un OC, ya que contiene todas las normas, no sólo del juego sino de la liga en su conjunto. Debe mostrar los derechos y obligaciones de cada uno. Por lo general, es apropiado incluir, como parte de este documento, el Código de Conducta (véase más adelante). Al inscribirse en el programa de certificación, una persona debe cumplir con los términos de este documento (que se puede hacer electrónicamente dentro de su proprio sistema).

El Manual de Candidatura explica las reglas del juego; es decir, se aplica a cada certificación. De hecho, menos del 10% de este manual cambia de una certificación a otra. Este manual trata sobre la bibliografía (base de los conocimientos a evaluar) para el comportamiento del candidato en los centros de pruebas y lo que puede utilizar y no utilizar al tomar el examen (por ejemplo, calculadora financiera HP permitida, teléfono celular, no, etc.). Al programar su examen, una persona debe cumplir con los términos de este documento (que se puede hacer electrónicamente dentro de su proprio sistema).

El Código de Conducta debe presentarse dos veces en el proceso porque, antes de aprobar el examen, la persona es un "candidato" y luego se convierte en una "persona certificada". La primera vez, suele ser cuando se registra, por lo que a menudo forma parte del Reglamento. La segunda vez que una persona se une, es después de recibir la maravillosa noticia que ha sido aprobada y quiere recibir su certificación. Las dos identidades son ligeramente diferentes.

El Manual de uso de la marca o sello de certificación contiene las reglas sobre cómo usar la insignia (como una firma en sus correos electrónicos, en su tarjeta de visita, etc.), además de las instrucciones para imprimir.

Quedan dos documentos importantes: el Certificado en sí y la Política de Portavoz.

El papel es una de las cosas más fáciles de falsificar ¿Cuántos diplomas falsos hay? Muchos. Por lo tanto, los organismos de certificación normalmente requieren que se verifique la veracidad de un certificado en su sitio web. Podemos ayudar en crear una "vitrina" para cada persona que puede utilizarlo para mostrar su Certificado (versión digital).

Si desea emitir certificados en papel, deben contener el soporte necesario para la protección de la integridad de su propio organismo de certificación.

Un OC tiene otro documento que, al igual que el Código de Conducta, se aplica a todos los involucrados (ejecutivos, empleados, empleados, socios, candidatos, personas certificadas, etc.). Este documento se llama Política de Portavoces.

Por último, hay tres documentos que son importantes a nivel operativo, que son:

1. Plazo de Orientación (firmado por el candidato en el CT)

2. Términos de confidencialidad (firmado por todos los socios)

3. Manual de Orientación (para Centros de Pruebas)

El Formulario de Orientación debe ser firmado por el solicitante y el fiscal en el momento en que el candidato se presenta para tomar su examen de certificación. Entre otras cosas, sirve como un documento que confirma la presencia de la persona para fines de auditoría.

Los Términos de Confidencialidad son documentos generalmente firmados por el Comité de Certificación y sus socios (contenido, tecnología y logística) e incluso entre ellos. Por ejemplo, Prepona firmará un acuerdo de confidencialidad con los creadores de contenidos (contenidistas).

El Manual de Orientación existe para proporcionar a los centros de pruebas orientación sobre cada examen o conjunto de exámenes para ese organismo de certificación.

Al celebrar el contrato con sus clientes, Prepona® ofrece toda la ayuda necesaria para establecer la estructura y base documental que cumple con los requisitos de la Norma ISO 17024. Las plantillas de todos los documentos se proporcionan de forma gratuita, permitiendo así agilidad en el proceso de formación, además de representar un gran ahorro en términos de honorarios de abogado y consultoría.

Procesos y Procedimientos

Debido a que los procesos y procedimientos de los sistemas de Prepona® ya cumplen con los requisitos más estrictos (incluso ISO/IEC 23988), basta que un organismo de certificación implemente algunos de los procesos y procedimientos de calidad de la Norma ISO 9001:2008 para poder someterse al proceso de acreditación, obteniendo así el sello de reconocimiento de la Norma ISO 17024.

Teoría de Respuesta al Ítem Y Análisis de Distractores

The Importance of Ensuring Assessment Quality in People Certification Processes

En los procesos de certificación de personas, que implican la evaluación de los conocimientos a gran escala, y que por su definición duran años, es esencial garantizar la calidad de estos procesos; es decir, cualquier organismo de certificación tiene el deber de garantizar no sólo la integridad de sus exámenes (especialmente contra los intentos de defraudarlos), sino también la consistencia de la "regla" que utiliza.

El organismo de certificación hará todo lo posible para garantizar, a lo largo de los años, un campo de nivel (en el sentido de “fair play”) para todos los solicitantes de certificación. Por lo tanto, una prueba de opción múltiple tradicional, con sus elementos/ítems (preguntas + respuesta correcta + respuestas incorrectas) escritos cada año por un grupo de creadores de contenido -contenidistas-, que suelen ser profesores, presentan dificultades; porque sigue habiendo una pregunta difícil de responder: "¿Quién se asegurará de que la prueba de un año sea igual o suficientemente similar a la prueba aplicada en otros años?" Es decir, ¿se usa una "regla" igual? ¿De repente dejamos de usar pulgadas y adoptamos el sistema métrico?

De cualquier manera, hay varios argumentos buenos para usar un examen de opción múltiple. Una cosa que aprendimos en Prepona es la necesidad de mantener una mente abierta (dar la espalda a los sesgos obsesivos) para elegir mejor la modalidad de evaluación de acuerdo con los objetivos de los organismos de certificación. El uso de una prueba de opción múltiple (en una de sus diversas variedades, incluidos los Computer Adaptive Testing), o una prueba discursiva, o incluso una evaluación de las tareas de realización, dependerá del volumen de candidatos, los recursos disponibles (si los hubiere forenses, por ejemplo) y los objetivos del proceso de certificación.

Volviendo al uso de pruebas de opción múltiple, nos gustaría considerar, entonces, no necesariamente el valor intrínseco de este tipo de evaluación, sino suponiendo que la opción múltiple es, sí, apropiada para las pretensiones de un organismo de certificación – evaluar lo que se puede hacer para garantizar la calidad de la "regla" que se utilizará.

En resumen, ¿qué se puede hacer para garantizar la calidad de los ítems y, en consecuencia, la prueba y todo el proceso de certificación? Una forma es enviar a un proceso de "validación" todos los puntos que desea incluir en el banco de artículos de una prueba. Este proceso implica un análisis estadístico que, en el campo de las pruebas, se denomina calibración. Y el método más eficaz se basa en la Teoría de la Respuesta a los Ítems (TRI).

Teoría de Respuesta al Ítem (TRI)

La Teoría de la Respuesta a los Ítems (TRI) representa matemáticamente la interfaz entre un candidato y el ítem. Tiene sus raíces en las ideas de Loevinger[1], cuando afirma que todos los elementos de una prueba deben medir la misma cosa o el mismo rasgo latente. TRI formaliza esto, de manera explícita, asumiendo una sola dimensión de conocimiento o habilidad de la que dependen todos los ítems de la prueba para ser respondidos correctamente. Algunos ejemplos de estas características son:

Competencia en idiomas
Habilidad matemática
Razonamiento lógico

La posición que ocupa cada elemento en esta dimensión se denomina dificultad del ítem y se referencia con el parámetro b.

La posición de cada candidato en esta dimensión, llamada como su competencia o capacidad, se coloca generalmente en la escala llamada θ.

El modelo TRI da la probabilidad de que un candidato de nivel de competencia θ responda correctamente a un ítem de dificultad b. En su forma más simple, TRI combina sólo estas dos variables y, dado que caracteriza el ítem con un único parámetro (dificultad b), toma el nombre de Modelo Logístico Unidimensional de 1 parámetro (ML1).

Este modelo fue desarrollado en 1960 por Georg Rasch[2] y, por lo tanto, lleva su nombre. El ML1 es representado:

donde P(θ) es la probabilidad de que un candidato con un nivel de competencia θ responda correctamente a un punto de dificultad b.

[1] Loevinger J. A systematic approach to the construction of and evaluation of tests of ability, Psychological Monographs, 61, 4 – A demonstration that all the items in a test must measure the same characteristic – that is: the test must be homogeneous.

[2] Rasch – Probabilistic models for some intelligence and attainment tests. Copenhagen: Denmark Paedagogiske Institut.

La figura muestra gráficamente la estructura de este modelo para tres ítems de diferentes dificultades.

Estos gráficos se denominan Curvas Características del Ítem (CCI)

Se observa que, durante la mayor parte de la curva, la CCI de los elementos son más o menos paralelas. Desafortunadamente, este enfoque hace que el modelo falle en muchos casos, porque el comportamiento de los CCI no está bien descrito por el modelo. En estos casos, tenemos dos alternativas: podemos eliminar elementos con comportamiento divergente del banco de artículos (ítems), o podemos generalizar el modelo para adaptarse a diferentes pendientes. Esto se hace mediante la inclusión de un segundo parámetro para cada elemento. Este parámetro, llamado a, caracteriza la pendiente de la CPI y mide la discriminación del ítem. El modelo matemático resultante, llamado ML2, ahora se representa:

Captura de Tela 2020-03-27 às 15.59.37.png

Una vez más, una representación gráfica ayuda a aclarar. Teniendo en cuenta el gráfico que figura a continuación, que muestra el CCI para tres elementos con el mismo valor de b – un elemento discrimina muy bien (a = 2), otro es más para la media (a = 1), y este último tiene una discriminación débil (a = 0,5):

Captura de Tela 2020-03-27 às 15.50.18.png

La adición de este parámetro aumentó en gran medida la aplicabilidad de TRI. Sin embargo, todavía hay un factor a tener en cuenta: para las pruebas de opción múltiple siempre hay una posibilidad significativa de que un candidato acierte un objeto al azar. Ninguno de los modelos presentados anteriormente considera esta posibilidad: hay dos razones para que un candidato acierte un ítem cuya dificultad está mucho más allá de su competencia: la prueba no es unidimensional y el elemento fue respondido utilizando el conocimiento de otro conocimiento que no sea el que estamos probando o el candidato adivinó. ¡En este caso, podemos eliminar estos objetos, pero es poco probable que este tipo de acierto funcione, porque diferentes candidatos acertarían diferentes puntos y terminarían eliminando todos los elementos difíciles de la prueba! Una segunda solución es generalizar el modelo para adaptarse a las patadas. El modelo resultante, descrito en el texto de Lord y Novick [1], se denomina Modelo Logístico unidimensional de 3 parámetros (ML3), y se describe mediante la ecuación siguiente:

Captura de Tela 2020-03-27 às 16.05.46.png

[1] Lord & Novick (1968) – Statistical Theories of Mental Test Scores. Reading. MA Addison-Wesley.

Captura de Tela 2020-03-27 às 15.50.32.png

Una vez más, la estructura del ML3 puede ser mejor comprendida gráficamente (ver a la esquerda).

El ML3 es el modelo TRI más utilizado en pruebas a gran escala. Aunque el parámetro CCI (c) rara vez es necesario en el contexto de una prueba de Computer Adaptive Testing (CAT), porque, si la prueba funciona correctamente, los candidatos rara vez encontrarán elementos que son demasiado difíciles para ellos. Sin embargo, es necesario durante el proceso de calibración y en la fase de testeo inicial.

En conclusión, si podemos validar los elementos de una prueba usando TRI, tendremos varias ventajas, no sólo para la construcción y aplicación de una prueba CAT, sino también para el uso de una prueba de opción múltiple de proporción correcta.

Conociendo los valores de los elementos, tendremos una regla confiable para medir la competencia o habilidades de los candidatos.

Estimación de Competencia o Habilidad

En posesión de una base de datos de elementos con parámetros a, b y c correctamente calculados, aplicamos lo mismo a nuestros candidatos, y calculamos el nivel de competencia (θ) utilizando el método de máxima verosimilitud.

Consideremos:

Captura de Tela 2020-03-27 às 22.32.57.png

Esta ecuación simplemente representa el producto del candidato con un nivel de habilidad θ para acertar los puntos que acertó, y errar los puntos que erró para todos los artículos. Una vez más, una representación gráfica ayuda a aclarar. Vamos a considerar una prueba de dos elementos, donde el candidato acierta el primer punto y erra el segundo:

Captura de Tela 2020-03-27 às 15.50.52.png

Captura de Tela 2020-03-27 às 15.51.05.png

Para un candidato, por lo tanto, el nivel de competencia o máxima verosimilitud está representado por el máximo en la gráfica de probabilidad. Por supuesto, para una prueba de dos elementos, la distribución del gráfico es muy amplia. Sin embargo, si aplicamos más elementos, nos damos cuenta de que la estimación comienza a reducirse. En el ejemplo siguiente, el candidato golpeó 12 y perdió 8 elementos en una prueba de 20 elementos.

Este cuello de botella permite el uso de la tecnología CAT para la aplicación de pruebas, digamos: más "inteligentes".

Captura de Tela 2020-03-27 às 15.51.17.png

Captura de Tela 2020-03-27 às 15.51.29.png

TRI y Tests CAT

Una prueba CAT, por ejemplo, utiliza un algoritmo que siempre busca aplicar los puntos que proporcionan más información sobre el candidato. Si, por ejemplo, aplicamos una serie de artículos muy fáciles, el candidato acierta a todos, y no aprenderemos ni sabremos nada sobre él. Del mismo modo, si aplicamos una serie de elementos que son demasiado difíciles, el único recurso del candidato será adivinar, y de nuevo, no aprenderemos y no sabremos nada. CAT elige elementos con el objetivo de reducir el gráfico al máximo y, por lo tanto, permite una evaluación más precisa con menos ítems.

Este factor permite concentrar la aplicación de modo gradual, de elementos cada vez más aproximados al verdadero nivel de competencia del candidato, eliminando progresivamente la necesidad de aplicar elementos demasiado fáciles o difíciles. La gran ventaja de esto para el candidato es:

Cada candidato tendrá la percepción de que la prueba fue "personalizada" para él con la reducción del estrés (causado cuando se enfrenta a artículos demasiado difíciles) y / o aburrimiento (causado cuando se enfrenta a artículos demasiado fáciles). Reducir el estrés es un factor importante en los procesos de certificación que, por sus propias características (¡a menudo con requisitos que deben ser aprobados para lograr un trabajo o mantenerlo!), se define a sí mismo como una experiencia estresante.
Podemos aplicar un total menor de ítems y, al mismo tiempo, más elementos en torno al verdadero nivel de competencia del candidato; asegurando así un resultado más preciso (porque probamos al candidato mucho mejor con ítems de su nivel) e incluso reduciendo el tiempo total del proceso. La reducción del tiempo también es un factor para reducir el estrés, porque a nadie le gusta pasar medio día en una situación que requiere tanta concentración como la sumisión a una prueba formal.

Un buen ejemplo de cómo una prueba CAT logra un resultado más preciso con un total menor de elementos aplicados se manifiesta claramente en el archivo "log" de una verdadera prueba en inglés aplicada:

Captura de Tela 2020-03-27 às 14.51.54.png

Antes de la adopción del CAT, Prepona aplicó pruebas de opción múltiple - proporción correcta - en sus evaluaciones en inglés. ¡Dado que una prueba de este tipo debe tratar de reflejar la realidad de la enseñanza, nos vimos obligados a tratar de ver qué nivel una persona está eligiendo entre 10 niveles posibles! Para ello, aplicamos pruebas de opción múltiple, proporción correcta, que contienen 120 ítems. Esto permitió la aplicación máxima de sólo 12 ítems por nivel de competencia.

Con la adopción de CAT, podemos "acertar" el nivel de un candidato con la aplicación de muchos menos elementos, pero al mismo tiempo, la aplicación de muchos elementos más en torno al nivel de competencia del candidato. El archivo de "registro" (log) anterior muestra que la persona respondió a un total de 40 elementos, seis de los cuales tenían sus valores asignados arbitrariamente - las razones para esto se discutirán a continuación. Lo importante es que, con menos elementos en total, aplicamos muchos más (36) en torno al verdadero nivel de competencia del candidato; generando así un resultado mucho más preciso.

En resumen, la mayor precisión del resultado final –la nivelación de competencia de los candidatos– y la reducción del estrés son dos de los principales factores en la adopción de la metodología CAT en las pruebas de certificación de personas.

Tener un banco de artículos calibrados, utilizando TRI y aplicando a través de CAT ayuda al organismo de certificación a mantener la integridad del contenido de sus pruebas. Si la elección del siguiente elemento de la prueba depende de la elección de la respuesta del(los) elemento(s) anterior(es), un candidato "débil", por ejemplo, no verá los ítems aplicados a un candidato más fuerte; y viceversa.

El hecho de que genere la sensación entre los candidatos de haber hecho una prueba "personalizada" para cada uno de ellos, significa un gran aumento en la seguridad de la prueba porque, en realidad, los candidatos respondieron a diferentes elementos y en diferentes órdenes. Esto ayuda en la lucha contra los esfuerzos de personas maliciosas y decididas para defraudar el proceso de certificación. En resumen: lo que reduce el estrés, aumenta la seguridad.

El otro gran beneficio, o ventaja, es que, con los elementos debidamente calibrados, utilizando TRI, el organismo de certificación puede mantener la consistencia (calidad) de su "regla". Si, por ejemplo, un elemento sufre de "sobreexposición" (es decir, si es sobre elegido por el algoritmo CAT), puede ser reemplazado por otro elemento con los valores psicométricos más cercanos (a, b y c). Es decir, en lugar de reemplazar un elemento eligiendo cualquier otro, podemos elegir un elemento que tenga el mismo (o casi el mismo) grado de dificultad con el mismo poder de discriminación y con la misma robustez contra acertijos. Por lo tanto, el acto de reemplazar ítems no debe afectar a la coherencia de la "regla".

Sin embargo, estas ventajas, derivadas de un proceso de análisis TRI, no sólo se aplican a las pruebas CAT, sino que también aportan beneficios significativos al deseo de garantizar o mejorar, la calidad de las pruebas de opción múltiple de proporción correcta.

En su aplicación, utilizando elementos calibrados y un sistema computarizado para la elección aleatoria de elementos a través de parámetros preestablecidos, podemos aumentar en gran medida las posibles combinaciones, sin perjuicio de la calidad de la prueba en su conjunto y con el beneficio posibles intentos de defraudar el proceso de certificación. No podemos reducir el estrés del candidato debido a que este tipo de prueba requiere la aplicación de un número fijo de artículos en un tiempo dado y con la cobertura de todos los niveles.

Pero si el propósito del organismo de certificación es evaluar diferentes áreas en la misma prueba, por ejemplo, o también debe mostrar en el resultado donde un candidato es fuerte o débil, lo cual es muy útil para guiar sus estudios futuros, el uso de elementos calibrados con TRI resulta ser excelente para garantizar la calidad del proceso.

También puede eliminar o reemplazar elementos de la forma más fácil y fiable posible en un test CAT.

Volviendo al CAT, nos gustaría hablar de una ventaja más: combinar el análisis TRI con la metodología CAT le permite aprovechar la evidencia para calibrar nuevos artículos que se incluirán en el banco de artículos para su uso futuro. El análisis del archivo "log" anterior revela que hay seis elementos sin valor asignado o asignados arbitrariamente. Algunos de estos son "ítems semillas"; es decir, son elementos que no influyen en el proceso de evaluación y aparecen con fines de calibración. En resumen, podemos usar candidatos reales para calibrar nuevos elementos. Entonces comenzamos a examinar el proceso de calibración.

Calibración de los Ítems (o Puntos)

Como sabemos, cada elemento se define por tres parámetros:

Discriminación (a) – que mide el poder que el artículo tiene para diferenciar a los candidatos que saben más de aquellos que saben menos
El grado de dificultad (b)
Factor de acertijo (c) – que tiene en cuenta que un candidato débil puede acertar un elemento difícil en la patada

Al principio de un proceso de prueba, ni siquiera podemos estimar estos valores; entonces, es necesario recopilar datos de dos maneras:

Aplicar pruebas simuladas a futuros candidatos y/o
Ejecutando el análisis TRI sobre pruebas antiguas.

Pre calibración en pruebas simuladas

En posesión del banco inicial de ítems, se forman varias pruebas donde las diferentes versiones tienen algunos elementos en común. Consideremos, como un ejemplo simple, un banco con 250 ítems: podríamos dividirlo en diez paquetes con 25 artículos y luego construir diez pruebas de 50 artículos cada uno:

Prueba 1 = Paquete 1 + Paquete 2

Prueba 2 = Paquete 2 + Paquete 3

“ “ “

Prueba 9 = Paquete 9 + Paquete 10

Prueba 10 = Paquete 10 + Paquete 1

Se pueden utilizar sistemas más complejos si es necesario, pero es importante que estas pruebas se apliquen a candidatos del mismo nivel de aquellos que realmente lo realizarán.

Calibración

El proceso de estimación de parámetros es computacionalmente intensivo. Utilizamos un programa, desarrollado exclusivamente para este fin, que utiliza un enfoque algorítmico:

Fase 1 - Las estimaciones iniciales se calculan sobre la base de transformaciones estadísticas clásicas

Fase 2 – Estas estimaciones se ajustan utilizando el algoritmo de expectativa-maximización (EM) [1]. El ciclo EM se repite hasta que los parámetros permanecen constantes. Si algún ítem no cumple, se deben evaluar el sistema de alertas y el ítem.

Nota: Si un organismo de certificación ha guardado exámenes anteriores y las respuestas dadas por los candidatos, podemos realizar un proceso de calibración, acelerando así la generación de elementos clave calibrados y listos para usar.

[1] Dempster, Laird & Rubin - "Maximum Likelihood from Incomplete Data via the EM Algorithm". Journal of the Royal Statistical Society, Series B (Methodological) 39 (1): 1–38 (1977).

Creación de una prueba de opción múltiple de proporción correcta

Con los valores a, b y c calculados, sabemos qué elementos son los mejores para ser incluidos en el examen final. La prueba generalmente tiene un perfil que puede ser el siguiente:

Tema 1 – Fáciles - x1 ítems, Medios – y1 ítems, Difíciles – z1 ítems

Tema 2 – Fáciles - x2 ítems, Medios – y2 ítems, Difíciles – z2 ítems

Tema 3 – Fáciles - x3 ítems, Medios – y3 ítems, Difíciles – z3 ítems

etc...

Obs. 1: El sistema puede elegir ítems aleatoriamente entre los clasificados en cada rango de dificultad/tema.

Obs. 2: Puede haber más de tres pistas de dificultad.

Captura de Tela 2020-03-27 às 22.44.13.png

Construyendo una prueba CAT

En este caso, todos los artículos "aprobados" se colocan en el banco. El primer ítem se elige según un criterio preestablecido y los siguientes puntos según todas las respuestas de los candidatos, a los puntos anteriores.

En conclusión, el análisis del TRI es una función vital en el proceso de certificación de personas, ya que permite garantizar al mercado la calidad requerida, independientemente de si el organismo opta por aplicar pruebas utilizando la metodología CAT o aplicar pruebas computarizadas de opción múltiple de proporción correcta.

Vimos que el proceso de calibración debe realizarse antes del lanzamiento de la prueba, pero una vez que se calibra el banco de artículos y se aplica la prueba, todavía existe la posibilidad de calibrar nuevos elementos que se incluirán en la base de datos para su uso futuro.

La ventaja de esto se refleja principalmente en la disminución del trabajo de los contenidos en la producción de nuevos contenidos, ya que podemos aprovechar al máximo el banco existente con un mantenimiento mínimo y máxima seguridad.

El uso del análisis TRI también ofrece la oportunidad de evaluar diferentes bancos de artículos del mismo examen o incluso comparar un examen realizado por un cliente frente a los exámenes realizados por los otros candidatos en el mismo proceso. Esto se llama Función de respuesta al test (“Test Response Function”), y Prepona puede utilizarla para ayudar a sus clientes a verificar que un reclamo hecho en la línea se basa: "mi prueba fue más difícil que la prueba de los otros candidatos".

Función de Respuesta al Test (Test Response Function) para Equivalencia de Bloques

Algunos clientes prefieren usar varios bloques de artículos al aplicar sus exámenes de certificación y eligen esta opción para mantener más control sobre lo que se está aplicando. TRI es importante, en primer lugar, para evaluar si existe una distribución homogénea de elementos de grados de dificultad similares en todos los bloques. Es decir, queremos asegurarnos de que los candidatos que responden a los elementos de bloque 1, por ejemplo, no reciban un mayor número de elementos fáciles que los candidatos que responden a los elementos de los otros bloques. Es nuestra responsabilidad, en nombre del juego limpio, tratar de asegurar que cada bloque represente el mismo desafío para todos los candidatos. Además de utilizar TRI, entonces, para hacer una distribución justa entre los bloques y asegurar la calidad y consistencia de la "regla", podemos evaluar cómo se comparan al recibir las respuestas dadas por los candidatos. Con estos datos, podemos demostrar, en forma gráfica, la agrupación de bloques y ver si alguno queda afuera de lo esperado.

La tabla al lado muestra qué tan bien se agrupan los diez bloques utilizados por un cliente en el mismo examen. En este examen, es necesario responder correctamente 35 de los 50 elementos (o 70%), para ser aprobado.

Captura de Tela 2020-03-27 às 15.51.44.png

Podemos ver que las curvas que representan los bloques están muy cerca unas de otras, especialmente en el rango de 35 respuestas correctas. Podemos concluir que, en términos prácticos, ningún candidato está siendo perjudicado por haber recibido un bloque (examen) más difícil que los demás.

Si comenzamos a evaluar los bloques de ítems en otro examen, podemos ver que puede haber una base para reclamos y, en consecuencia, la necesidad de tomar medidas correctivas; ver a continuación:

Captura de Tela 2020-04-30 às 10.03.40.png

Además de darse cuenta de que, en su conjunto, la agrupación está un poco más dispersa, hay un bloque que está muy afuera de la curva de los demás. A continuación, podemos recomendar que este bloque reciba un análisis más cuidadoso de los elementos contenidos en él.

Este tipo de análisis de la "equivalencia" de los bloques sirve para asegurar la calidad de las pruebas construidas por varios bloques y responder a reclamos formales (a través de apelación) o informales (rumores) de que algunas pruebas son más difíciles que otras.

Una variación de este análisis se puede utilizar en otro tipo de aplicación de examen de opción múltiple: el tipo de prueba en la que el cliente no desea utilizar bloques, pero desea seleccionar elementos aleatoriamente de un banco principal, como se muestra en la página siguiente.

Función de Respuesta al Test (Test Response Function) para Equivalencia de Exámenes

Otros clientes prefieren que el sistema utilice los parámetros establecidos para generar un número casi ilimitado de pruebas del mismo banco de artículos. El TRI es muy importante en este caso y proporciona un beneficio si un candidato presentó una apelación alegando que, en su opinión, el examen que tomó fue más difícil que los exámenes realizados por otros candidatos. Usando el sistema, podemos generar la combinación de artículos para producir el escaneo más fácil de ese banco de elementos. Y hacer el mismo proceso para generar el examen más difícil posible; estableciendo así los dos extremos, además de poder establecer el término medio. Hecho esto, podemos procesar los puntos respondidos por el candidato para luego comparar el "grado de dificultad" del examen de ese candidato con el término medio y los dos extremos. A continuación se muestran los gráficos de dos candidatos:

Podemos ver que, en la mayor parte del examen, el candidato A estaba en el lado más fácil (pero muy cercano) del medio, por lo que no hay base para reclamos.

¡En este caso, el candidato B tampoco tendría ninguna razón para reclamar, porque recibió artículos que están prácticamente en la línea intermedia!

Este tipo de análisis pasa a formar parte del arsenal de datos y herramientas de análisis en las que los clientes, como los organismos de certificación, pueden confiar para garantizar la calidad de sus exámenes. Y todo basado en el análisis de la Teoría de la Respuesta al Ítem (TRI).

Pero además de la metodología TRI, Prepona realiza en tiempo real otro análisis que tiene como objetivo analizar el rendimiento de respuestas incorrectas en cada elemento, es decir, un análisis a nivel micro o dentro de cada elemento.

Sabemos que lo más difícil de escribir un artículo es crear esas respuestas. Llamamos a estas respuestas "distractores" porque deben actuar para atraer a los candidatos que no tienen el grado de competencia para elegir la respuesta correcta. ¡Es decir, tratamos de evitar, por ejemplo, esas respuestas demasiado "tontas" que pueden ayudar a un candidato débil a mejorar sus posibilidades de "adivinar"!

Análisis de “Distractores” (Distractor Analysis)

Aunque los elementos seleccionados para componer la prueba ya han sido sometidos a una evaluación estadística para determinar los que mejor evalúan a los candidatos, es interesante evaluarlos con mayor detalle para ver cómo pueden ser mejorados.

Como ya se ha explicado, el comportamiento óptimo de un elemento está representado por:

Captura de Tela 2020-03-27 às 15.52.43.png

Sin embargo, también es importante considerar las alternativas incorrectas y su comportamiento. Lo ideal es que todas las respuestas incorrectas atraigan a un número significativo de candidatos débiles y suba un número menor a medida que aumenta la competencia de los candidatos.

Prepona analiza los elementos respondidos por los candidatos para verificar su comportamiento, mostrando posibles defectos en los elementos que se pueden mejorar. El siguiente gráfico es un ejemplo de un elemento casi ideal:

Captura de Tela 2020-03-27 às 15.54.08.png

La línea correspondiente a la respuesta correcta (línea azul) se eleva bruscamente mientras que todas las respuestas incorrectas caen regularmente, llegando casi a cero. Los candidatos más débiles parecían estar totalmente perdidos, cada respuesta equivocada fue elegida por al menos el 20% de ellos.

El punto que figura a continuación, sin embargo, debe examinarse y modificarse, ya que presenta una respuesta incorrecta con problemas graves.

Captura de Tela 2020-03-27 às 15.54.52.png

The incorrect answer represented by the blue line is attracting more and more candidates in the middle of the competency range, as their level of competence increases. The correct answer (purple line) only starts to rise for the very good candidates. In other words, the response represented by the blue line is”.

El punto abajo muestra otro comportamiento:

Captura de Tela 2020-03-27 às 15.55.55.png

La respuesta correcta (línea verde) se comporta bien, dos de las respuestas incorrectas funcionan bien (línea púrpura) y satisfactoriamente (línea azul). La respuesta equivocada representada por la línea roja, sin embargo, no atrae a casi nadie. Una respuesta "muerta" equivocada de este tipo, que obviamente está equivocada incluso para los candidatos más débiles no contribuye en nada y debe ser eliminada o reemplazada.

En conclusión, el análisis del distractor permite a Prepona ayudar a sus aliados a mejorar aún más la calidad del contenido de las pruebas de certificación de las personas.