O que faz da Prepona uma solução confiável, flexível e completa?
Apresentamos a seguir descrições detalhadas sobre a nossa plataforma em três de seus verticais mais importantes: Tipos de prova, Como montar seu próprio Organismo de Certificação e Teoria de Resposta ao Item e Análise de Distratores. Aproveite e entre em contato caso deseje mais informações.

Tipos de Prova
Proporção Correta
Para ser justo, um organismo de certificação deve usar a mesma “régua” para aferir os diferentes níveis de conhecimento em um grupo de pessoas; então, a coerência e consistência da régua é um fator importante. Pode, também, usar a mesma régua ao longo do tempo (por anos no caso de certificação). E, neste caso, a questão da qualidade dessa régua torna-se muito importante, porque tem de ter uma consistência para além de um momento pontual. É por isso que a Prepona® dedica-se exclusivamente à qualidade na montagem e aplicação de provas computadorizadas a distância. E, pela mesma razão, dedica grande empenho a cada processo de calibragem (ver nosso serviço de Análise Estatística e TRI). Entre as modalidades de provas de múltipla escolha, proporção correta, oferecidas são:
Múltipla escolha tradicional
A aplicação de provas de múltipla escolha, proporção correta, é a modalidade mais comum no âmbito de testagem e atende aos requerimentos de muitos clientes. O cliente estabelece o número de acertos exigidos para um candidato ser aprovado e a interpretação do resultado é baseada simplesmente nessa exigência. Essa modalidade é usada quando não existem dados suficientes para calibrar os itens. Consequentemente, é usada pela Prepona® mais na montagem e aplicação de provas de simulação, cuja finalidade é a calibragem de itens a serem utilizados em um exame de certificação (ver nosso serviço de Testes de Simulação).
Múltipla escolha com valores psicométricos similares (itens calibrados)
Essa versão da prova múltipla escolha, proporção correta, tem diversas vantagens pois, a partir de um banco grande de itens calibrados, e de acordo com os parâmetros estabelecidos com o cliente, podemos gerar milhões de combinações de testes com valores psicométricos similares. Esse processo permite que a aplicação do exame possa ocorrer 365 dias ao ano e, ao mesmo tempo, ajuda a preservar a integridade dele – as provas contêm itens diferentes, reduzindo assim a fraude. Além disso, os bancos de itens com valores psicométricos similares ajudam a manter a mesma dificuldade entre uma provae as outras, oferecendo uma avaliação mais justa aos candidatos.
Múltipla escolha dividida por módulos, temas e/ou subtemas (com itens calibrados)
Essa versão também permite a montagem de provas que avaliam o grau de conhecimento em várias áreas distintas em uma prova só, sem prejudicar a geração dos resultados. A Prepona® fornecerá dados estatísticos para o cliente que permitam apontar em quais áreas o candidato é forte ou fraco. Essa opção é utilizada por um dos maiores programas de certificação no Brasil.
Testes Adaptativos Computadorizados (Computer Adaptive Test - CAT)
Essa modalidade de testagem é altamente recomendada para a avaliação de uma área de conhecimento por causa da alta precisão do resultado e grau de confiabilidade na consequente aferição do nível em que uma pessoa se posiciona. Por isso é a opção preferida da maioria das organizações de certificação mais respeitadas no mundo afora.
O fato de o candidato lidar com um número reduzido de questões obviamente permite uma redução importante no tempo de duração da prova, e, traz um considerável benefício: quando ele está respondendo as questões mais relevantes ao seu nível de conhecimento, o seu grau de concentração está no máximo, melhorando a qualidade de informação que a avaliação fornece e consequentemente melhorando a qualidade da decisão que será tomada baseando-se no resultado da prova.
O programa de testagem interpreta estes dados para fazer uma avaliação dinâmica do candidato (de acordo com as suas respostas) e dentro de 5 a 6 perguntas respondidas já está oferecendo questões próximas ao nível de conhecimento dele sempre escolhendo os itens do banco que melhor se discriminam naquele grau de dificuldade. Assim que as respostas dadas começam a se encaixar nas probabilidades pré-estabelecidas de acerto para uma pessoa naquele grau de dificuldade a avaliação é encerrada. Na prática isto significa que um nivelamento preciso é produzido com aproximadamente 40 questões.
Outro benefício deste sistema diz respeito à segurança. O conteúdo da prova não se repete de um candidato para outro a não ser que uma pessoa receba uma série inicial de questões idênticas e, que responda de forma idêntica – o que não seria impossível, mas muito pouco provável estatisticamente.
Por último, a aplicação de provas CAT permite a calibragem de itens novos a serem utilizados em provas futuras. Ou seja, sem perceber, os candidatos respondem certo número de itens que não constam na geração do nível de conhecimento deles. Esse processo de calibragem com o público alvo traz muitos benefícios para os clientes da Prepona®.
Em resumo, a modalidade CAT oferece parâmetro da melhor qualidade possível em termos de precisão do resultado, consistência e integridade, além de reduzir a possibilidade de fraude. A prova CAT também reduz o nível de estresse do candidato, que deve sempre ser um fator importante para qualquer organismo de certificação buscando qualidade no seu programa.

Como montar seu Próprio Organismo de Certificação
Preceitos
Já existe toda a orientação necessária para montar um organismo de certificação, e essa orientação é tão valiosa quanto é realista no sentido em que o bom senso permeia a norma ABNT/ISO 17024 e seus preceitos de senso comum:
imparcialidade
competência
responsabilidade
transparência
confidencialidade
rapidez ao responder a reclamações ou recursos

Mas, seria bom começar com o que nós, na Prepona®, entendemos pela frase "certificação de pessoas":
“A aferição periódica de conhecimentos, ou habilidades, que demonstra a atualização dos mesmos.”
A periodicidade da certificação ou re-certificação de pessoas pode depender do ramo de atividade e os dois maiores programas de certificação do mundo - Tecnologia de Informática e Enfermagem - demonstram essa diferença.
Certificação no ramo TI é, corretamente, de acordo com conhecimentos bem específicos e os exames têm sua validade que reflete isso. Ou seja, pode ser certificar em Office 2003, ou em Office 2007, por exemplo. Esse tipo de certificação reflete o produto que não muda – Office 2007 é considerado um produto diferente a Office 2003. Mas, além desse fato, Microsoft ainda aplica uma validade. Na enfermagem, o foco é na mudança/progresso na tecnologia e práticas de certa área. Por exemplo, uma enfermeira especializada em cardiologia na Inglaterra, tem que se submeter ao processo de certificação de dois em dois anos, pois “as coisas mudam” rapidamente. Em geral, entretanto, a validade de um exame de certificação fica entre 4 e 5 anos.
De qualquer maneira, os organismos de certificação que aderem aos preceitos do ABNT/ISO 17024 oferecem seus exames a todos.
“Assegurar boa governança, evitando conflitos de interesse.”
- Outro objetivo importante para um Organismo de Certificação (OC)
Estrutura correcta
A estrutura e base documental de um organismo de certificação são de importância máxima.
O organismo de certificação deve ter sua independência e integridade reconhecidas por todos. Na ausência de um marco regulatória, talvez a melhor maneira de conseguir a independência seja com uma decisão da diretoria o conselho de administração dando “sua benção”. Ou seja, o reconhecimento da diretoria ou conselho dará toda base que o seu organismo de certificação precisa. Com isso na mão, a estrutura essencial a ser montada consiste em:
Comitê de Certificação
Subcomitês de Certificação (se houver mais de uma área de certificação)
Comissão de Recursos
O Comitê de Certificação tem que ser o “poder” nesse processo e tem que ser independente das pressões de outras áreas do banco. Ele é que manda, mas tem que mandar de uma maneira responsável e transparente, evitando conflitos de interesse – nada mais, nada menos que boa governança.
É o Comitê de Certificação que vai contratar os conteudistas, e os parceiros tecnológicos (como Prepona®) e de logística da rede de centros de testes. O comitê deve cobrar qualidade e integridade (contra fraude) de todos os seus parceiros, sempre assegurando qualidade no serviço prestado aos candidatos.
Recomenda-se montar Subcomitês (um para cada certificação), assim deixando o Comitê de Certificação atuar como o poder executivo. Também deve ter pronto para entrar em ação a Comissão de Recursos. Certificação é coisa séria, e os candidatos têm que ter todos os seus direitos protegidos. Por isso, toda a estrutura formal de recursos deve ser disponibilizada.
Documentos Necessários
Além da estrutura, os documentos essenciais para um Organismo de Certificação são:
Regulamento (em alguns casos o marco regulatório também)
Manual de Candidatura
Código de Conduta
Manual de Uso do Selo, ou Marca, de Certificação
De acordo com ABNT/ISO 17024, um organismo de certificação (OC) deve ter as suas regras explicitadas de uma maneira completa.
O Regulamento é o documento principal de um OC, pois contém todas as regras não só do jogo, mas do campeonato como um todo. Deve mostrar os direitos e obrigações de cada. Normalmente é conveniente incluir, como parte desse documento, o Código de Conduta (vide abaixo). Ao se inscrever ao programa de certificação, uma pessoa deve aderir-se aos termos desse documento (que pode ser feito eletronicamente dentro do seu sistema de certificação).
O Manual de Candidatura explica as regras do jogo; ou seja, se aplica a cada certificação. Na realidade menos de 10% desse manual muda de uma certificação para a outra. Esse manual trata da bibliografia (base dos conhecimentos a serem avaliados) até o comportamento do candidato nos centros de testes e o que pode usar e não usar ao fazer o exame (por exemplo, calculadora HP financeira permitida, telefone celular, não, etc.). Ao agendar seu exame, uma pessoa deve aderir-se aos termos desse documento (que pode ser feito eletronicamente dentro do seu sistema de certificação).
O Código de Conduta deve ser apresentado duas vezes no processo pois, antes de ser aprovado no exame, a pessoa é um “candidato” e, depois, torna-se uma “pessoa certificada”. A primeira vez, normalmente é ao se inscrever, por isso muitas vezes faz parte do Regulamento. A segunda vez de uma pessoa se aderir é depois de receber a notícia maravilhosa que foi aprovada e quer receber sua certificação! As duas identidades são ligeiramente diferentes.
O Manual de Uso do Selo, ou Marca, de Certificação contem as regras de como de usar o selo (como assinatura nos seus e-mails, no seu cartão de visitas, etc.), além das instruções para a gráfica.
Restam dois documentos importantes: o Certificado em si e a Política de Porta-vozes.
Papel é uma das coisas mais fáceis de se falsificar. Quantos diplomas falsos rodam por aí? Muitos. Por isso, organismos de certificação normalmente exigem que a veracidade de um Certificado seja verificada no site deles. Podemos ajudar você criar uma “vitrine” para cada pessoa que pode a usar para mostrar seu Certificado (versão digital).
Se você quer emitir certificados em papel, esses devem conter o respaldo necessário para a proteção da integridade do seu próprio organismo de certificação.
Um OC deveria ter outro documento que, como o Código de Conduta, se aplica a todos envolvidos (executivos, empregados, funcionários, parceiros, candidatos, pessoas certificadas, etc.). Esse documento se chama a Política de Porta-vozes.
Finalmente, existem três documentos que são importantes num nível operacional, que são:
1. Termo de Orientação (assinado pelo candidato no CT)
2. Termos de Sigilo (assinado com todos os parceiros)
3. Manual de Orientação (para Centros de Testes)
O Termo de Orientação deve ser assinado pelo candidato e o fiscal na hora em que o candidato se apresenta para fazer seu exame de certificação. Entre outras coisas, serve como um documento confirmando a presença da pessoa para fins de auditoria.
Os Termos de Sigilo são documentos normalmente assinados pelo Comitê de Certificação e seus parceiros (conteudistas, tecnológicos e de logística) e até entre eles. Por exemplo, Prepona assinará um termo de sigilo com os conteudistas.
O Manual de Orientação existe para fornecer aos centros de testes orientações sobre cada exame ou o suíte de exames daquele organismo de certificação.
Ao celebrar o contrato com seus clientes, Prepona® oferece toda ajuda necessária para estabelecer a estrutura e base documental, que atende as exigências da norma ABNT/ISO 17024. Os modelos de todos os documentos são fornecidos grátis, assim permitindo agilidade no processo de formação, além de representar uma economia grande em termos de honorários advocatícios e de consultoria.
Processos e Procedimentos
Dado que os processos e procedimentos dos sistemas da Prepona® já atendem as exigências mais rígidas (até da norma ISO/IEC 23988), basta um organismo de certificação implementar alguns dos processos e procedimentos de qualidade da norma ABNT/ISO 9001:2008 para ter as condições de se submeter ao processo de acreditação, assim ganhando o selo de reconhecimento da norma ABNT/ISO 17024.

Teoria de Resposta ao Item e Análise de Distratores
A Importância de Assegurar Qualidade de Avaliação em Processos de Certificação de Pessoas
Em processos de certificação de pessoas, que envolvem a avaliação de conhecimentos em grande escala, e que por sua definição duram anos, é essencial assegurar a qualidade destes processos; ou seja, qualquer organismo de certificação tem o dever de assegurar não somente a integridade dos seus exames (especialmente contra tentativas de defraudá-los), mas também a consistência da escala que usa.
O organismo de certificação deve esforçar-se ao máximo para garantir, ao longo dos anos, um campo nivelado (no sentido de “fair play”) a todos os candidatos à certificação. Por isso, uma prova de múltipla escolha tradicional, com seus itens (questões + resposta correta + respostas incorretas) escritos todo ano por um grupo de conteudistas, que normalmente são professores, apresentam dificuldades; pois fica uma pergunta difícil de responder: “Quem garantirá que a prova de um ano é igual, ou suficientemente similar, à prova aplicada em outros anos?” Ou seja, será que a escala usada é a mesma? Será que, de repente, deixamos de usar polegadas e adotamos o sistema métrico?
De qualquer jeito, existem vários argumentos bons para o uso de um exame de múltipla escolha. Uma coisa que aprendemos na Prepona é a necessidade de manter uma mente aberta (dando as costas para preconceitos obsessivos) para melhor escolher a modalidade de avaliação de acordo com os objetivos dos organismos de certificação. Usar uma prova de múltipla escolha (em uma das suas diversas variedades, inclusive Computer Adaptive Testing), ou uma prova discursiva, ou até uma avaliação de execução de tarefas, vai depender do volume de candidatos, dos recursos disponíveis (se existem examinadores suficientes, por exemplo) e dos objetivos do processo de certificação.
Voltando para o uso de provas de múltipla escolha, gostaríamos de considerar, então, não necessariamente o valor intrínseco desse tipo de avaliação, mas – partindo do pressuposto de que a múltipla escolha é, sim, apropriada para os desideratos de um organismo de certificação – avaliar o que pode ser feito para assegurar a qualidade da escala a ser utilizada.
Em resumo, o que pode ser feito para assegurar a qualidade dos itens e, consequentemente, a prova e todo o processo de certificação? Uma das maneiras é submeter a um processo de “validação” todos os itens que se queira incluir no banco de itens de uma prova. Esse processo envolve uma análise estatística que, no ramo de testagem, se chama calibração. E o método mais eficaz se baseia na Teoria de Resposta ao Item (TRI).
Teoria de Resposta ao Item (TRI)
A Teoria de Resposta ao Item (TRI) representa matematicamente a interface entre um candidato e o item. Tem suas raízes nas ideias de Loevinger [1] quando afirma que todos os itens numa prova deverão medir a mesma coisa ou o mesmo traço latente. TRI formaliza isso, de uma maneira explícita, assumindo uma única dimensão de conhecimento ou habilidade de que todos os itens da prova dependem para ser respondidos corretamente. Exemplos destas características incluem:
Competência linguística
Habilidade matemática
Raciocínio lógico
A posição que cada item ocupa nesta dimensão é chamada de dificuldade do item e é denominada pelo parâmetro b.
A posição de cada candidato nesta dimensão, denominada como sua competência ou habilidade, costuma ser posicionada na escala denominada θ.
O modelo TRI dá a probabilidade de um candidato de nível de competência θ responder corretamente a um ítem de dificuldade b. Na sua forma mais simples, TRI combina somente estas duas variáveis, e, já que caractacteriza o item com um só parâmetro (a dificuldade b), leva o nome de Modelo Logístico Unidimensional de 1 parâmetro (ML1).
Este modelo foi desenvolvido em 1960 por Georg Rasch[2] e, por isso, leva o seu nome. O ML1 é representado:
em que P(θ) é a probabilidade de um candidato com nível de competência θ responder corretamente a um item de dificuldade b.
[1] Loevinger J. A systematic approach to the construction of and evaluation of tests of ability, Psychological Monographs, 61, 4 – A demonstration that all the items in a test must measure the same characteristic – that is: the test must be homogeneous.
[2] Rasch – Probabilistic models for some intelligence and attainment tests. Copenhagen: Denmark Paedagogiske Institut.
A figura mostra graficamente a estrutura deste modelo para três itens de dificuldades diferentes.
Estes gráficos chamam-se Curvas Características do Item (CCI)
Percebe-se que, durante a maior parte da curva, as CCI dos itens ficam mais ou menos paralelas. Infelizmente, esta aproximação faz com que o modelo falhe em muitos casos, pois o comportamento das CCI não está bem descrito pelo modelo. Nestes casos, temos duas alternativas: podemos retirar itens com comportamento divergente do banco de itens ou podemos generalizar o modelo para acomodar inclinações diferentes. Isto se faz através da inclusão de um segundo parâmetro para cada item. Este parâmetro, chamado a, caracteriza a inclinação da CCI e mede a discriminação do item. O modelo matemático resultante, chamado ML2, é agora representado:
Outra vez, uma representação gráfica ajuda a esclarecer. Considerando o gráfico abaixo, que mostra as CCI para três itens com o mesmo valor de b – um item discrimina muito bem (a = 2), outro está mais para a média (a = 1), e o último tem discriminação fraca (a = 0,5):
O acréscimo deste parâmetro aumentou muito a aplicabilidade da TRI. Porém, ainda há um fator a considerar: para testes do tipo múltipla escolha sempre existe a possibilidade significativa de um candidato acertar um item no chute. Nenhum dos modelos apresentados acima considera esta possibilidade: há dois motivos para que um candidato acerte um item cuja dificuldade é muito além da sua competência – o teste não é unidimensional e o item foi respondido utilizando conhecimentos de outra base de conhecimento que não seja aquela que estamos testando ou o candidato chutou. Neste caso, podemos eliminar estes itens, mas é pouco provável que este tipo de acerto funcione porque candidatos diferentes acertariam itens diferentes e acabaríamos retirando todos os itens difíceis da prova! Uma segunda solução é generalizar o modelo para acomodar chutes. O modelo resultante, descrito no texto de Lord e Novick[1], é chamado o Modelo Logístico unidimensional de 3 parâmetros (ML3), e é descrito pela equação abaixo:
[1] Lord & Novick (1968) – Statistical Theories of Mental Test Scores. Reading. MA Addison-Wesley.
Mais uma vez, a estrutura do ML3 pode ser mais bem compreendida graficamente (figura à esquerda).
O ML3 é o modelo TRI mais usado em testagens de grande escala. Embora, o parâmetro de chute (c) seja raramente necessário no contexto de um teste Computer Adaptive Testing (CAT) porque, se o teste estiver funcionando corretamente, candidatos raramente encontrarão itens que são muito difíceis para eles. É necessário, porém, durante o processo de calibração e na fase de testagem inicial.
Em conclusão, se podemos validar os itens de uma prova usando TRI, teremos várias vantagens, não somente para a construção e aplicação de um teste CAT mas, também, para o uso de uma prova de múltipla escolha de proporção correta.
Sabendo os valores dos itens, teremos uma escala confiável para medir a competência ou habilidades dos candidatos.
Estimativa de Competência ou Habilidade
De posse de um banco de itens com os parâmetros a, b e c devidamente calculados, aplicamos o mesmo aos nossos candidatos, e calculamos o nível de competência (θ) utilizando o método de máxima verossimilhança.
Consideremos:
Esta equação simplesmente representa o produto do candidato com nível de competência θ acertar os itens que acertou, e errar os itens que errou para todos os itens. Outra vez, uma representação gráfica ajuda a esclarecer. Consideremos um teste de dois itens, onde o candidato acerta o primeiro item e erra o segundo:
Para um candidato, portanto, o nível de competência ou máxima verossimilhança, é representado pelo máximo no gráfico de probabilidade. É claro que para um teste de dois itens, a distribuição do gráfico é muito larga. Porém, se aplicarmos mais itens, percebemos que a estimativa começa a afunilar. No exemplo abaixo, o candidato acertou 12 e errou 8 itens num teste de 20 itens.
Esse afunilamento permite o uso da tecnologia CAT para a aplicação de provas, vamos dizer: mais “inteligentes”.
TRI e Testes CAT
Um teste CAT, por exemplo, usa um algoritmo que sempre procura aplicar os itens que fornecem mais informação a respeito do candidato. Se, por exemplo, aplicamos uma série de itens muito fáceis, o candidato acerta todos, e não aprenderemos e nem saberemos nada sobre ele. Do mesmo jeito, se aplicamos uma série de itens que são difíceis demais, o único recurso do candidato será chutar, e novamente, não aprenderemos e não saberemos nada. O CAT escolhe os itens com a meta de afunilar o gráfico ao máximo, e sendo assim, permite uma avaliação mais exata com menos ítens.
Esse fator permite concentrar a aplicação, de maneira gradativa, de itens mais e mais aproximados ao verdadeiro nível de competência do candidato, eliminando, progressivamente, a necessidade de aplicar itens fáceis ou difíceis demais. A grande vantagem disso para o candidato é:
Cada candidato terá a percepção de que a prova foi “customizada” para ele com a diminuição de estresse (causado ao enfrentar itens difíceis demais) e/ou chatice (causado ao enfrentar itens fáceis demais). A diminuição de estresse é um fator importante em processos de certificação que, por sua própria característica (muitas vezes com exigências de ser aprovado para ganhar um emprego ou mantê-lo!), se define como uma experiência estressante.
Podemos aplicar um total menor de itens e, ao mesmo tempo, mais itens em volta do verdadeiro nível de competência do candidato; assim assegurando um resultado mais preciso (pois testamos muito melhor o candidato com itens do nível dele) e até reduzindo o tempo total do processo. A redução do tempo é também um fator na redução de estresse, pois ninguém gosta de passar metade de um dia em uma situação que exige tanta concentração como a submissão a uma prova formal.
Um bom exemplo de como um teste CAT atinge um resultado mais preciso com um total menor de itens aplicados se manifesta claramente no arquivo “log” de um verdadeiro teste de inglês aplicado:
Antes da adoção de CAT, a Prepona aplicava provas de múltipla escolha- proporção correta- nas suas avaliações de inglês. Dado que uma prova desse tipo deve tentar refletir a realidade do ensino, fomos obrigados a tentar ver em qual nível uma pessoa está escolhendo entre 10 possíveis níveis! Para isso, aplicamos provas de múltipla escolha, proporção correta, contendo 120 itens. Isso permitiu a aplicação máxima de somente 12 itens por nível de competência.
Com a adoção de CAT, podemos “acertar” o nível de um candidato com a aplicação de muito menos itens, mas, ao mesmo tempo, a aplicação de bem mais itens ao redor do nível de competência do candidato. O arquivo “log” acima mostra que a pessoa respondeu um total de 40 itens, seis dos quais tinham seus valores atribuídos de maneira arbitrária – as razões disso serão discutidos abaixo. O importante é que, com menos itens em total, aplicamos muitos mais (36) ao redor do nível verdadeiro de competência do candidato; assim gerando um resultado muito mais preciso.
Em resumo, a maior precisão do resultado final – o nivelamento de competência dos candidatos – e a redução do estresse são dois dos fatores principais na adoção da metodologia CAT em provas de certificação de pessoas.
O fato de ter um banco de itens calibrados, usando TRI e a aplicação através de CAT ajuda o organismo de certificação a manter a integridade do conteúdo das suas provas. Se a escolha do próximo item na prova depender da escolha da resposta do(s) item(ns) anterior(es), um candidato “fraco”, por exemplo, não vai ver os itens aplicados em um candidato mais “forte”; e vice versa.
O fato que gera a sensação entre os candidatos de terem feito uma prova “customizada” para cada um deles, significa um aumento grande na segurança da prova porque, na realidade, os candidatos responderam a itens diferentes e em ordens diferentes. Isso ajuda na luta contra os esforços de pessoas mal intencionadas e determinadas a defraudar o processo de certificação. Em síntese: o que reduz o estresse, aumenta a segurança.
O outro grande benefício, ou vantagem, é que, com itens devidamente calibrados, usando TRI, o organismo de certificação pode manter a consistência (a qualidade) da sua escala. Se por exemplo, um item sofre de “over exposure” (ou seja, se for escolhido demais pelo algoritmo do CAT), pode ser substituído por outro item com os valores psicométricos (a, b e c) mais próximos. Ou seja, em vez de substituir um item escolhendo outro qualquer, podemos escolher um item que tem o mesmo (ou quase o mesmo) grau de dificuldade com o mesmo poder de discriminação e com a mesma robustez contra chutes. Assim, o ato de substituição de itens não deverá afetar a consistência da escala.
Mas, essas vantagens, oriundas de um processo de análise TRI, não se aplicam somente às provas CAT, mas também trazem benefícios significativos ao desejo de assegurar, ou melhorar, a qualidade de provas de múltipla escolha de proporção correta.
Na sua aplicação, usando itens calibrados e um sistema computadorizado para a escolha aleatória de itens através de parâmetros pré-estabelecidos, podemos aumentar muito as combinações possíveis, sem detrimento da qualidade da prova como um todo e com o benefício de dificultar muito eventuais tentativas de defraudar o processo de certificação. Somente não podemos diminuir o estresse do candidato devido ao fato de que esse tipo de prova exige a aplicação de um número fixo de itens em um tempo determinado e com a abrangência de todos os níveis.
Mas, se o objetivo do organismo de certificação for avaliar áreas diferentes na mesma prova, por exemplo, ou for também mostrar no resultado onde um candidato é forte ou fraco – o que é de grande utilidade para orientação de seus estudos futuros – o uso de itens calibrados com TRI se demonstra excelente para assegurar a qualidade do processo.
Também será possível retirar ou substituir itens com a mesma facilidade e confiança que é possível num teste CAT.
Voltando para o CAT, gostaríamos de falar sobre mais uma vantagem: combinar a análise TRI com a metodologia CAT permite aproveitar as provas para calibrar itens novos a serem incluídos no banco de itens para uso futuro. A análise do arquivo “log” acima revela que existem seis itens sem valor atribuído, ou atribuído arbitrariamente. Alguns destes são “itens sementes”; ou seja, são itens que não influenciam o processo de avaliação e constam para fins de calibração. Em resumo, podemos usar os candidatos verdadeiros para calibrar itens novos. Passamos, então, a examinar o processo de calibração.
Calibração dos Itens
Como sabemos, cada item é definido por três parâmetros:
A discriminação (a) – que mede o poder que o item tem para diferenciar os candidatos que sabem mais daqueles que sabem menos
O grau de dificuldade (b)
Fator de chute (c) – que leva em conta que um candidato fraco pode acertar um item difícil no chute
No início de um processo de testagem, não podemos nem estimar estes valores; então, é necessário coletar dados de duas formas:
1. Aplicando provas simuladas em candidatos futuros, e/ou
2. Executando a análise TRI em provas antigas.
Pré-Calibração em Provas Simuladas
De posse do banco inicial de itens, formam-se diversas provas onde as versões diferentes têm alguns itens em comum. Consideremos, como um exemplo simples, um banco com 250 itens: poderíamos dividi-lo em dez pacotes com 25 itens e, em seguida, construir dez provas de 50 itens cada a seguir:
Prova 1 = Pacote 1 + Pacote 2
Prova 2 = Pacote 2 + Pacote
“ “ “
“ “ “
Prova 9 = Pacote 9 + Pacote 10
Prova 10 = Pacote 10 + Pacote 11
Sistemas mais complexos podem ser utilizados, se necessário, mas é importante que estes testes sejam aplicados a candidatos do mesmo nível daqueles que farão o teste de verdade.
Calibração
O processo de estimativa dos parâmetros é computacionalmente intensivo. Utilizamos um programa, desenvolvido exclusivamente para esta finalidade, que usa uma abordagem algorítmica:
Fase 1 – Estimativas iniciais são calculadas baseadas em transformações de estatísticas clássicas
Fase 2 – Estas estimativas são sintonizadas utilizando o algoritmo de expectativa-maximização (EM) [1]. O ciclo EM se repete até os parâmetros permanecerem constantes. Caso algum item não convirja, o sistema alerta e o item deverá ser avaliado.
NB: Se um organismo de certificação tiver guardado exames anteriores e as respostas dadas pelos candidatos, podemos executar um processo de calibração, assim acelerando a geração de itens chaves calibrados e prontos para uso.
[1] Dempster, Laird & Rubin - "Maximum Likelihood from Incomplete Data via the EM Algorithm". Journal of the Royal Statistical Society, Series B (Methodological) 39 (1): 1–38 (1977).
A Construção de uma Prova de Múltipla Escolha de Proporção Correta
Com os valores a, b e c calculados, sabemos quais itens são os melhores para serem incluídos na prova final. A prova costuma ter um perfil que poderá ser da seguinte forma:
Tema 1 – Fáceis - x1 itens, Médias – y1 itens, Difíceis – z1 itens
Tema 2 – Fáceis - x2 itens, Médias – y2 itens, Difíceis – z2 itens
Tema 3 – Fáceis - x3 itens, Médias – y3 itens, Difíceis – z3 itens
etc...
Obs. 1: O sistema poderá escolher itens aleatoriamente dentre aqueles classificados em cada faixa de dificuldade/tema.
Obs. 2: Poderá haver mais de três faixas de dificuldade
A Construção de uma Prova CAT
Neste caso, todos os itens “aprovados” são colocados no banco. O primeiro item é escolhido de acordo com um critério pré-estabelecido, e os itens seguintes de acordo com todas as respostas do candidato aos itens anteriores.
Em conclusão, a análise TRI é uma função vital ao processo de certificação de pessoas, pois permite assegurar ao mercado a qualidade exigida, não importando se o organismo opta por aplicar exames usando a metodologia CAT ou aplicar provas computadorizadas de múltipla escolha de proporção correta.
Vimos que o processo de calibração deve ser executado antes do lançamento da prova, mas, uma vez que o banco de itens estiver calibrado e a prova sendo aplicada, ainda existe a possibilidade de calibrar itens novos a serem incluídos no banco para uso futuro.
A vantagem disso se reflete principalmente na diminuição de trabalho dos conteudistas em produzir conteúdo novo, pois podemos utilizar ao máximo o banco existente com o mínimo de manutenção e o máximo de segurança.
A utilização da análise TRI também oferece a oportunidade de avaliar diferentes bancos de itens do mesmo exame ou até comparar um exame feito por um cliente versus os exames feitos pelos outros candidatos no mesmo processo. Isso se chama Função de Resposta ao Teste (“Test Response Function”) e a Prepona pode usá-la para ajudar seus clientes a verificar se tem fundamento uma reclamação feita em recurso na linha: “minha prova foi mais difícil do que a prova dos outros candidatos”.
Função de Resposta ao Teste (Test Response Function) para Equivalência de Blocos
Alguns clientes preferem o uso de vários blocos de itens na aplicação dos seus exames de certificação e escolhem essa opção para manter maior controle sobre o que está sendo aplicado. TRI é importante, na primeira instância, para avaliar se existe uma distribuição homogênea de itens de graus de dificuldade similares em todos os blocos. Ou seja, queremos ter certeza que os candidatos respondendo aos itens do bloco 1, por exemplo, não recebam um número maior de itens fáceis do que os candidatos respondendo aos itens dos outros blocos. É de nossa responsabilidade, em nome de “fair play”, tentar assegurar que cada bloco represente o mesmo desafio para todos os candidatos. Além de usar TRI, então, para fazer uma distribuição justa entre os blocos e assegurar a qualidade e consistência da escala, podemos avaliar como se comparam ao receber de volta as respostas dadas pelos candidatos. Com esses dados, podemos demonstrar, em forma de gráfico, o agrupamento dos blocos e ver se algum fica fora do esperado.
O gráfico ao lado mostra como são bem agrupados os dez blocos usados por um cliente no mesmo exame. Nesse exame é necessário, para ser aprovado, responder corretamente a 35 dos 50 itens (ou 70%).
Podemos ver que as curvas representando os blocos são bem próximas, umas das outras, especialmente no patamar de 35 respostas certas. Podemos concluir que, em termos práticos, nenhum candidato está sendo prejudicado por ter recebido um bloco (exame) mais difícil de que os outros.
Se passarmos a avaliar os blocos de itens em outro exame, podemos ver que talvez exista uma base para reclamação e, consequentemente, uma necessidade de tomar providências corretivas; veja abaixo:
Além de perceber que, como um todo, o agrupamento é um pouco mais disperso, existe um bloco que está bem fora da curva dos outros. Podemos, então, recomendar que esse bloco receba uma análise mais cuidadosa dos itens contidos nele.
Este tipo de análise da “equivalência” dos blocos serve para assegurar a qualidade dos exames construídos por vários blocos e responder a reclamações formais (por meio de recurso) ou informais (boatos), de que alguns exames são mais difíceis do que outros.
Uma variação dessa análise pode ser usada em outro tipo de aplicação de exames de múltipla escolha – o tipo de teste em que o cliente não quer utilizar blocos, mas quer selecionar itens randomicamente de um banco principal, conforme demonstramos na página seguinte.
Função de Resposta ao Teste (Test Response Function) para Equivalência de Exames
Outros clientes preferem que o sistema use os parâmetros estabelecidos para gerar um número quase ilimitado de testes do mesmo banco de itens. A TRI é muito importante nesse caso e fornece um benefício caso um candidato entre com um recurso alegando que, na opinião dele, o exame que fez foi mais difícil do que os exames feitos por outros candidatos. Usando o sistema, podemos gerar a combinação de itens para produzir o exame mais fácil daquele banco de itens. E fazer o mesmo processo para gerar o exame mais difícil possível; assim estabelecendo as duas extremidades, além de podermos estabelecer o mediano. Isto feito, podemos processar os itens respondidos pelo candidato para, então, comparar o “grau de dificuldade” do exame daquele candidato com o mediano e as duas extremidades. Veja abaixo os gráficos de dois candidatos:
Candidato A
Podemos ver que, pela maior parte do exame, o candidato A ficou no lado mais fácil (mas bem próximo) do mediano, então não há fundamento algum para reclamar.
Candidato B
Neste caso, candidato B também não teria razão para reclamar, pois recebeu ítens que estão praticamente na linha de mediano!
Esse tipo de análise torna-se parte do arsenal de dados e ferramentas de análise com que os clientes, como organismos de certificação, podem contar para assegurar a qualidade dos seus exames. E tudo tendo como sua base à análise a Teoria de Resposta ao Item (TRI).
Mas, além da metodologia TRI, a Prepona executa em real time outra análise que visa a analisar o desempenho das respostas incorretas em cada item – ou seja, uma análise no nível micro ou dentro de cada item.
Sabemos que a parte mais difícil na redação de um item é a criação dessas respostas. Chamamos essas respostas de “distraidores”, pois devem atuar para atrair os candidatos que não têm o grau de competência necessária para escolher a resposta certa. Ou seja, procuramos evitar, por exemplo, aquelas respostas “bobas” demais que podem ajudar um candidato fraco a melhorar suas chances de “chutar”!
Análise de “Distratores” (Distractor Analysis)
Embora os itens selecionados para compor o teste já tenham sido submetidos a uma avaliação estatística para determinar os que melhor avaliam os candidatos, é interessante avaliá-los em maior detalhe para ver como podem ser melhorados.
Como já foi explicado, o comportamento ideal de um item é representado por:
Porém, é importante também considerar as alternativas erradas e o seu comportamento. O ideal é que todas as respostas erradas atraiam um número significativo de candidatos fracos e números menores conforme a competência dos candidatos sobe.
A Prepona analisa os itens respondidos pelos candidatos para verificar o seu comportamento, mostrando possíveis falhas nos itens que podem ser melhorados. O gráfico abaixo é um exemplo de um item quase ideal:
A linha correspondendo à resposta correta (linha azul) sobe bruscamente enquanto todas as respostas erradas caem regularmente, chegando a quase zero. Os candidatos mais fracos pareciam estar totalmente perdidos, cada resposta errada foi escolhida por pelo menos 20% deles.
O item abaixo, porém, deveria ser examinado e modificado, pois apresenta uma resposta errada com sérios problemas.
A resposta errada, representada pela linha azul, está atraindo candidatos de competência mediana cada vez mais, conforme o nível de competência sobe. A resposta certa só começa a subir entre os candidatos muito bons. Em resumo, essa resposta errada está “confundindo” demais.
O item abaixo mostra outro comportamento:
A resposta certa (linha verde) se comporta bem, duas das respostas erradas funcionam bem (linha roxa) e satisfatoriamente (linha azul). A resposta errada representada pela linha vermelha, porém, não atrai quase ninguém. Uma resposta errada “morta” deste tipo, que é obviamente errada até para os candidatos mais fracos não contribui em nada e deverá ser removida ou substituída.
Em conclusão, a análise de distratores permite à Prepona ajudar seus parceiros a aprimorar, mais ainda, a qualidade do conteúdo das provas de certificação de pessoas.