A "misteriosa" pontuação do ENEM: Veja como sua nota deve ter sido calculada

O objetivo deste post é mostrar, na prática, como as notas das provas objetivas do Exame Nacional do Ensino Médio (ENEM), realizado pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), são obtidas. Porém antes, é preciso esclarecer alguns pontos:

1 - A Teoria da Resposta ao Item (TRI) oferece vários métodos de cálculo e o INEP não diz quais deles são usados para o ENEM.

2 - Este blogueiro é leigo no assunto "Estatística". Então, se você não compreendeu alguma fórmula matemática, não se desespere: praticamente ninguém entende, eu também não, e os próprios organizadores do Exame não sabem exatamente o que estão fazendo, matematicamente falando.

3 - Para obter as notas, não é preciso saber as tais fórmulas: o próprio INEP utiliza um programa de computador pra calcular as notas. Não precisa tentar entender essas fórmulas.

4 - Caso você perceba algum equívoco no processo de cálculo, basta deixar um comentário apontando a falha, que a corrijo sem problemas.

Feitos esses esclarecimentos, vamos ao que interessa.

A Teoria da Resposta ao Item (TRI)

É uma modelagem estatística usada pra medir a habilidade de respondentes, geralmente em testes de conhecimento.

O foco do estudo são as questões, chamadas itens, e não o desempenho individual dos respondentes.

O modelo logístico mais utilizado atualmente é o de 3 parâmetros (ML3):

I) Dificuldade do item;

II) Poder de discriminação do item e

III) Probabilidade de resposta correta dada por indivíduos de baixa habilidade (acerto casual ou "chute").

Para itens dicotômicos, isto é, que só admitem dois tipos de correção: certo ou errado, e um único grupo de respondentes, o modelo é dado por:

$P(U_{ij}=1|\theta _{j})=c_{i}+(1-c_{i})\frac{1}{1+e^{-Da_{i}(\theta _{j}-b_{i})}}$ , com i = 1, 2, 3, ..., I e j = 1, 2, 3, ..., n.

Onde:

Uij é uma variável dicotômica (isto é, pode assumir dois valores), que assume o valor 1 quando o indivíduo de número j responde corretamente o item (questão) de número i, e assume o valor 0 quando o indivíduo j erra o item (questão) i;

i é o número do item (questão) dentre o total de I itens;

j é o número do indivíduo dentre o total de n indivíduos;

θj (lê-se téta-jota) é a habilidade (traço latente ou proficiência) do indivíduo j;

P(Uij=1|θj) é a probabilidade de o indivíduo j com habilidade θj acertar o item i. Essa probabilidade é chamada Função de Resposta do Item (FRI). A barra vertical | significa probabilidade condicional: é a probabilidade de acerto dada uma certa habilidade θj já conhecida;

ai é o parâmetro de discriminação (ou inclinação) do item i, um valor proporcional à inclinação da Curva Característica do Item (CCI) no ponto bi. Quanto maior o valor de ai, mais "segmentado" é o item i, pois alunos com habilidades bastante próximas foram capazes de respondê-lo corretamente. Valores baixos de ai, ao contrário, indicam que o item i pode ser respondido corretamente por alunos com habilidades bastante diferentes;

bi é o parâmetro de dificuldade (ou posição) do item i, medido na mesma escala das habilidades. Quanto maior o valor de b, mais difícil é a questão/item. E quanto menor o valor de b, mais fácil é a questão;

ci é o parâmetro do item i que corresponde à probabilidade de indivíduos com baixa habilidade responderem-no corretamente. É a probabilidade de "acertar chutando";

D é um fator de escala igual a 1. Usa-se o valor 1,7 quando se deseja que a função logística forneça resultados semelhantes ao da função ogiva normal;

e é o número de Euler, a base dos logaritmos naturais (ou neperianos), com valor aproximadamente igual a 2,7182818284.

Exemplo de Curva Característica do Item (CCI) - probabilidade de acerto em função da habilidade:

(clique para ampliar)

Essa curva é da 2ª questão de uma prova de 20 questões de múltipla escolha com 5 alternativas (A, B, C, D, E). Observe que o valor de b é 1,257, bastante alto e próximo do máximo (3). O valor de a também é alto, o que mostra que é uma questão com alto poder de discriminação (a alto) e alto grau de dificuldade (b alto). Por isso a curva do gráfico está "mais pra direita". O valor de c = 0,184 é baixíssimo, sendo menor que a probabilidade mínima normalmente esperada para 5 alternativas: 1 para 5 = 1/5 = 0,2. Ou seja, a questão é tão difícil que os alunos não conseguiram "chutar".

Função de Informação do Item (FII)

Medida que permite analisar quanto uma questão (item) contém de informação para a medida das habilidades. Para o ML3, é dada por:

$I_{i}(\theta )=D^2a_{i}^2\frac{Q_{i}(\theta )}{P_{i}(\theta )}[\frac{P_{i}(\theta )-c_{i}}{1-c_{i}}]^2$

Onde:

Ii(θ) é a informação fornecida pelo item num nível de habilidade θ;

Pi(θ) = P(Uij=1|θ) (probabilidade de acerto);

Qi(θ) = 1 - Pi(θ) (probabilidade de erro).

O total de informação do teste é a soma das informações de cada item.

$I(\theta )=\sum_{i=1}^{I}Ii(\theta )$

A informação do teste também pode ser expressa através do erro-padrão de estimação:

$EP(\theta )=\frac{1}{\sqrt{I(\theta )}}$

Todas as expressões acima podem ser calculadas sem muitos recursos. O problema que torna inviável obter as notas sem auxílio de computadores é estimar os parâmetros dos itens (a, b e c) e as habilidades "teta" (θ) dos examinados. É disso que falaremos agora.

Métodos de Estimação

Faz-se necessário estimar os parâmetros dos itens:

a -> parâmetro de discriminação - valor numérico que expressa o quanto uma questão é "segmentada": se a maioria dos que acertaram a questão tiveram bom desempenho, o valor é alto, e o contrário também vale: se a maioria dos que responderam corretamente teve mau ou péssimo desempenho, o valor de a também é alto. Se a questão foi respondida corretamente por indivíduos de desempenhos muito variados (ótimos e péssimos alunos conseguiram acertar), o valor de a é baixo.

b -> parâmetro de dificuldade - valor numérico que expressa o grau de dificuldade da questão. Quanto maior o valor de b, mais difícil a questão, e quanto menor, mais fácil a questão.

c -> probabilidade de indivíduos de baixa habilidade responderem corretamente à questão. É a probabilidade de acerto casual, a chance de acertar a questão "no chute". Se o valor de c é alto, significa que muitos individuos de baixa habilidade acertaram, provavelmente "chutando", e se o valor de c é baixo, significa que é difícil acertar a questão "no chute".

Geralmente o valor de a fica entre 0 e 2, o valor de b, entre -1 e 2 e o valor de c, entre 0 e 1.

Também precisamos estimar as habilidades (proficiências) (θ - lê-se téta) de cada indivíduo.

Eis os métodos de estimação para um único grupo, respondendo uma prova de múltipla escolha, como é o caso do ENEM (o detalhamento matemático dos métodos foge ao objetivo deste post):

Estimação dos parâmetros dos itens:
- Máxima Verossimilhança Marginal (MVM)
- Método Bayesiano

Estimação das habilidades:
- Máxima Verossimilhança (MV)
- Método Bayesiano - Estimação pela média da posteriori (EAP - Expected a posteriori)
- Método Bayesiano - Estimação pela moda da posteriori (MAP - Maximum a posteriori)

Estimação conjunta - parâmetros dos itens e habilidades:
- Máxima Verossimilhança Conjunta (MVC)

Porém, tudo que o INEP diz a respeito da nota do ENEM é:

"O cálculo das proficiências nas provas objetivas tem como base a Teoria de Resposta ao Item (TRI).", conforme item 6.7.5 do edital nº 07, de 18 de maio de 2011, que dispõe sobre a edição mais recente do exame.

No dia 21 de dezembro de 2011, o Instituto divulgou também uma nota oficial a respeito da TRI. Uma excelente apresentação da Teoria, infinitamente melhor que a deste blogueiro, mas que não fala quais são os métodos utilizados por eles.

Neste ponto, precisaremos levar em consideração informações extra-oficiais. De acordo com reportagens dos jornais A Gazeta e O Globo, o INEP utiliza o software BILOG no cálculo das notas. Esse programa estima os parâmetros dos itens somente pelo método da Máxima Verossimilhança Marginal (MVM) e, para as habilidades, oferece os três métodos: Máxima Verossimilhança, Bayesiano - EAP e Bayesiano - MAP.

Consultando, mais uma vez, informações extra-oficiais, em um estudo a respeito da inadequação da metodologia de cálculo das notas do Sistema de Seleção Unificada (SiSU), o especialista em Educação Leonardo Cordeiro afirma:

"(...)Essa amostra foi utilizada na estimação dos parâmetros dos itens e no cálculo da habilidade, de acordo com a mesma metodologia TRI utilizada pelo INEP. O modelo utilizado é o logístico de três parâmetros, estimados por máxima verossimilhança marginal, assumindo-se a distribuição normal padrão para o traço latente. Por sua vez, a medida da habilidade é estimada pelo método Bayesiano EAP - 'expected a priori' - e transformada para uma medida com média igual a 500 e desvio-padrão igual a 100.(...)"

Em sua Dissertação de Mestrado em Estatística pela Universidade Federal do Pará (UFPA), disponível na internet, Francisco Fialho Guedes Ferreira também optou pelo método de estimação pela Média da Posteriori - EAP, na estimação das habilidades (pág. 79).

Agora já se pode inferir que o provável método para estimação das habilidades é o Bayesiano (EAP).

Na parte 2, vamos calcular as notas usando o programa BILOG-MG.

A "misteriosa" pontuação do ENEM

sábado, 14 de janeiro de 2012

Veja como sua nota deve ter sido calculada - parte 1 de 3

Um comentário: