A "misteriosa" pontuação do ENEM

terça-feira, 17 de janeiro de 2012

Brechas da TRI: veja porque os principais vestibulares do Brasil não adotam esse sistema

Recentemente, o colunista da revista Veja Reinaldo Azevedo publicou um artigo onde relata o comentário de um professor que fez apenas o segundo dia das provas do ENEM, e ainda entregou o cartão de respostas em branco. Para sua surpresa, ele tirou 304.2 na prova de Linguagens e 321.6 na prova de Matemática.

O colunista escreve que isso "nada tem a ver com qualquer teoria matemática".

Fomos verificar isso na prática. Pegando como exemplo uma turma de 11 alunos, que responderam a um teste de 20 questões, sendo 10 de Ciências da Natureza e 10 de Matemática, com 5 alternativas (A, B, C, D e E), onde o 11º aluno zerou as duas provas. Utilizando o programa de computador BILOG-MG pra calcular as notas, a classificação final é:

Ciências da Natureza

Posição	ID do aluno	Nota TRI	Acertos (%)
1	A4	674.8	100
2	A10	596.3	80
3	A3	591.7	80
4	A2	546.6	60
5	A7	501.3	60
6	A1	498.3	50
7	A6	478.3	50
8	A5	450.2	40
9	A9	426.7	30
10	A8	368.0	10
11	A11	356.8	0

Matemática

Colocação	ID do aluno	Nota TRI	Acertos (%)
1	A7	681.7	100
2	A10	641.2	90
3	A4	606.8	80
4	A3	546.8	60
5	A6	515.1	50
6	A1	490.4	50
7	A9	457.0	30
8	A5	428.8	20
9	A2	384.8	20
10	A8	363.1	10
11	A11	361.7	0

O aluno que não acertou nenhuma questão ficou com nota 356.8 em Ciências da Natureza e 361.7 em Matemática. Ou seja, o fato de uma pessoa deixar o gabarito em branco e tirar uma nota em torno de 300 no ENEM tem, sim, a ver com a Teoria da Resposta ao Item. O programa que faz os cálculos oferece duas possibilidades para uma questão deixada em branco pelo aluno: ou ela conta como "erro", ou como "parcialmente correta". A primeira opção é escolhida para o ENEM, por isso um gabarito em branco é interpretado pelo programa como "todo errado", como se a pessoa tivesse respondido todas as questões e errado todas.

No uso do programa BILOG, "um gabarito em branco é um gabarito todo errado", e ele não vale zero. Uma brecha que oculta esse tipo de comportamento do aluno, de não responder nada.

Com isso, as pessoas que não assinalaram nada no gabarito só podem ter nota zero se for feito algum procedimento adicional fora do programa BILOG. Se os dados forem inseridos direto no programa, a nota zero não aparece. Não há garantia que o mesmo procedimento tenha sido aplicado para todos os alunos, ou seja: algumas pessoas podem ter deixado em branco e tirado zero; outras podem ter deixado em branco e tirado a nota mínima.

Isso revela a falta de transparência da TRI em situações extremas. O que entendemos por "transparência" é a capacidade de a pontuação expressar claramente o que aquele aluno foi capaz de fazer. No exemplo acima, o número 361.7 leva a crer que o aluno foi mal, apenas isso, quando na verdade ele não conseguiu nada. Outra situação interessante que demonstra essa característica é pegar um aluno, que responde a uma mesma prova, exatamente da mesma maneira, mas trocar o grupo no qual ele está inserido.

Por exemplo: uma prova de 10 questões, feita por 15 alunos, com 5 alternativas por questão (ABCDE). Vamos construir dois cenários bem distintos nessa situação. O esforçado aluno A1 estará presente em ambos os cenários. Ele vai acertar todas as questões. A pontuação será calculada através do procedimento mostrado aqui.

Cenário hipotético 1

A turma fez uma prova equilibrada:

Colocação	Nota TRI	Acertos (%)
1	679.3	100
2	643.1	90
3	613.2	80
4	573.7	70
5	566.3	70
6	539.2	60
7	498.4	40
8	459.8	40
9	457.3	40
10	429.1	30
11	412.7	30
12	411.7	20
13	401.1	20
14	396.6	10
15	382.1	0

Anexo - Respostas dadas pelos alunos

Cenário hipotético 2

A turma foi mal na prova, com exceção do aluno A1:

Colocação	Nota TRI	Acertos (%)
1	765.4	100
2	563.6	50
3	492.4	10
4	476.5	30
5	476.5	30
6	464.1	30
7	436.4	20
8	434.1	10
9	433.9	10
10	433.9	10
11	433.9	10
12	428.4	0
13	428.4	0
14	428.4	0
15	428.4	0

Anexo - Respostas dadas pelos alunos

Agora, responda com sinceridade: olhando apenas a nota TRI, dá pra ter uma noção precisa do desempenho dos alunos? E olhando somente a porcentagem de acertos?

E qual a pontuação mais adequada para os principais vestibulares, aqueles que querem saber exatamente qual aluno estão avaliando?

Uma teoria matemática complexa vale mais que o senso comum?

Tire suas próprias conclusões.

sábado, 14 de janeiro de 2012

Veja como sua nota deve ter sido calculada - parte 1 de 3

O objetivo deste post é mostrar, na prática, como as notas das provas objetivas do Exame Nacional do Ensino Médio (ENEM), realizado pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), são obtidas. Porém antes, é preciso esclarecer alguns pontos:

1 - A Teoria da Resposta ao Item (TRI) oferece vários métodos de cálculo e o INEP não diz quais deles são usados para o ENEM.

2 - Este blogueiro é leigo no assunto "Estatística". Então, se você não compreendeu alguma fórmula matemática, não se desespere: praticamente ninguém entende, eu também não, e os próprios organizadores do Exame não sabem exatamente o que estão fazendo, matematicamente falando.

3 - Para obter as notas, não é preciso saber as tais fórmulas: o próprio INEP utiliza um programa de computador pra calcular as notas. Não precisa tentar entender essas fórmulas.

4 - Caso você perceba algum equívoco no processo de cálculo, basta deixar um comentário apontando a falha, que a corrijo sem problemas.

Feitos esses esclarecimentos, vamos ao que interessa.

A Teoria da Resposta ao Item (TRI)

É uma modelagem estatística usada pra medir a habilidade de respondentes, geralmente em testes de conhecimento.

O foco do estudo são as questões, chamadas itens, e não o desempenho individual dos respondentes.

O modelo logístico mais utilizado atualmente é o de 3 parâmetros (ML3):

I) Dificuldade do item;

II) Poder de discriminação do item e

III) Probabilidade de resposta correta dada por indivíduos de baixa habilidade (acerto casual ou "chute").

Para itens dicotômicos, isto é, que só admitem dois tipos de correção: certo ou errado, e um único grupo de respondentes, o modelo é dado por:

$P(U_{ij}=1|\theta _{j})=c_{i}+(1-c_{i})\frac{1}{1+e^{-Da_{i}(\theta _{j}-b_{i})}}$ , com i = 1, 2, 3, ..., I e j = 1, 2, 3, ..., n.

Onde:

Uij é uma variável dicotômica (isto é, pode assumir dois valores), que assume o valor 1 quando o indivíduo de número j responde corretamente o item (questão) de número i, e assume o valor 0 quando o indivíduo j erra o item (questão) i;

i é o número do item (questão) dentre o total de I itens;

j é o número do indivíduo dentre o total de n indivíduos;

θj (lê-se téta-jota) é a habilidade (traço latente ou proficiência) do indivíduo j;

P(Uij=1|θj) é a probabilidade de o indivíduo j com habilidade θj acertar o item i. Essa probabilidade é chamada Função de Resposta do Item (FRI). A barra vertical | significa probabilidade condicional: é a probabilidade de acerto dada uma certa habilidade θj já conhecida;

ai é o parâmetro de discriminação (ou inclinação) do item i, um valor proporcional à inclinação da Curva Característica do Item (CCI) no ponto bi. Quanto maior o valor de ai, mais "segmentado" é o item i, pois alunos com habilidades bastante próximas foram capazes de respondê-lo corretamente. Valores baixos de ai, ao contrário, indicam que o item i pode ser respondido corretamente por alunos com habilidades bastante diferentes;

bi é o parâmetro de dificuldade (ou posição) do item i, medido na mesma escala das habilidades. Quanto maior o valor de b, mais difícil é a questão/item. E quanto menor o valor de b, mais fácil é a questão;

ci é o parâmetro do item i que corresponde à probabilidade de indivíduos com baixa habilidade responderem-no corretamente. É a probabilidade de "acertar chutando";

D é um fator de escala igual a 1. Usa-se o valor 1,7 quando se deseja que a função logística forneça resultados semelhantes ao da função ogiva normal;

e é o número de Euler, a base dos logaritmos naturais (ou neperianos), com valor aproximadamente igual a 2,7182818284.

Exemplo de Curva Característica do Item (CCI) - probabilidade de acerto em função da habilidade:

(clique para ampliar)

Essa curva é da 2ª questão de uma prova de 20 questões de múltipla escolha com 5 alternativas (A, B, C, D, E). Observe que o valor de b é 1,257, bastante alto e próximo do máximo (3). O valor de a também é alto, o que mostra que é uma questão com alto poder de discriminação (a alto) e alto grau de dificuldade (b alto). Por isso a curva do gráfico está "mais pra direita". O valor de c = 0,184 é baixíssimo, sendo menor que a probabilidade mínima normalmente esperada para 5 alternativas: 1 para 5 = 1/5 = 0,2. Ou seja, a questão é tão difícil que os alunos não conseguiram "chutar".

Função de Informação do Item (FII)

Medida que permite analisar quanto uma questão (item) contém de informação para a medida das habilidades. Para o ML3, é dada por:

$I_{i}(\theta )=D^2a_{i}^2\frac{Q_{i}(\theta )}{P_{i}(\theta )}[\frac{P_{i}(\theta )-c_{i}}{1-c_{i}}]^2$

Onde:

Ii(θ) é a informação fornecida pelo item num nível de habilidade θ;

Pi(θ) = P(Uij=1|θ) (probabilidade de acerto);

Qi(θ) = 1 - Pi(θ) (probabilidade de erro).

O total de informação do teste é a soma das informações de cada item.

$I(\theta )=\sum_{i=1}^{I}Ii(\theta )$

A informação do teste também pode ser expressa através do erro-padrão de estimação:

$EP(\theta )=\frac{1}{\sqrt{I(\theta )}}$

Todas as expressões acima podem ser calculadas sem muitos recursos. O problema que torna inviável obter as notas sem auxílio de computadores é estimar os parâmetros dos itens (a, b e c) e as habilidades "teta" (θ) dos examinados. É disso que falaremos agora.

Métodos de Estimação

Faz-se necessário estimar os parâmetros dos itens:

a -> parâmetro de discriminação - valor numérico que expressa o quanto uma questão é "segmentada": se a maioria dos que acertaram a questão tiveram bom desempenho, o valor é alto, e o contrário também vale: se a maioria dos que responderam corretamente teve mau ou péssimo desempenho, o valor de a também é alto. Se a questão foi respondida corretamente por indivíduos de desempenhos muito variados (ótimos e péssimos alunos conseguiram acertar), o valor de a é baixo.

b -> parâmetro de dificuldade - valor numérico que expressa o grau de dificuldade da questão. Quanto maior o valor de b, mais difícil a questão, e quanto menor, mais fácil a questão.

c -> probabilidade de indivíduos de baixa habilidade responderem corretamente à questão. É a probabilidade de acerto casual, a chance de acertar a questão "no chute". Se o valor de c é alto, significa que muitos individuos de baixa habilidade acertaram, provavelmente "chutando", e se o valor de c é baixo, significa que é difícil acertar a questão "no chute".

Geralmente o valor de a fica entre 0 e 2, o valor de b, entre -1 e 2 e o valor de c, entre 0 e 1.

Também precisamos estimar as habilidades (proficiências) (θ - lê-se téta) de cada indivíduo.

Eis os métodos de estimação para um único grupo, respondendo uma prova de múltipla escolha, como é o caso do ENEM (o detalhamento matemático dos métodos foge ao objetivo deste post):

Estimação dos parâmetros dos itens:
- Máxima Verossimilhança Marginal (MVM)
- Método Bayesiano

Estimação das habilidades:
- Máxima Verossimilhança (MV)
- Método Bayesiano - Estimação pela média da posteriori (EAP - Expected a posteriori)
- Método Bayesiano - Estimação pela moda da posteriori (MAP - Maximum a posteriori)

Estimação conjunta - parâmetros dos itens e habilidades:
- Máxima Verossimilhança Conjunta (MVC)

Porém, tudo que o INEP diz a respeito da nota do ENEM é:

"O cálculo das proficiências nas provas objetivas tem como base a Teoria de Resposta ao Item (TRI).", conforme item 6.7.5 do edital nº 07, de 18 de maio de 2011, que dispõe sobre a edição mais recente do exame.

No dia 21 de dezembro de 2011, o Instituto divulgou também uma nota oficial a respeito da TRI. Uma excelente apresentação da Teoria, infinitamente melhor que a deste blogueiro, mas que não fala quais são os métodos utilizados por eles.

Neste ponto, precisaremos levar em consideração informações extra-oficiais. De acordo com reportagens dos jornais A Gazeta e O Globo, o INEP utiliza o software BILOG no cálculo das notas. Esse programa estima os parâmetros dos itens somente pelo método da Máxima Verossimilhança Marginal (MVM) e, para as habilidades, oferece os três métodos: Máxima Verossimilhança, Bayesiano - EAP e Bayesiano - MAP.

Consultando, mais uma vez, informações extra-oficiais, em um estudo a respeito da inadequação da metodologia de cálculo das notas do Sistema de Seleção Unificada (SiSU), o especialista em Educação Leonardo Cordeiro afirma:

"(...)Essa amostra foi utilizada na estimação dos parâmetros dos itens e no cálculo da habilidade, de acordo com a mesma metodologia TRI utilizada pelo INEP. O modelo utilizado é o logístico de três parâmetros, estimados por máxima verossimilhança marginal, assumindo-se a distribuição normal padrão para o traço latente. Por sua vez, a medida da habilidade é estimada pelo método Bayesiano EAP - 'expected a priori' - e transformada para uma medida com média igual a 500 e desvio-padrão igual a 100.(...)"

Em sua Dissertação de Mestrado em Estatística pela Universidade Federal do Pará (UFPA), disponível na internet, Francisco Fialho Guedes Ferreira também optou pelo método de estimação pela Média da Posteriori - EAP, na estimação das habilidades (pág. 79).

Agora já se pode inferir que o provável método para estimação das habilidades é o Bayesiano (EAP).

Na parte 2, vamos calcular as notas usando o programa BILOG-MG.

Veja como sua nota deve ter sido calculada - parte 2 de 3

Mãos à obra

Esta parte do post é dedicada a mostrar o processo prático. Como já foi dito no começo do texto, se o leitor notar qualquer equívoco, basta manifestar-se nos comentários, que estou disposto a corrigi-lo(s).

O programa BILOG-MG, usado pelo INEP pra obter as notas, é pago, e sua versão de demonstração (demo ou trial), baixada de graça, só funciona durante 15 dias. No momento em que publiquei este post, restavam 8 dias pra usar o programa.

Começando do zero

Tudo se inicia no leitor óptico dos gabaritos: ele interpreta as informações como um código de barras e transfere as informações para o computador ao qual está conectado. Os dados são armazenados em arquivos .dat. Por exemplo: 2 alunos fazem uma prova de 12 questões de múltipla escolha, com as alternativas A, B, C e D. O arquivo fica assim:

1  124311332131

2 321144242121

Ou seja, letra A = 1, letra B = 2, letra C = 3 e letra D = 4.

- Número de identificação do indivíduo: 1; Respostas que ele marcou: 124311332131
- Número de identificação do indivíduo: 2; Respostas que ele marcou: 321144242121

O número de identificação de cada indivíduo é definido pelo usuário. No exemplo acima, identifiamos os indivíduos por números simples: indivíduo "1" e indivíduo "2". Mas numa prova como o ENEM, os indivíduos são identificados pelo número de inscrição ou então pelo número do cartão de resposta.

Falaremos sobre o gabarito da prova depois.

Os arquivos .dat podem ser abertos e editados no Bloco de Notas do Windows:

(clique para ampliar)

Nessa imagem, vê-se as respostas feitas por 1000 alunos a uma prova de 15 questões de múltipla escolha com 5 alternativas: A(1), B(2), C(3), D(4) e E(5). O número 9 significa que o aluno deixou a questão em branco.

No entanto, colocar 1000 notas neste post é um exagero e seria cansativo analisar a situação de todos os alunos. Por isso, vamos usar um grupo bem menor.

Nosso exemplo

Vamos calcular as notas de um pequeno grupo de 10 alunos, que responderam a uma prova de 20 questões, sendo 10 de Ciências da Natureza e 10 de Matemática. As questões eram de múltipla escolha, com 5 alternativas.

Como não temos um leitor óptico, o jeito é criar um arquivo .dat no Bloco de Notas. Porém, é muito trabalhoso digitar respostas de 1 a 5, como nos exemplos anteriores. Aqueles tinham sido gerados por uma máquina. Além do mais, o programa não liga se foi alternativa A, B, C, D ou E. Para o cálculo, o que importa na questão é:
- Quantas alternativas ela possui (para calcular a probabilidade do "chute") e
- Se o aluno acertou ou errou a questão.

Então, para ter menos trabalho, vamos digitar as respostas pela convenção: "0" significa erro, e "1" significa acerto. Porém, mais tarde vamos informar ao programa que existem 5 alternativas, para as probabilidades serem calculadas corretamente.

(clique para ampliar)

Abrimos o Bloco de Notas e simplesmente digitamos...

...E na hora de salvar, escolhemos a opção "Todos os arquivos" e digitamos o nome do documento com ".dat" no final

O arquivo "PROVA.dat" foi salvo na pasta do programa BILOG-MG.

Trabalhando com o BILOG-MG

(clique para ampliar)

A interface do BILOG-MG é bem resumida. Pra criar um novo trabalho, clicamos no ícone destacado.

Enão escolhemos a pasta onde o novo trabalho deve ser salvo. Ele se chamará PROVA.blm e vai ficar salvo na própria pasta do BILOG.

O arquivo na verdade é todo à base de comandos. Mas o usuário não precisa saber todos eles, basta ajustar as configurações, e depois ir no menu "Run -> Build syntax", que os principais comandos são inseridos automaticamente.

Comecemos ajustando o menu "Setup".

No campo "Total number of items", informamos que a prova terá 20 questões no total.
No campo "Number of Subtests", informamos que serão 2 subtestes (pois a prova terá a parte de Ciênc. da Natureza e a de Matemática).
No campo "Number of Examinee Groups", informamos que estamos examinando um único grupo.

A seguir, informamos o modelo logístico: é o de 3 parâmetros (ML3, em inglês 3PL), na escala normal. E não será usado nenhum modelo especial: será o padrão (standard), apresentado no início deste post.

Agora informamos que as questões possuem 5 alternativas, sendo representadas pelos números 0, 1, 2, 3 e 4.

Para renomear os subtestes, clicamos duas vezes sobre os "quadradinhos". O limite é de 8 caracteres.

Na caixa de diálogo "Item Analysis", guia "Subtests", informamos que cada subteste tem 10 questões. Ambos serão analisados (Y) e que nenhuma questão deixará de ser usada para pontuação (variant items = 0).

Na guia "Subtest Items", especificamos as características item por item.
O que conta são os itens (questões) em negrito, que são escolhidos dando clique-duplo sobre eles:
Nenhum deles é "variante". Os itens 1 a 10 são de Ciências da Natureza e os itens 11 a 20 são de Matemática.

Na guia "Advanced", temos opções avançadas para a estimação dos parâmetros dos itens. Aqui vamos informar que os parâmetros a (inclinação - slope) e c (prob. do "chute" - guessing) devem ser estimados antecipadamente. Nenhuma outra configuração padrão é alterada.

Na caixa de diálogo "Test Scoring", guia "General", informamos o método a ser utilizado na estimação das habilidades: o Bayesiano (EAP), com distribuição normal do traço latente. Também informamos que as pontuações devem ser listadas.

Na guia "Rescaling", informamos que as pontuações devem ser transformadas da seguintes forma: novaPontuação = (100*pontuaçãoInicial) + 500. Essa é a escala que o ENEM usa. A pontuação inicial viria com valores entre -1 e 1. Na nova pontuação (escala do ENEM), as notas vão vir com valores entre 0 e 1000. Mas o número 1000 não é a pontuação máxima nem o 0 é a mínima, pois as questões têm pesos diferentes e a nota de cada aluno está ligada ao desempenho de todos os outros.

Vamos agora ajustar o menu "Data".

Na caixa de diálogo "Examinee Data (dados dos examinados)", guia "General", informamos que o campo destinado ao número de identificação do examinado possui 3 caracteres. Por exemplo:

10 11111100111111111110

Os 3 caracteres iniciais (número 10 + 1 espaço) são reservados ao número de identificação do candidato:10 .

Na guia "Data File", vamos agora carregar o arquivo "PROVA.dat", clicando em "Browse"(procurar)...

....E selecionamos o arquivo.

No arquivo "PROVA.dat" estão os dados de 1 indivíduo por linha. Por isso informamos agora que, do 1º ao 3º caractere da linha é o número de identificação do indivíduo, e do 4º ao 23º caractere da linha são as respostas que o indivíduo deu. Em seguida temos que clicar em "Set Format" para essas configurações serem guardadas.

Na guia "Enter Data", clicamos em "Open" e vemos que os dados foram interpretados corretamente pelo programa.

Hora de colocar o garatito da prova. Conforme esclarecido neste post, vamos só digitar 20 números 1 em sequência, pra simbolizar "tudo certo".

Para salvar o gabarito, digitamos o nome dele com a terminação .key, e clicamos em "Save".

Agora na caixa de diálogo "Group-Level Data", não modificamos nada na guia "General", e na guia "Data File" clicamos em "Show Data". Tudo OK!

Agora vamos para a função "Save"...

...E pedimos pra salvar a pontuação num arquivo, pro programa poder gerar todos os gráficos com as estatísticas.

Pra finalizar, a parte mais importante: no menu "Run", clicamos na opção "Build Syntax". Assim, os comandos são gerados automaticamente, de acordo com nossos ajustes:

(clique para ampliar)

Note que se não fizéssemos isso e tentássemos salvar o trabalho, todos os ajustes seriam perdidos.

Agora vem o único comando inserido manualmente: o número de pontos de quadratura (NQPt) para cada subteste. Vamos usar 15 pontos:

E salvamos o nosso trabalho clicando no ícone:

Tudo pronto!

Clicamos no menu "Run -> Stats, Calibration and Scoring", que vai calcular tudo sobre essas provas: estatísticas, parâmetros dos itens e pontuação dos alunos!

E pronto! O arquivo de comandos foi executado com sucesso!

Os dados estão disponíveis em 3 "Output Files" (arquivos de saída). A pontuação dos alunos está no 3º arquivo: