A USP deve ou não deve participar do ENADE (antigo Provão)?
Pode-se fazer argumentos pro e contra, mas independentemente desta
questão, vale a pena pensar sobre os resultados das avaliações feitas
até agora. São surpreendentes, e parecem mostrar ou a ineficácia dos
nossos instituições de ensino superior ou a inabilidade da Enade de
medir algo relevante. [ O texto ficou longo e pomposo demais, mas não consigo encurtar agora. Pelo menos dá uma olhada nos gráficos e o intermezzo]
Introdução
Imagine que precisamos desenhar uma política pública que melhora o nosso sistema educacional. Há urgência, porque há uma clara correlação entre habilidades coginitivas e desenvolvimento (econômico por exemplo), tanto para indivíduos como para sociedades inteiras.
O que não deve fazer, segundo o estudioso Eric Hanushek, é
simplesmente aumentar a quantidade de dinheiro investido no sistema
escolar. Por exemplo, pelo menos nos EUA não há evidências para
correlações claras entre tamanhos dos classes e desempenho educacional.
Na verdade, é surpreendentemente difícil achar, na atual situação nos
EUA (e em outros paises, inclusive os em desenvolvimento) qualquer
correlação entre recursos gastos e desempenho dos estudantes. Mas isto
não quer dizer que dinheiro ou outros incentivos não podem melhorar a
educação. Simplesmente quer dizer que não é conhecido em quais circunstâncias
mais recursos fazem uma diferença ou como aplicar estes recursos. Por exemplo, é conhecido que bons
professores e boas escolas influenciam significativamente os resultados
dos seus alunos. O problema é identificar os bons professores e escolar
e incentivar seja o que for que eles fazem que leve aos resultados
desejados.
Temos aqui um clássico problema de alocação de recursos. Tradicionalmente o "mercado" é usado para resolver o problema de
integrar os milhões de pequenas indicadores e fontes de informações,
para chegar numa alocação "eficiente" em algum sentido. Um mercado de
agentes (alunos, professores, instituições) competindo por recursos
seria uma possibilidade, mas desde o próprio Adam Smith sabemos que o
mercado nem sempre leva ao resultado desejado, em particular no que diz
respeito valores básicas de justiça e igualdade de direitos básicos de
cidadãos. Especialmente na área de educação quase todos as sociedades
optam por um sistema altamente regulado pelo poder público.
Avaliações
Seja para identificar as melhores escolas, seja para fins de
credenciamento, vamos precisar de mecanismos de avaliação feito por um
órgão externo aos alunos, professores e instituições, um órgão
geralmente centralizado (em oposição ao "mercado") que impõe as normas
e regras. É uma verdade óbvia que não pode melhorar o que não é medida
e este é a justificativa das avaliações geralmente dada. Neste cenário
é óbvio que é de extrema importância o que é medida e qual a correlação com um suposto "valor intrínseco" do sujeito sob estudo.
Não precisamos entrar em considerações epistemologicas sobre o perigo de essencialismo
e outras tentativas de classificar elementos de realidade em
hierarquias ou classes eternos. É claro que valor
intrínseco depende de contexto e que avaliar é necessariamente um
processo subjetivo.
Mais do que isso: muitas vezes (quando tem gente involvido) avaliar implica num comprometimento moral
do avaliador com o avaliado. Em vez disso, muitas vezes temos avaliações numéricas, uni-dimensionais e usadas para fins de
ranqueamento por burocratas preguiçosos e covardes (porque não querendo
se comprometer com uma avaliação real
do valor intrínsico do sujeito, se escondem atrás de um número
supostamente objetivo que refletiria o valor intrínseco do sujeito).
Infelizmente, desde algumas décadas, instituiu-se um clima intelectual (consenso?) que avaliações somente
deviam ser feitas de uma maneira quantitativa e "objetiva", em
particular, por meio de testes padronizadas. Um exemplo é o movimento
para "evidence based medicine",
que na sua forma radical diz que a única forma válida de fazer medicina
é baseado em estudos clínicas controlados, double blind, grupos de
controle, etc. Parece uma posição óbvia - quem não quer se basear em
evidências bem testadas - mas negar a validade de qualquer outra
maneira de fazer ciência (estudos de caso, pesquisa qualitativa) é um
equivoco muito grande acerca de o que é evidência e como a ciência
progride.
Um outro exemplo é na educação. No início deste século o Bush instituiu nos EUA o programa No Child Left Behind,
uma lei que atrela financiamento das escolas aos resultados em testes
padronizados. No âmbito das políticas públicas (talvez nem tanto na
academia), institui-se novamente um clima intelectual em que somente
determinadas metodologias são aceitas: What Works, é o slogan.
Para uma outra visão crítica acerca de avaliações no âmbito da educação, veja alguns posts do Andre: A meritocracia educacional - Estudante vs Professor e A meritocracia educacional - A atividade do professor
Enade
No Brasil, a Enade (antigo Provão) é um dos ingredientes do sistema de avaliação da educação superior, o SINAES, que visa avaliar as instituições, os cursos e o desempenho dos estudantes. A avaliação dos cursos
dos IES (Instituições de Ensino Superior) é feito por meio de testes
padronizadas aplicados aos ingressantes e concluintes dos cursos (a
Enade) mas também
"pelas comissões de avaliadores designadas pelo Inep [que se caracterizam] pela visita in loco
aos cursos e instituições públicas e privadas e se destinam a verificar
as condições de ensino, em especial aquelas relativas ao perfil do
corpo docente, as instalações físicas e a organização
didático-pedagógica."
De uma forma geral, as instituições públicas são em favor de
avaliações mais amplas e abrangentes e as instituições particulares são
em favor das avaliações numéricas que a Enade faz. Sem entrar ainda
discussão do mérito do Enade ou o que mede e qual a relação com a
qualidade de cursos, é interessante ver alguns resultados.
Resultados do Enade
A prova é aplicado a uma amostragem (calculado para dar incertezas
adequadas) de ingressantes e concluintes de um determinado curso. Tem 7
até 10 questões sobre conhecimentos gerais (2 ou 3 discursivas) e 20 ou
30 questões sobre conhecimentos específicos do curso.
Veja os resultados das parte conhecimentos gerais de 2007 para Agronomia (escolhido arbitrariamente, veja todos os relatórios de 2007). A média de notas se deslocou de 49 para 56, ou 0.4 desvio padrão [Veja embaixo com interpretar este deslocamento].

Me parece um ganho extremamente pequeno para 4 anos de estudos. Pelo
menos para os conhecimentos específicos as diferenças são maiores: a
média foi de 38 para 54 ou 1 desvio padrão. Mesmo assim, um desvio
padrão! É só isto que quatro anos de educação faz?

Estas distribuições são das notas sobre todos os alunos do pais
inteiro. É uma possibilidade que existem instituições de ensino que
elevam desempenho dos seus alunos muito mais do que outros. Felizmente,
a Enade disponibiliza alguns dos dados brutos.
Em particular, temos as médias das notas de cada instituição de ensino.
Veja a distribuição das diferenças entre as médias dos concluintes e
ingressantes, dividido pelo desvio padrão da distribuição de todos os
alunos (16 pontos).

De fato, a distribuição é ou pouco larga (média 1.1, desvio padrão
0.4), mas o fato permanece que a grande maioria das instituições não
conseguem elevar o desempenho dos seus alunos mais do que um desvio
padrão.
Uma última análise, o histograma das médias das instituições da prova de conhecimentos gerais:

Vemos que o desvio padrão da média das médias não é de longe menor
por um fator raiz de 20 ou 30 do que o desvio padrão da população
inteiro. Acho que isto quer dizer que, como esperado, os alunos não se
distribuim aleatoriamente sobre as instituições do país. Os melhores
alunos devem se agregar em determinadas instituições enquanto os piores
alunos se agregam também, levando a esta larga distribuição das médias
das instituições.
Finalmente, veja o caso da Licenciatura em Física, 2005 (todos relatórios de 2005).
O deslocamento da média foi de 23 até 29 ou 0.4 desvio padrão. Estes
dados precisam ser tomados com cuidados, porque nesta prova houve
muitos alunos que entregaram a prova em branco. Mesmo assim, entre os
que fizeram uma tentativa, novamente é muito pequeno a diferença entre
ingressantes e concluintes.

Intermezzo: interpretações do tamanho de efeito
Para quem está acostumado com distribuições de valores é útil
expressar o resultado de uma intervenção experimental em termos de
quantos desvios padrão a média do grupo tratado difere da média do
grupo de controle. Mas para o resto de nos, é necessário interpretar estes valores em termos mais familiares.
A primeira observação importante é que ao ouvir afirmações do tipo
"uso de tecnologia de rede melhora os resultados educacionais e o
tamanho do efeito é 0.34" devemos evitar as nossas tendências
essencialistas. A afirmação não quer dizer que todos os alunos
do grupo "tratado" se beneficiaram. Somente quer dizer que pegamos
aleatoriamente 2 alunos de cada grupo, há um chance de 60% que o aluno
do grupo tratado fez melhor do que o aluno do grupo não tratado (se não
houver efeito, as chances seriam 50%). Para um tamanho do efeito de um
desvio padrão, as chances seriam 76%. [Estas contas dependem da
normalidade das distribuições.]
Uma outra maneira de criar intuição sobre tamanhos de efeito é
comparar eles com efeitos familiares: um efeito de 0.2 desvio padrão é
a diferença entre a altura de meninas de 15 e 16 anos (provavelmente imperceptível:
conseguira distinguir um grupo de meninas de 15 anos de um de 16
anos?). A diferença de altura entre meninas de 13 e 18 anos é 0.8 desvio padrão.
Estudos sobre intervenções educacionais raramente relatam efeitos de
mais do que 1 desvio padrão e é muito mais comum encontrar valores
menor do que 0.5.
Discussão
O que quer dizer o fato que há tão pouca diferença entre
ingressantes do ensino superior e os concluintes? Me parece ter duas
principais explicações
- O nosso ensino superior de fato é muito ineficaz, o modelo de
"transferência" de conhecimento e aulas expositivas é falido, os
professores e instituições fingem que ensinam e os alunos fazem de
conta de aprendem, já que somente estão interessados na função
credenciamento da instituição, não na aprendizagem em si.
- As provas da Enade não medem direito o que alunos aprenderam e o real valor agregado das instituições de ensino.
Um ponto positivo é que se é verdade que incorporar um pouco de tecnologia de informaçao e comunicação nas suas aulas pode dar uma melhora de 0.34 desvios padrão nos resultados, então estas medidas muito simples e baratas podem melhorar o nosso ensino o equivalente de 1 ou 2 de estudos!
Finalmente, a USP deve participar do Enada? A USP e Unicamp alegam que não precisam participar da Enade porque
fazem parte do sistema educacional do Estado e devem ser avaliados pelo
Estado. Mas isto obviamente é um argumento meramente formal. O que
impede realmente a USP participar? O fato óbvio é que não é do
interesse de ninguém que está no topo (ainda que seja só na percepção)
de participar numa avaliação: só pode perder! Por outro lado, a USP não
faz parte do Brasil? Porque aplicariam regras diferente?
Argumentos a favor: a USP não está acima da Lei, uma
avaliação dos
cursos da USP pode levantar dados interessantes. Também, a USP deve
participar justamente para pressionar as faculdades particulares se
adequar em termos de números de doutores, equipamentos etc.
Acho que o argumento mais sério contra a participação da USP da
Enade é que se acreditamos que a Enade é uma avaliação fundamentalmente
equivocada, então a participação da USP não deveria conferir crédito e
valor neste exame. Neste argumento, a USP deve usar o seu poder de
barganha e posição no cenário intelectual para pressionar para um exame
melhor. Se de fato, a minha segunda interpretação é válida - a prova
não mede o que importa - então esta seria uma posição razoável.
Esta mensagem está sob a licença CreativeCommons Atribuição.