Stoa :: Ewout ter Haar :: Blog :: Tentando entender a Enade

agosto 20, 2009

default user icon
Postado por Ewout ter Haar

A USP deve ou não deve participar do ENADE (antigo Provão)? Pode-se fazer argumentos pro e contra, mas independentemente desta questão, vale a pena pensar sobre os resultados das avaliações feitas até agora. São surpreendentes, e parecem mostrar ou a ineficácia dos nossos instituições de ensino superior ou a inabilidade da Enade de medir algo relevante. [ O texto ficou longo e pomposo demais, mas não consigo encurtar agora. Pelo menos dá uma olhada nos gráficos e o intermezzo]

Introdução

Imagine que precisamos desenhar uma política pública que melhora o nosso sistema educacional. Há urgência, porque há uma clara correlação entre habilidades coginitivas e desenvolvimento (econômico por exemplo), tanto para indivíduos como para sociedades inteiras.

O que não deve fazer, segundo o estudioso Eric Hanushek, é simplesmente aumentar a quantidade de dinheiro investido no sistema escolar. Por exemplo, pelo menos nos EUA não há evidências para correlações claras entre tamanhos dos classes e desempenho educacional. Na verdade, é surpreendentemente difícil achar, na atual situação nos EUA (e em outros paises, inclusive os em desenvolvimento) qualquer correlação entre recursos gastos e desempenho dos estudantes. Mas isto não quer dizer que dinheiro ou outros incentivos não podem melhorar a educação. Simplesmente quer dizer que não é conhecido em quais circunstâncias mais recursos fazem uma diferença ou como aplicar estes recursos. Por exemplo, é conhecido que bons professores e boas escolas influenciam significativamente os resultados dos seus alunos. O problema é identificar os bons professores e escolar e incentivar seja o que for que eles fazem que leve aos resultados desejados.

Temos aqui um clássico problema de alocação de recursos. Tradicionalmente o "mercado" é usado para resolver o problema de integrar os milhões de pequenas indicadores e fontes de informações, para chegar numa alocação "eficiente" em algum sentido.  Um mercado de agentes (alunos, professores, instituições) competindo por recursos seria uma possibilidade, mas desde o próprio Adam Smith sabemos que o mercado nem sempre leva ao resultado desejado, em particular no que diz respeito valores básicas de justiça e igualdade de direitos básicos de cidadãos. Especialmente na área de educação quase todos as sociedades optam por um sistema altamente regulado pelo poder público.

Avaliações

Seja para identificar as melhores escolas, seja para fins de credenciamento, vamos precisar de mecanismos de avaliação feito por um órgão externo aos alunos, professores e instituições, um órgão geralmente centralizado (em oposição ao "mercado") que impõe as normas e regras. É uma verdade óbvia que não pode melhorar o que não é medida e este é a justificativa das avaliações geralmente dada. Neste cenário é óbvio que é de extrema importância o que é medida e qual a correlação com um suposto "valor intrínseco" do sujeito sob estudo.

Não precisamos entrar em considerações epistemologicas sobre o perigo de essencialismo e outras tentativas de classificar elementos de realidade em hierarquias ou classes eternos. É claro que valor intrínseco depende de contexto e que avaliar é necessariamente um processo subjetivo.

Mais do que isso: muitas vezes (quando tem gente involvido) avaliar implica num comprometimento moral do avaliador com o avaliado. Em vez disso, muitas vezes temos avaliações numéricas, uni-dimensionais e usadas para fins de ranqueamento por burocratas preguiçosos e covardes (porque não querendo se comprometer com uma avaliação real do valor intrínsico do sujeito, se escondem atrás de um número supostamente objetivo que refletiria o valor intrínseco do sujeito).

Infelizmente, desde algumas décadas, instituiu-se um clima intelectual (consenso?) que avaliações somente deviam ser feitas de uma maneira quantitativa e "objetiva", em particular, por meio de testes padronizadas. Um exemplo é o movimento para "evidence based medicine", que na sua forma radical diz que a única forma válida de fazer medicina é baseado em estudos clínicas controlados, double blind, grupos de controle, etc. Parece uma posição óbvia - quem não quer se basear em evidências bem testadas - mas negar a validade de qualquer outra maneira de fazer ciência (estudos de caso, pesquisa qualitativa) é um equivoco muito grande acerca de o que é evidência e como a ciência progride.

Um outro exemplo é na educação. No início deste século o Bush instituiu nos EUA o programa No Child Left Behind, uma lei que atrela financiamento das escolas aos resultados em testes padronizados. No âmbito das políticas públicas (talvez nem tanto na academia), institui-se novamente um clima intelectual em que somente determinadas metodologias são aceitas: What Works, é o slogan.

Para uma outra visão crítica acerca de avaliações no âmbito da educação, veja alguns posts do Andre: A meritocracia educacional - Estudante vs Professor e A meritocracia educacional - A atividade do professor

Enade

No Brasil, a Enade (antigo Provão) é um dos ingredientes do sistema de avaliação da educação superior, o SINAES, que visa avaliar as instituições, os cursos e o desempenho dos estudantes. A avaliação dos cursos dos IES (Instituições de Ensino Superior) é feito por meio de testes padronizadas aplicados aos ingressantes e concluintes dos cursos (a Enade) mas também 

"pelas comissões de avaliadores designadas pelo Inep [que se caracterizam] pela visita in loco aos cursos e instituições públicas e privadas e se destinam a verificar as condições de ensino, em especial aquelas relativas ao perfil do corpo docente, as instalações físicas e a organização didático-pedagógica."

De uma forma geral, as instituições públicas são em favor de avaliações mais amplas e abrangentes e as instituições particulares são em favor das avaliações numéricas que a Enade faz. Sem entrar ainda discussão do mérito do Enade ou o que mede e qual a relação com a qualidade de cursos, é interessante ver alguns resultados.

Resultados do Enade

A prova é aplicado a uma amostragem (calculado para dar incertezas adequadas) de ingressantes e concluintes de um determinado curso. Tem 7 até 10 questões sobre conhecimentos gerais (2 ou 3 discursivas) e 20 ou 30 questões sobre conhecimentos específicos do curso.

Veja os resultados das parte conhecimentos gerais de 2007 para Agronomia (escolhido arbitrariamente, veja todos os relatórios de 2007). A média de notas se deslocou de 49 para 56, ou 0.4 desvio padrão [Veja embaixo com interpretar este deslocamento].

Me parece um ganho extremamente pequeno para 4 anos de estudos. Pelo menos para os conhecimentos específicos as diferenças são maiores: a média foi de 38 para 54 ou 1 desvio padrão. Mesmo assim, um desvio padrão! É só isto que quatro anos de educação faz?

Estas distribuições são das notas sobre todos os alunos do pais inteiro. É uma possibilidade que existem instituições de ensino que elevam desempenho dos seus alunos muito mais do que outros. Felizmente, a Enade disponibiliza alguns dos dados brutos. Em particular, temos as médias das notas de cada instituição de ensino. Veja a distribuição das diferenças entre as médias dos concluintes e ingressantes, dividido pelo desvio padrão da distribuição de todos os alunos (16 pontos).

De fato, a distribuição é ou pouco larga (média 1.1, desvio padrão 0.4), mas o fato permanece que a grande maioria das instituições não conseguem elevar o desempenho dos seus alunos mais do que um desvio padrão.

Uma última análise, o histograma das médias das instituições da prova de conhecimentos gerais:

Vemos que o desvio padrão da média das médias não é de longe menor por um fator raiz de 20 ou 30 do que o desvio padrão da população inteiro. Acho que isto quer dizer que, como esperado, os alunos não se distribuim aleatoriamente sobre as instituições do país. Os melhores alunos devem se agregar em determinadas instituições enquanto os piores alunos se agregam também, levando a esta larga distribuição das médias das instituições.

Finalmente, veja o caso da Licenciatura em Física, 2005 (todos relatórios de 2005). O deslocamento da média foi de 23 até 29 ou 0.4 desvio padrão. Estes dados precisam ser tomados com cuidados, porque nesta prova houve muitos alunos que entregaram a prova em branco. Mesmo assim, entre os que fizeram uma tentativa, novamente é muito pequeno a diferença entre ingressantes e concluintes.

Intermezzo: interpretações do tamanho de efeito

Para quem está acostumado com distribuições de valores é útil expressar o resultado de uma intervenção experimental em termos de quantos desvios padrão a média do grupo tratado difere da média do grupo de controle. Mas para o resto de nos, é necessário interpretar estes valores em termos mais familiares.

A primeira observação importante é que ao ouvir afirmações do tipo "uso de tecnologia de rede melhora os resultados educacionais e o tamanho do efeito é 0.34" devemos evitar as nossas tendências  essencialistas. A afirmação não quer dizer que todos os alunos do grupo "tratado" se beneficiaram. Somente quer dizer que pegamos aleatoriamente 2 alunos de cada grupo, há um chance de 60% que o aluno do grupo tratado fez melhor do que o aluno do grupo não tratado (se não houver efeito, as chances seriam 50%). Para um tamanho do efeito de um desvio padrão, as chances seriam 76%. [Estas contas dependem da normalidade das distribuições.]

Uma outra maneira de criar intuição sobre tamanhos de efeito é comparar eles com efeitos familiares: um efeito de 0.2 desvio padrão é a diferença entre a altura de meninas de 15 e 16 anos (provavelmente imperceptível: conseguira distinguir um grupo de meninas de 15 anos de um de 16 anos?). A diferença de altura entre meninas de 13 e 18 anos é 0.8 desvio padrão. Estudos sobre intervenções educacionais raramente relatam efeitos de mais do que 1 desvio padrão e é muito mais comum encontrar valores menor do que 0.5.

Discussão

O que quer dizer o fato que há tão pouca diferença entre ingressantes do ensino superior e os concluintes? Me parece ter duas principais explicações

  1. O nosso ensino superior de fato é muito ineficaz, o modelo de "transferência" de conhecimento e aulas expositivas é falido, os professores e instituições fingem que ensinam e os alunos fazem de conta de aprendem, já que somente estão interessados na função credenciamento da instituição, não na aprendizagem em si.
  2. As provas da Enade não medem direito o que alunos aprenderam e o real valor agregado das instituições de ensino.

Um ponto positivo é que se é verdade que incorporar um pouco de tecnologia de informaçao e comunicação nas suas aulas pode dar uma melhora de 0.34 desvios padrão nos resultados, então estas medidas muito simples e baratas podem melhorar o nosso ensino o equivalente de 1 ou 2 de estudos!

Finalmente, a USP deve participar do Enada? A USP e Unicamp alegam que não precisam participar da Enade porque fazem parte do sistema educacional do Estado e devem ser avaliados pelo Estado. Mas isto obviamente é um argumento meramente formal. O que impede realmente a USP participar? O fato óbvio é que não é do interesse de ninguém que está no topo (ainda que seja só na percepção) de participar numa avaliação: só pode perder! Por outro lado, a USP não faz parte do Brasil? Porque aplicariam regras diferente?

Argumentos a favor: a USP não está acima da Lei, uma avaliação dos cursos da USP pode levantar dados interessantes. Também, a USP deve participar justamente para pressionar as faculdades particulares se adequar em termos de números de doutores, equipamentos etc.

Acho que o argumento mais sério contra a participação da USP da Enade é que se acreditamos que a Enade é uma avaliação fundamentalmente equivocada, então a participação da USP não deveria conferir crédito e valor neste exame. Neste argumento, a USP deve usar o seu poder de barganha e posição no cenário intelectual para pressionar para um exame melhor. Se de fato, a minha segunda interpretação é válida - a prova não mede o que importa - então esta seria uma posição razoável.

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 1 usuário votou. 1 voto

Você deve entrar no sistema para escrever um comentário.

Termo de Responsabilidade

Todo o conteúdo desta página é de inteira responsabilidade do usuário. O Stoa, assim como a Universidade de São Paulo, não necessariamente corroboram as opiniões aqui contidas.