Adaptando desenhos de avaliação em tempos de COVID-19: quatro questões para guiar decisões
Uma estrutura organizada em torno de quatro questões para abordar os desafios éticos, conceituais e metodológicos que estão afetando o trabalho de avaliação programática durante a pandemia da COVID-19.
Estelle Raimondo, Jos Vaessen e Mariana Branco
[Original: <http://ieg.worldbankgroup.org/blog/adapting-evaluation-designs-times-covid-19-coronavirus-four-questions-guide-decisions>]
Em nossa postagem anterior, apresentamos alguns desafios éticos, conceituais e metodológicos que afetam nosso trabalho de avaliação programática durante a pandemia, com a promessa de compartilhar uma estrutura para refletir sobre esses desafios. Esta estrutura é organizada em torno de quatro questões e vários pontos de decisão, à medida que avançamos em um projeto de avaliação programática padrão (abordando um tema, questão ou área de trabalho específicos), seguindo o que é utilizado no Grupo de Avaliação Independente (IEG), e similar às funções de avaliação de outros parceiros. Para tornar as coisas as mais práticas possíveis, também criamos uma árvore de decisão (apresentada abaixo) que resume as perguntas-chave que podemos nos fazer enquanto buscamos alternativas.
Tomando Decisões sobre Desenhos de Avaliação em Tempos de COVID-19: Uma Árvore de Decisão
1. Devemos adaptar nossas perguntas avaliativas e seu escopo?
Uma pergunta essencial antes de cada avaliação é se os principais tomadores de decisão da organização que estamos tentando influenciar (e outros públicos em potencial) estarão propensos a ouvir e poderão agir de acordo com as conclusões da avaliação. Nos tempos da COVID-19, as prioridades institucionais e as necessidades de conhecimento e prestação de contas dos tomadores de decisão estão mudando. Devemos considerar qual escopo ou ângulo de avaliação pode ser mais bem aproveitado no momento.
Também precisamos considerar se os objetivos e as atividades de uma intervenção são claros e maduros o suficiente para uma avaliação significativa de sua eficácia. Em um cenário de “negócios como de costume”, os estágios iniciais da resposta à COVID-19 podem não cumprir esses requisitos. Como a situação atual claramente não é de “negócios como de costume”, devemos considerar abordar questões que muitas vezes não são estudadas em nossas avaliações, mas que trariam evidências particularmente úteis no momento. Por exemplo, dada a extrema importância da coordenação dos parceiros da área de desenvolvimento no enfrentamento da pandemia e de suas consequências, e considerando que persistem lacunas de conhecimento significativas sobre esse assunto, e também levando em consideração que é mais provável que consigamos dialogar diretamente com esses atores do que com beneficiários, podemos considerar colocar mais ênfase em responder a perguntas sobre coordenação, coerência e gerenciamento de parcerias.
Mesmo à medida que adaptamos e redirecionamos nosso foco, ainda permanece uma questão importante sobre a viabilidade. Precisamos considerar se temos capacidade ou recursos para coletar e analisar os dados necessários para responder às nossas perguntas de avaliação de interesse. Isso leva a uma questão central nos tempos da COVID-19: dadas as principais restrições práticas e éticas que influenciam nossa capacidade de coletar informações, é provável que geremos resultados de avaliação bem substanciados?
2. Podemos melhorar o que continua viável?
As avaliações programáticas tendem a ter pelo menos dois níveis principais de análise: o nível global e o nível do país. No nível global, estudamos padrões de regularidade no portfólio, avaliamos a magnitude dos esforços, classificamos e descrevemos os tipos de intervenções, avaliamos o desempenho geral e construímos uma base para a generalização de nossas descobertas. Normalmente, fazemos isso conduzindo uma “Revisão e análise de portfólio” que consiste em construir um banco de dados de indicadores ao nível de projeto e setor, além de extrair e codificar dados textuais de centenas de documentos dos projetos nos estágios de formulação e conclusão. Por vezes, também realizamos análises estatísticas usando conjuntos de dados secundários ou aplicamos questionários com as equipes envolvidas. Muitos desses métodos permanecem viáveis nos tempos da COVID-19. Temos a oportunidade de fortalecê-los, por exemplo:
Priorizando revisões executivas. Os avaliadores são cada vez mais revisores e sintetizadores de conhecimentos existentes. Revisões de portfólio, revisões de estratégia, revisões estruturadas de literatura acadêmica e institucional (incluindo o uso de repositórios de conhecimento existentes, como o 3ie, Campbell, Cochrane e outros), o desenvolvimento de mapas de lacunas de evidência, e assim por diante, podem ser priorizados e conduzidos de maneiras mais rigorosas e inteligentes.
Fortalecendo a análise de conteúdo baseada em teoria. Por vezes, para orientar a análise de portfólio, utilizamos uma teoria da mudança que explicita as principais etapas e hipóteses causais sobre como uma intervenção deve funcionar. Em um processo iterativo, extraímos informações dos documentos do projeto e, em combinação com a literatura existente, desenvolvemos uma narrativa causal sobre como essas intervenções funcionam na prática. Existe uma oportunidade para aplicar esse tipo de abordagem mais amplamente e explorar como a interação entre a literatura existente, os documentos do projeto e uma estrutura causal em evolução pode nos ajudar a entender melhor como as intervenções contribuem para os resultados de desenvolvimento. Este também é um momento oportuno para investir em uma abordagem mais multidisciplinar da avaliação baseada em teoria. A participação de especialistas de diferentes áreas pode ajudar a melhorar a análise de projetos mais complexos e inovadores.
Experimentando com análise de texto utilizando Inteligência Artificial (IA). O Aprendizado de Máquina e outras variações de IA podem ser aplicadas a documentos existentes de projetos para ajudar a delimitar a avaliação (por exemplo, identificar um portfólio multissetorial de intervenções sob um tema específico) e conduzir análises avaliativas mostrando as conexões entre intervenções, resultados e fatores contextuais (por exemplo, extração de informações de texto com base em uma taxonomia simples, ou uma estrutura conceitual ou teoria da mudança mais elaborada). Existem vários fatores a serem considerados ao aplicar IA, incluindo: (1) se a natureza da intervenção é adequada a essas metodologias; (2) se o tamanho do portfólio, o potencial de replicabilidade ou a possibilidade de gerar novas evidências justificam o investimento; (3) se a estrutura conceitual é robusta o suficiente para permitir uma mistura de aprendizado supervisionado e não supervisionado; (4) se há parceria entre a equipe de avaliação e os cientistas de dados para criar uma plataforma robusta para experimentar, adaptar e aprender. Por exemplo, no IEG, atualmente estamos testando o uso da IA para delimitação de portfólio e análise de conteúdo baseada em teoria em uma série de intervenções que podem contribuir para reduzir o déficit de crescimento infantil. Na fase atual de formulação, esse piloto preenche todos os requisitos: a abordagem multissetorial para reduzir o déficit de crescimento é um candidato perfeito para testar a capacidade do Aprendizado de Máquina em ir além do uso padrão de códigos e indicadores setoriais; a teoria da mudança bem estabelecida fornece uma ótima estrutura de testes para a IA; os avaliadores do IEG, com domínio e conhecimento metodológico, estão se unindo a um consórcio de cientistas de dados versáteis em diversos tipos de IA e conhecedores de avaliação.
3. Podemos encontrar alternativas ao que não é viável?
Durante a pandemia, a análise avaliativa em nível de país provavelmente será a mais impactada. Restrições de viagem, mudanças nas prioridades institucionais e acesso institucional (devido às condições impostas de “lockdown”) exigem repensar o uso de métodos empíricos como a realização de entrevistas, grupos focais ou observação direta. Os estudos de caso que costumamos utilizar para fundamentar outras descobertas, fornecer evidências qualitativas de impacto e explicar os fatores que determinam os padrões que observamos no nível do portfólio não são mais possíveis. Podemos encontrar maneiras de contornar isso?
Estudos de caso “executivos”, incluindo entrevistas virtuais (ou por telefone) para coletar dados no nível institucional (por exemplo, entre diferentes grupos de colegas de operações, ministérios, entidades subnacionais do governo ou parceiros de desenvolvimento), podem ser viáveis. No entanto, perderíamos a possibilidade de conhecer certos atores-chave; em alguns casos, isso diminuiria a qualidade dos dados da entrevista (por exemplo, dificultando o relacionamento com o entrevistado, a exploração de tópicos sensíveis ou a “leitura das entrelinhas”). Também perderíamos as opções de conduzir observação não intrusiva de projetos/instituições, de realizar análises indutivas, amostragem em bola de neve e assim por diante.
Uma maneira de contornar isso é contar com a experiência de consultores (locais) com expertise substantiva e contextual em seus respectivos países. O uso da experiência local (que já é um aspecto fundamental do cenário “negócios como de costume”) pode se tornar um componente ainda mais essencial de nossas avaliações. No entanto, os consultores locais precisarão seguir as diretrizes de saúde e segurança e respeitar os princípios éticos para alcançar os informantes-chave. Além de confiar mais na experiência local como medida de curto prazo, há uma oportunidade para um investimento de longo prazo em avaliações mais sensíveis ao contexto, ancoradas em princípios éticos sólidos. Por exemplo, diante de restrições gerais de viagens, o CLEAR na África do Sul está treinando consultores locais na realização virtual de diagnósticos institucionais de Monitoramento e Avaliação. Se pensarmos um pouco “fora da caixa”, pode-se até argumentar que a crise atual apresenta uma oportunidade para fortalecer as iniciativas de avaliação lideradas pelos países, em vez do cenário atual dominado por avaliações demandadas pelos doadores.
Quando se trata de dialogar com trabalhadores da linha de frente, funcionários e administradores locais e, principalmente, beneficiários, devemos ter “cautela em abundância” [em inglês], conforme prescrito por nossos colegas da 3ie. Também devemos seguir as práticas recomendadas para pesquisas por telefone, conforme apresentado, por exemplo, por colegas do J-PAL e do Banco Mundial [ambos em inglês].
4. Podemos utilizar fontes alternativas de evidências?
Para algumas avaliações, também temos a oportunidade de capitalizar fontes de dados existentes que normalmente não utilizamos, incluindo dados geoespaciais, financeiros ou de redes sociais. Embora essas fontes de dados possam ser consideradas “big data” e possam servir para análises avaliativas no nível global, esse tipo de trabalho analítico mais aprofundado geralmente não é possível para todos os casos e pode levar a vieses e limitações de comparabilidade. Por outro lado, os avaliadores devem levar a sério o conselho de especialistas em avaliação como Albert Hirschman e Ray Pawson: deve-se (e pode-se) fazer grandes perguntas sobre intervenções de “pequena escala”. De fato, essas técnicas geralmente são mais adequadas para serem aplicadas em estudos de caso no nível do país (ou em estudos de caso de intervenções específicas nos países). Embora muitas dessas fontes de dados exijam algum tipo de fundamentação para fortalecer a análise, elas ainda podem ajudar a gerar evidências avaliativas rigorosas na ausência de tal triangulação.
Alguns exemplos recentes no IEG incluem: o uso de dados orçamentários geoespaciais do Boost e outras fontes para avaliar a focalização dos financiamento do Grupo Banco Mundial (em relação aos gastos públicos nacionais), no âmbito da Avaliação do Programa de País do México [em inglês]; o uso de imagens de drones para avaliar padrões de uso da terra em comunidades rurais no Níger, no âmbito da avaliação em andamento do apoio do Grupo Banco Mundial para reverter a degradação dos recursos naturais; o uso de dados de imagens de satélite para avaliar a efetividade das melhorias nas estradas em Moçambique, no âmbito da avaliação em andamento do Crescimento do Espaço Urbano; e o uso de dados do Twitter para avaliar a influência do Grupo Banco Mundial nos debates online sobre os Objetivos de Desenvolvimento Sustentável, no âmbito da avaliação da Convocação Global do Grupo Banco Mundial [em inglês].
São abundantes os exemplos de fontes alternativas de dados para análise avaliativa e várias áreas de investigação merecem maior atenção dos avaliadores. Além da análise de texto e da IA (discutidos acima), destacamos brevemente duas outras áreas. Primeiro, novas fontes de dados geoespaciais podem ajudar a vincular dados de geolocalização de intervenções (por exemplo, veja o trabalho da Aid Data com todo tipo de dados geoespaciais novos e existentes de interesse avaliativo. Veja também o exemplo do GEMS [em inglês], que visa a alavancar as Tecnologias da Informação e Comunicação apropriadas e de baixo custo para coletar e analisar digitalmente dados em tempo real). Em segundo lugar, o uso de dados de redes sociais que, entre muitas outras coisas, nos permitem mensurar o sentimento de grupos específicos sobre tópicos em que segmentos relevantes da população têm alto acesso às mídias sociais. Muitas disciplinas de ciências sociais têm trabalhado com análises de mídias sociais há algum tempo e têm orientações úteis para compartilhar (por exemplo, aqui [em inglês]).
Para concluir, ao refletir sobre essas questões e as alternativas disponíveis aos avaliadores nas circunstâncias sem precedentes criadas pela COVID-19, teremos de navegar por vários trade-offs, priorizar a ética, estar dispostos a sair da nossa zona de conforto metodológica e estar prontos para buscar soluções continuamente.