Classificadores Binários, Políticas Públicas Sociais e Dados Desbalanceados

Cinara J. Santos, Vitor Gabriel Barra Souza, Victor Teixeira de Melo Mayrink, Henrique Steinherz Hippert, Marcel de Toledo Vieira

Resumo


Neste estudo utilizamos uma base de dados de pesquisa vinculada ao desempenho do Programa Bolsa Família (PBF) no ano de 2009. Este programa implica na transferência direta de renda com condicionantes nas áreas de educação, saúde e assistência social, visando atender famílias pobres e extremamente pobres - assim classificadas segundo um determinado valor percapita mensal. Esta base contem informações de cunho financeiro (renda e gastos das famílias), e também grau de instrução dos indivíduos, e elementos descritores do ambiente domiciliar (moradia e entorno). A aplicação dos algoritmos de predição visou averiguar a eficiência desses processos a partir das variáveis que descrevem as famílias, identificando corretamente se estas atendiam ou não ao perfil de beneficiárias do programa. Os algoritmos utilizados foram regressão logística, árvore binária de decisão e rede neural artificial em múltiplas camadas. Diversas medidas de desempenho foram calculadas, a partir da matriz de confusão resultante de cada algoritmo. Os valores encontrados para estas medidas foram baixos frente a uma das classes a serem identificadas. As intervenções aplicadas foram o reembaralhamento aleatório e também super-amostragem da classe minoritária e sub-amostragem da classe majoritária. Embora tenha ocorrido alguma melhora, o desempenho no reconhecimento da classe minoritária permaneceu baixo o que aponta para a necessidade de novos experimentos.

Texto completo:

PDF

Referências


ALBERTO, B. L. A. Abordagens de pré-processamento de dados em problemas de classificação com classes desbalanceadas. 2012. Dissertaçao de Mestrado. Centro Federal de Educação Tecnológica de Minas Gerais.

AMARAL, E. F., et al. Avaliação de impactos das condicionalidades de educação do Programa Bolsa Família: uma análise com o censo de 2010. in XVIII Encontro Nacional de Estudos Populacionais, ABEP, Águas de Lindóia/SP–Brasil. 2012.

ANDRADE A.L.S.S.; ZICKER F. Avaliação de testes diagnósticos. In: Andrade A.L.S.S. & Zicker F. (Eds), Métodos de Investigação Epidemiológica em Doenças Transmissíveis. Vol.1. 1997. p.9-30. FNS, OPAS, Brasília, DF.

BARANAUSKAS, J. A. Aprendizado de Máquina Conceitos e Definições. 2007. Notas de aula. Disponível em [http://dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Conceitos-Adicionais-Metricas.pdf]. Acesso em ago. 2016

BATISTA, G. E. A. P. A; PRATI, R. C.; MONARD, M. C. A study of the behavior of several methods for balancing machine learning training data. ACM Sigkdd Explorations Newsletter, v. 6, n. 1, p. 20-29, 2004.

BISHOP, C. M. Neural networks for pattern recognition. Oxford University Press, 1995.

BRASIL. Ministério do Desenvolvimento Social e Combate à Fome; Centro de Desenvolvimento e Planejamento Regional. Sumário executivo – avaliação de impacto do Programa Bolsa Família – 2ª Rodada. Brasília, DF: SAGI; IFPRI/Datamétrica Consultoria, Pesquisa e Telemarketing Ltda. 2012.

CAMILO, C. O.; SILVA, J. C. da. Mineração de dados: Conceitos, tarefas, métodos e ferramentas.2009. Universidade Federal de Goiás.

CARVALHO, F. A.T. Aprendizagem Estatística de Dados. 2010. Notas de aula. Disponivel em [http://www.cin.ufpe.br/~fatc/AM/AvaliacaoClassificadores.pdf]. Acesso em out.2016

CASTRO, CL de; BRAGA, A. P. Aprendizado supervisionado com conjuntos de dados desbalanceados. Rev. Controle Autom, v. 22, n. 5, p. 441-466, 2011.

CASTRO, L. N.; VON ZUBEN, F. J. Redes Neurais Artificiais. (Notas de aula). Disponível em [ftp://ftp.dca.fee.unicamp.br/pub/docs/vonzuben/ia006_03/

/topico5_03.pdf]. Acesso em ago. 2016

DOS SANTOS, A. M. et al. Usando redes neurais artificiais e regressão logística na predição da hepatite A. Rev Bras Epidemiol, v. 8, n. 2, p. 117-26, 2005.

DUARTE, G. B.; SAMPAIO, B.; SAMPAIO, Y. Programa Bolsa Família: impacto das transferências sobre os gastos com alimentos em famílias rurais. Revista de economia e sociologia rural, v. 47, n. 4, p. 903-918. 2009

FÁVERO, L.P. et al. Análise de dados: modelagem multivariada para tomada de decisão. São Paulo, Brasil: Campus. 2009.

GONZAGA, A. Métodos de avaliação de Classificadores. 2011. Notas de aula. Disponível em [http://iris.sel.eesc.usp.br/sel886/Aula_9.pdf]. Acesso em dez.2016

GUJARATI, D. N. Econometria Básica. 3.ed. São Paulo, Brasil: Pearson Makron Books. 2000

GUSMÃO, G. C.; TOYOSHIMA, S. H. ; PAULA, R. Avaliação do Programa Bolsa Família: um estudo de caso no estado de Minas Gerais no ano de 2009. Vozes dos Vales, v. 01, p. 01-31, 2012.

JANNUZZI, P. de M. et al. Síntese das pesquisas de avaliação de programas sociais do MDS. Cadernos de Estudos Desenvolvimento Social em Debate 2011-2014.v. 16. p.1-358. 2014

LIMA, L. M. C. et al. Modelagem de distribuição geográfica para Hydromedusa maximiliani (Mikan, 1820)(Testudines, Chelidae). 2014. Dissertaçao de Mestrado. Universidade Federal de Juiz de Fora.

MATOS, P. F. et al. Relatório técnico “métricas de avaliaçao”. Universidade Federal de Sao Carlos. 2009. Disponíve em [http://http://gbd. dc. ufscar. br/~ ~pablofmatos/files/ReportMetrica-MatosEtAl.pdf], Acesso em out. 2016.

Ministério do Desenvolvimento Social e Combate à Fome, 2012, Sumário Executivo – Avaliação de Impacto do Programa Bolsa Família – 2ª Rodada. Brasília.

MONARD, M. C. ; BARANAUSKAS, J. A. . Conceitos sobre Aprendizado de Máquina. In: Solange Oliveira Rezende. (Org. ). Sistemas Inteligentes - Fundamentos e Aplicações. 1 ed. Barueri - SP: Editora Manole Ltda, 2003, v. , p. 89-114.

MONARD, M. C. ; BARANAUSKAS, J. A. . Indução de Regras e árvores de Decisão. In: Solange Oliveira Rezende. (Org. ). Sistemas Inteligentes - Fundamentos e Aplicações. 1 ed. Barueri - SP: Editora Manole Ltda, 2003, v. , p. 115-139.

MUNARETTO, L. F., et al. Um estudo sobre Programa Bolsa Família (PBF): o caso dos municípios que integram a associação dos municípios da zona da produção (AMZOP). In. Anais do IV SINGEP - São Paulo/SP – Brasil. 2015

NETO, Si. B.; NAGANO, M. S.; DA COSTA MORAES, M. B. Utilização de redes neurais artificiais para avaliação socioeconômica: uma aplicação em cooperativas. Revista de Administra&ccdeil; ão da Universidade de São Paulo, v. 41, n. 1, 2006.

OLIVEIRA, S. R. de M. Medidas para Avaliação de Regras e de Modelos de Classificação (Notas de aula). Disponível em [http://www.ime.unicamp.br/~wanderson/Aulas/MT803-Aula10-AprendizadoMaquina-Interestingness.pdf]. Acesso em: nov. 2016

PRATI, R. C.; BATISTA, G.; MONARD, M. C. Curvas ROC para avaliação de classificadores. Revista IEEE América Latina, v. 6, n. 2, pp. 215-222. 2008.

PRETTO, D.; BENDER FILHO, R. Análise da influência dos programas complementares para a emancipação sustentada dos benefíciários vinculados ao programa bolsa família: estudo com ex-beneficiários do município de Santo Ângelo/RS. 2016. Gestão Pública: Práticas e Desafios-ISSN: 2177-1243, v. 8, n. 2.

PRINCIPE, J. C.; EULIANO, N. R.; LEFEBVRE, W. C. Neural and adaptive systems: fundamentals through simulations with CD-ROM. John Wiley & Sons, Inc., 1999.

RAMEZANKHANI, Azra et al. The impact of oversampling with SMOTE on the performance of 3 classifiers in prediction of type 2 diabetes. Medical decision making, v. 36, n. 1, p. 137-144, 2016.

RUFINO, H. L. P. Algoritmo de aprendizado supervisionado-baseado em máquinas de vetores de suporte - uma contribuição para o reconhecimento de dados desbalanceados. 2011. Tese de Doutorado. Universidade Federal de Uberlândia - MG

SCHIAVONI, André Spinelli. Um estudo comparativo de métodos para balanceamento do conjunto de treinamento em aprendizado de redes neurais artificiais. 2010. Monografia de Graduação. Universidade Federal de Lavras – MG.

SENNA, M. C. M; BRANDÃO, A. A.; DALT, S. Programa Bolsa Família e o acompanhamento das condicionalidades na área de saúde. Serviço Social & Sociedade, n. 125, p. 148-166, 2016.

SILVA, C. C. S. et al. Rede neural artificial e o modelo de apoio à decisão em segurança alimentar nutricional. in Revista de enfermagem UFPE on line, Recife, 9(3):7078-85. 2015. Disponível em [http://www.revista.ufpe.br/revistaenfermagem/index.php/revista/article/download/6317/pdf_7386]. Acesso em 20 de ago. 2016

SOARES, S.; SÁTYRO, N. O Programa Bolsa Família: desenho institucional, impactos e possibilidades futuras. 2009.

SOUZA, F. C. S. de et al. Inteligência computacional aplicada na análise e recuperação de portfólios de créditos do tipo non-performing loans. 2015. Dissertação de Mestrado. Universidade Nove de Julho – SP.

SOUZA, F. C. S. de. Métricas de avaliação de modelos de classificação/predição. 2014. Disponível em [https://mineracaodedados.wordpress.com/tag/matriz-de-confusao/]. Acesso em ago. 2016

Wikipedia. Youden's J statistic. Wikipedia, The Free Encyclopedia. Last edition: 22 Nov. 2016. Disponível em [https://en.wikipedia.org/wiki/Youden's_J_statistic]. Acesso em dez. 2016

SANTOS, C. J. et al. Classificadores Binários como Critério de Averiguação em Políticas Públicas. In: VII Conferência Sul em Modelagem Computacional, 2016. Rio Grande/RS. 2016. Anais do 7o. MCSul - Conferência Sul em Modelagem Computacional. Rio Grande - RS: FURG, 2016. p. 718-726.




DOI: http://dx.doi.org/10.13037/ras.vol13n1.169

Apontamentos

  • Não há apontamentos.


Revista de Informática Aplicada - USCS/UFABC