Uma breve introdução
Dando continuidade a prática sobre raspagem de dados, agora foi escolhido algo mais simples como a captura de dados em menor quantidade e complexidade do que o do post anterior (Hackeando Gastos Governamentais com Python 3).
A fonte de dados
A fonte de dados desse estudo é o Portal da Transparência do Governo do Estado do Ceará (http://transparencia.ce.gov.br/content/planejamento-e-execucao-orcamentaria/despesas/cartao-corporativo). O site disponibiliza os valores de gastos com o cartão corporativo distribuídos em 4 tabelas anuais.
Como o ano de 2018 ainda não acabou, os dados da tabela referente a esse ano ainda não está totalmente alimentada.
O desafio
-
Recuperar dados do Portal da Transparência do Governo do Estado do Ceará sobre gastos do cartão corporativo de responsabilidade do Chefe do Poder Executivo, no período de 2015 a 2018, e apresentar em gráficos
-
Calcular a média de gastos e desvio padrão anual dos gastos com o cartão
Capturando os dados
O algoritmo inicia com a captura da url que possui as quatro tabelas anuais dos gastos com o cartão corporativo. Logo em seguida, os valores de cada mês são capturados e tratados para serem inseridos em listas.
Cálculos de média e desvio padrão são realizados utilizando a biblioteca numpy e os gráficos são gerados com o pyplot.
Os resultados
Média e desvio padrão dos gastos
É possível gerar as médias e os desvios padrão para os gastos anuais com o cartão corporativo para cada ano (2015, 2016, 2017 e 2018).
Gastos com Cartão Corporativo 2018
Média de gastos -> R$ 2513.30
Desvio padrão -> ± R$ 1723.37
Gastos com Cartão Corporativo 2017
Média de gastos -> R$ 2524.33
Desvio padrão -> ± R$ 1865.36
Gastos com Cartão Corporativo 2016
Média de gastos -> R$ 1016.25
Desvio padrão -> ± R$ 979.13
Gastos com Cartão Corporativo 2015
Média de gastos -> R$ 786.42
Desvio padrão -> ± R$ 598.68
Sobre os gráficos
É possível, também, gerar os gráficos para cada ano em Valor(R$) x Mês e um único gráfico mostrando os gastos dos 4 anos. Abaixo são apresentados 5 gráficos, onde: a) corresponde aos 4 anos; b) corresponde ao ano de 2018; c) corresponde ao ano de 2017; d) corresponde ao ano de 2016; e) corresponde ao ano de 2015.
a)
b)
c)
d)
e)
Considerações
A intenção deste pequeno projeto foi somente a de praticar raspagem de dados utilizando Python. Com isso em mente, melhorias serão aplicadas à ele no decorrer do tempo. Essas melhorias estão descritas em: https://github.com/edsonlead/data_scraping/tree/master/003.
Seria interessante se fosse disponibilizado com o que foi utilizado o cartão corporativo do Estado. Porém, "Nessa página são disponibilizados os gastos com cartão corporativo que está sob responsabilidade do Chefe do Poder Executivo, cujas informações são disponibilizadas com valores sintéticos a fim de não comprometer a segurança almejada, conforme art. 22º, VII, da Lei 15.175/2012". Dessa forma, não há como apresentar aqui os motivos do aumento dos gastos em comparação com os anos tratados.
Gostou deste estudo? Aproveite e me siga no Twitter para trocarmos uma ideia legal.
Obrigado por ler até aqui. :)
Go Top