Mais agilidade na selva de dados
Quem lida com dados sabe que é quase impossível se livrar da planilha eletrônica (Microsoft Excel, Libre/Open Office, Googles spreadsheet etc.). A planilha tem, e sempre terá seu valor, porém para algumas atividades do dia-a-dia, ela pode não ser a melhor opção.
Um exemplo de uma destas atividades é o que chamamos de "Data Cleaning", literalmente limpeza dos dados, e o "Data Wrangling" que é o processo de converter dados "brutos" de um formato para outro.
Recentemente eu estou testando duas ferramentas open source (trabalho com um MacBook Air):
- Trifacta, excelente para limpeza de dados, identificação de padrões de textos e sequências específicas nos arquivos e transformação para outros formatos. É um aplicativo desktop, ou seja, é executado no seu computador com seus dados. A imagem abaixo já diz muito do que ele faz. Detalhes em https://www.trifacta.com/products/wrangler/
- Um segundo utilitário é o Open Refine, antigo Google Refine, descontinuado pelo Google e que atualmente é mantido por voluntários. Ele é executado localmente e utiliza o browser (http://localhost). Detalhes em http://openrefine.org.
No exemplo abaixo utilizei dados aleatórios em um aplicativo no meu celular, exportei em formato CSV, tratei com o Open Refine para gerar um arquivo em formato TSV (separado por tabulação).
Martelo não serve para tudo. A ferramenta certa faz toda diferença, ainda mais se é open source e sem necessidade de fazer upload dos seus preciosos dados. Good luck!
p.s.: meu peso é bem menor do que este ;-)
(créditos da foto: Joel Herzog - https://unsplash.com/@joel_herzog, Unsplash.com)