• Roger Sampaio

Um Trabalho Considerado de Corno: ETL

Fala meus guerreiros. Hoje iremos falar de um trabalho considerado de corno (perdão pelo termo perjorativo ‘kkk’, porém é adequado aqui, significando algo chato que a maioria não gosta de fazer) por muitos profissionais na área de dados. Em geral o pessoal gosta da criação dos dashboards bonitos e charmosos ou então da implementação dos algoritmos inteligentes de aprendizado de máquina pra prever o futuro. Esses

dois últimos são a ponta do iceberg, ou melhor, a parte visual do trabalho (que será apresentada para o cliente), porém o ETL é a base de todo o processo. Em outras palavras, se a base não estiver bem consolidada e firmada (o processo ETL bem feito), todo seu trabalho irá por ‘água abaixo’. Profissionais especialistas em ETL não levem por lado pessoal (por favor, J), estou apenas dizendo que grande parte das pessoas não gostam de implementar, porém ETL é o principio de tudo.


1. Que ‘Diachos é ETL’


ETL vem da sigla Extract, Transform e Load, traduzindo para o português significa: extração, transformação e carga. Trata-se de um processo composto das três etapas citadas anteriormente e é o primeiro no ciclo de ciência de dados após entendimento do negócio conforme mostrado na figura abaixo.


2. A Etapa ‘Extract’


É comum precisarmos buscar os dados de diversas fontes podendo ser, por exemplo, diferentes SGBDs (Sistema Gerenciador de Banco de Dados), planilhas, arquivos textos entre outras. É aqui que entra o passo ‘Extract’, ou seja, ‘Extrair’.

Existem ferramentas no mercado que nos possibilita efetuar todo o processo ETL de uma maneira fácil (clicando e arrastando os componentes necessários para a tela sem necessitar usar uma linguagem de programação) como, por exemplo, o Pentaho. Veja abaixo (estamos obtendo de 3 fontes: Planilha 1, Planilha 2 e por fim um banco de dados).

3. A Etapa ‘Transform’


Agora vamos para a segunda etapa do ETL: ‘transform’, ou seja, transformação. Significa você adaptar os dados segundo o propósito que deseja, ou seja, remover colunas desnecessárias, limpar registros inválidos (como, por exemplo, valores ‘missing’), substituir sequência de caracteres por outros em alguma coluna ou linha, renomear ou criar novas colunas e por aí vai (são muitas possibilidades). Essa etapa é de suma importância, porque na prática a base de dados raramente vem ‘bonitinha’, pronta para ser utilizada, antes precisamos passar um pente fino eliminando sujeiras e adaptando segundo as nossas necessidades. Revendo o exemplo anterior, suponha que nessas duas planilhas tem um campo contendo a data de publicação de um post, porém o formato está diferente em ambos os arquivos. No primeiro a data está no formato DD/MM/AAAA (sendo D dia, M mês, A ano com 4 dígitos). No outro a data está no formato MM/DD/AA (note que aqui a ordem entre mês e dia está invertida e ano está com apenas dois dígitos). Logo precisamos definir um padrão, um formato a ser utilizado. Veja abaixo:

4. A Etapa ‘Carga’


Agora que os dados estão organizados, limpos, ajustados, faremos a carga que pode ser em diferentes destinos: banco de dados, geração de arquivo final consolidado, um data warehouse (um tipo de banco de dados otimizado para relatórios e análises através de ferramentas OLAP) entre outros. Veja:

5. E no Final das Contas


O processo do ETL, é o que mais demanda tempo dos profissionais de dados, diria cerca de 80%. E dependendo do porte da empresa e da complexidade dos projetos, existem profissionais especializados somente no processo ETL. Embora pareça fácil, acredite: não é algo trivial e precisa de muita cautela para não ter impacto negativo no restante do processo da Ciência de Dados.

Embora tenha citado o processo ETL como o primeiro, não pense que será executado necessariamente uma única vez. Pode acontecer e é bastante comum executá-lo diversas vezes, até que se alcance os resultados esperados.

‘Extrair, Transformar, Carregar’ pode não ser o melhor do mundo para muitas pessoas, porém é altamente necessário para um trabalho bem feito com análise de dados e graças às ferramentas disponíveis no mercado (exemplo: Pentaho) pode ser facilitado. Um abraço e até a próxima.


Trabalho feito em parceria com:


577 visualizações3 comentários