web analytics

Kettle, integrazione e trasformazione dati in Linux

Con il termine ETL (Extraction, Transformation and Loading data) si identifica una tipologia di tool capaci di estrarre, modificare e caricare dati di uguale o diversa natura provenienti da una o più sorgenti anche di diversa natura.
Immaginiamo di dover estrarre dei dati da una, o più tabelle, presenti in un db MySql per poi successivamente importarli su un db diverso o addirittura su un altro server. 
Saremmo costretti ad usare diverse applicazioni con diversi metodi sia di esportazione che di importazione dei dati nella speranza remota che tutto il processo si completi senza perdite di dati, in modo efficiente e del tutto sicuro.
In due parole sarebbe un massacro, quindi?
E’ molto meglio usare un’applicazione creata appositamente per soddisfare tutte le regole imposte dall’ETL ovvero, estrazione dei dati in base a delle regole, possibile modifica dei contenuti e/o reimportazione su qualsiasi piattaforma e/o database server. Sto parlando di KETTLE nella versione open source ovviamente. 
Kettle è il nome in codice dell’applicazione Pentaho Data Integration che ci permette di lavorare seguendo le regole ETL.

L’immagine qui sopra raffigura un processo che creerà un file sql con dentro tutti i dati estratti dalla tabella del database, opportunamente inseriti in comandi INSERT sequenziali facilmente eseguibili su altri database anche senza Kettle.
Questo è solo uno delle migliaia di esempi possibili con Kettle basti pensare che esiste anche la possibilità di:
  • accedere a qualsiasi tipo di file o database server;
  • esportare e/o importare dati di qualsiasi natura;
  • accedere in upload e dowload a server ftp dopo un’estrazione;
  • interazione dei dati dai servizi Google Analitics;
  • controllare e/o modicare i dati durante i processi di import/export;
  • e molto altro…

Uno strumento molto utile per chi lavora con i dati.

Kettle può essere installato nel modo seguente:
  • Scaricare l’ultima versione (4.3.0) da qui
  • Spacchettare il file pdi-ce-4.3.0-stable.tar.gz nella propria home

Digitare nel terminale

cd data-integration
./spoon.sh

Link di Kettle
Home page del progetto
Documentazione
FAQ