Sto seguendo ora il workshop su Apache Hadoop, una piattaforma software che permette in maniera semplice di sviluppare applicazioni che hanno bisogno di processare una gran quantità di dati.
Uno dei pillar del Web 2.0 è “Data is the next Intel inside” è quindi essenziale avere a disposizione framework come Hadoop per avere la possibilità di processare l’enorme quantità di dati che si raccolgono.
Hadoop è disponibile per le piattaforme:
- GNU/Linux sia per sviluppo che per produzione. E’ stato dimostrato il suo funzionamento in un cluster di 2000 nodi!
- Win32 solo per sviluppo, sconsigliato per ambienti di produzioni.
Il framework è basato su Hadoop Distributed File System (HDFS) un file system distribuito progettato per poter funzionare su hardware eterogeneo e a basso costo, ma con ottime performance e una alta fault-tollerance.

Molto interessante il fatto che Hadoop è già preconfigurato per poter funzionare su Amazon EC2 e S3, i servizi di Cloud Computing di Amazon, che mettono a disposizione potenza computazionale e storage come servizi sulla rete e con un modello di pricing pay-as-you-go (si paga solo quello si usa).
Mi sembra un’accoppiata vincente, assolutamente da provare!
molto interessante, penso che darò uno sguardo alla pagina del progetto apache!
[...] Scaling with Your Data: An Introduction to Hadoop [...]