Lavoriamo su piattaforme dati enterprise e pipeline scalabili su Google Cloud. Costruiamo sistemi affidabili per ingestione, trasformazione e analisi di grandi volumi di dati.
Cosa farai
Progettare e sviluppare pipeline di elaborazione dati batch e streaming con Apache Beam e Apache Spark su Google Cloud Dataproc.
Modellare, ottimizzare e interrogare dataset di grandi dimensioni su BigQuery, con attenzione a costi e performance.
Lavorare con BigQuery Studio per esplorazione dati, sviluppo di notebook analitici e collaborazione con i team di Data Science e Analytics.
Integrare sorgenti dati eterogenee (database relazionali, API, event stream) nelle pipeline GCP.
Monitorare la qualità dei dati, implementare test e alert sulle pipeline in produzione.
Collaborare con il team di Data Science per rendere i dati disponibili, affidabili e ben documentati.
Contribuire alla definizione degli standard di data engineering del team: naming convention, data catalog, lineage.
Skill Richieste
Apache Beam/Spark — Sviluppo pipeline — livello intermedio
Google Cloud Dataproc — Cluster, job, tuning — livello intermedio
BigQuery — SQL avanzato, ottimizzazione — livello intermedio/avanzato
BigQuery Studio — Notebook, esplorazione — livello base/intermedio
Python — pipeline e scripting — livello intermedio
SQL avanzato — Window fn, CTE, ottimiz. — livello intermedio
Git/CI-CD — Workflow collaborativo — livello intermedio
Nice to have
Esperienza con Google Cloud Dataflow (pipeline Beam fully managed).
Conoscenza di orchestratori di pipeline: Apache Airflow / Cloud Composer.
Nozioni di data modeling: schema star/snowflake, data vault.
Certificazione Google Cloud Professional Data Engineer (o percorso in corso).