Databricks-alusta data- ja ML-työhön
Tuotantoluokan Databricks-alusta — dataputket, ML-työnkulut ja pilvi-infra yhdenä kokonaisuutena.
Konteksti ja ongelma
Sähköisen latauksen laitevalmistajalla data- ja ML-työ tehtiin useissa työkaluissa ilman yhteistä alustaa. Kasvava liiketoiminta vaati skaalautuvat putket, toistettavan infran ja selkeän tavan yhdistää data engineering, analytiikka ja koneoppiminen. Tarvittiin alusta, joka voidaan ottaa laajasti käyttöön — ei vain yksi projekti, vaan yrityksen tapa tehdä data- ja ML-työtä.
Mitä tehtiin
Johdin alustan kehitystä arkkitehtina ja käytännön kehittäjänä. Rakensin Databricks-pohjaisen ympäristön: PySpark- ja Pandas-putket, scikit-learn- ja SciPy-työnkulut, AWS-palvelut (Lambda, CloudFormation), Terraform ja DevOps-käytännöt. Merkittävä osa työtä oli myös Elasticsearch- ja DynamoDB-migraatiot ja integraatiot.
Vastasin teknisestä linjasta, toteutuksesta ja siitä, että sidosryhmät pystyvät siirtymään alustalle. Toimitus maaliskuu–elokuu 2023.
Keskeisiä teknologioita: Databricks, Spark, Python, Terraform, AWS, DevOps, scikit-learn.
Tulos
Databricks vakiintui data- ja ML-toiminnan keskeiseksi alustaksi. Putket ja mallityö olivat tuotantokelpoisia ja toistettavia, eikä jokainen tiimi rakentanut omaa hajautettua ratkaisua. Ratkaisu osoitti, että kasvuyrityksessä data-alusta voidaan viedä käyttöön sekä teknisesti että organisaatiotasolla lyhyessä aikataulussa.
Kuva: Delta Lake, NY — Ducio1234, CC BY-SA 3.0.