Databricks-alusta data- ja ML-työhön

Tuotantoluokan Databricks-alusta — dataputket, ML-työnkulut ja pilvi-infra yhdenä kokonaisuutena.

Ota yhteyttä

Konteksti ja ongelma

Sähköisen latauksen laitevalmistajalla data- ja ML-työ tehtiin useissa työkaluissa ilman yhteistä alustaa. Kasvava liiketoiminta vaati skaalautuvat putket, toistettavan infran ja selkeän tavan yhdistää data engineering, analytiikka ja koneoppiminen. Tarvittiin alusta, joka voidaan ottaa laajasti käyttöön — ei vain yksi projekti, vaan yrityksen tapa tehdä data- ja ML-työtä.

Mitä tehtiin

Johdin alustan kehitystä arkkitehtina ja käytännön kehittäjänä. Rakensin Databricks-pohjaisen ympäristön: PySpark- ja Pandas-putket, scikit-learn- ja SciPy-työnkulut, AWS-palvelut (Lambda, CloudFormation), Terraform ja DevOps-käytännöt. Merkittävä osa työtä oli myös Elasticsearch- ja DynamoDB-migraatiot ja integraatiot.

Vastasin teknisestä linjasta, toteutuksesta ja siitä, että sidosryhmät pystyvät siirtymään alustalle. Toimitus maaliskuu–elokuu 2023.

Keskeisiä teknologioita: Databricks, Spark, Python, Terraform, AWS, DevOps, scikit-learn.

Tulos

Databricks vakiintui data- ja ML-toiminnan keskeiseksi alustaksi. Putket ja mallityö olivat tuotantokelpoisia ja toistettavia, eikä jokainen tiimi rakentanut omaa hajautettua ratkaisua. Ratkaisu osoitti, että kasvuyrityksessä data-alusta voidaan viedä käyttöön sekä teknisesti että organisaatiotasolla lyhyessä aikataulussa.

← Takaisin toimeksiantoihin

Kuva: Delta Lake, NY — Ducio1234, CC BY-SA 3.0.

Konteksti ja ongelma

Mitä tehtiin

Tulos

social