Skandinavian lämpötilapoikkeama kartalla (heinäkuu 2018).

Geospatiaalisen datan käsittelyalusta

Massiivisen geospatiaalisen datan jälkikäsittely tuotannollistettuna — Dask, Python-paketit, OpenShift ja OGC-palvelut operatiiviseen käyttöön.

Konteksti ja ongelma

Suomalaisella viranomaisella tuotetaan ja prosessoidaan massiivista geospatiaalista dataa. Jälkikäsittely vaatii rinnakkaislaskentaa, maantieteellistä kontekstia ja luotettavaa ajoa tuotantoympäristössä. Tarvittiin ratkaisu, joka on sekä datatieteilijöiden operatiivinen työkalu että ylläpidettävä ohjelmistoalusta — ei hajallaan olevia skriptejä eikä erillistä infraa jokaiselle työkuormalle.

Mitä tehtiin

Kehitin Dask-ekosysteemiin perustuvan käsittelyalustan ja sen ympärille Python-paketin sekä ajoa ympäröivän infran. Datavirta perustuu Xarray- ja Pandas-työkaluihin; rinnakkaistus kantaa resurssi-intensiiviset kuormat. Alusta kattaa paikallisen kehitysympäristön ja kaksi klusteria — versiointi, julkaisukoodi ja ympäristökohtainen konfiguraatio suunniteltiin moniympäristöisyydestä lähtien.

Rakensin ja ylläpidin työajojen ajoympäristöjä OpenShiftillä: templatet ja deployment-konfiguraatio paikalliseen, kehitys- ja tuotantokohteeseen. CI/CD ja kontitus mahdollistavat koodin toistettavan julkaisun. Osa työtä oli kohdennettujen data-analyysien kehittäminen.

Paketoin datatieteilijöille AI-avusteisen työkalupakin hallittuun laskentaympäristöön — valmiit kontekstit ja työkalut operatiivisen platformin päälle. Tutkin ja työskentelin legacy C++ -järjestelmien kanssa samalla kun rakensin dataputket, jotka syöttävät tai laajentavat olemassa olevia alustoja. Rakensin OGC-standardien mukaisia rajapintapalveluja paikkatiedon hakua varten.

Keskeisiä teknologioita: Python, Dask, Xarray, Pandas, NumPy, OpenShift, Kubernetes, Podman, CI/CD, GIS, OGC, REST, ohjelmistopaketointi.

Tulos

Alusta on operatiivisessa käytössä: datatieteilijät jälkikäsittelevät dataa skaalautuvasti, ja sama kokonaisuus tukee kehitystä, testausta ja tuotantoa yhdenmukaisella putkella. Ratkaisu yhdistää modernin dataprosessoinnin, klusteriajon, legacy-järjestelmien rinnalla työskentelyn ja standardoidun geodata-pääsyn — julkisen sektorin vaativassa ympäristössä tuotantokelpoisena kokonaisuutena. Ratkaisu demokratisoi laskenta-alustan: datatieteilijät voivat itse toteuttaa laskentatarpeensa ilman toiminnallisuuksien tiketöintiä ja kuukausien odottelua.

← Takaisin toimeksiantoihin

Kuva: Scandinavia temperature anomaly 2018 — NASA, public domain.

social