Geospatiaalisen datan käsittelyalusta
Massiivisen geospatiaalisen datan jälkikäsittely tuotannollistettuna — Dask, Python-paketit, OpenShift ja OGC-palvelut operatiiviseen käyttöön.
Konteksti ja ongelma
Suomalaisella viranomaisella tuotetaan ja prosessoidaan massiivista geospatiaalista dataa. Jälkikäsittely vaatii rinnakkaislaskentaa, maantieteellistä kontekstia ja luotettavaa ajoa tuotantoympäristössä. Tarvittiin ratkaisu, joka on sekä datatieteilijöiden operatiivinen työkalu että ylläpidettävä ohjelmistoalusta — ei hajallaan olevia skriptejä eikä erillistä infraa jokaiselle työkuormalle.
Mitä tehtiin
Kehitin Dask-ekosysteemiin perustuvan käsittelyalustan ja sen ympärille Python-paketin sekä ajoa ympäröivän infran. Datavirta perustuu Xarray- ja Pandas-työkaluihin; rinnakkaistus kantaa resurssi-intensiiviset kuormat. Alusta kattaa paikallisen kehitysympäristön ja kaksi klusteria — versiointi, julkaisukoodi ja ympäristökohtainen konfiguraatio suunniteltiin moniympäristöisyydestä lähtien.
Rakensin ja ylläpidin työajojen ajoympäristöjä OpenShiftillä: templatet ja deployment-konfiguraatio paikalliseen, kehitys- ja tuotantokohteeseen. CI/CD ja kontitus mahdollistavat koodin toistettavan julkaisun. Osa työtä oli kohdennettujen data-analyysien kehittäminen.
Paketoin datatieteilijöille AI-avusteisen työkalupakin hallittuun laskentaympäristöön — valmiit kontekstit ja työkalut operatiivisen platformin päälle. Tutkin ja työskentelin legacy C++ -järjestelmien kanssa samalla kun rakensin dataputket, jotka syöttävät tai laajentavat olemassa olevia alustoja. Rakensin OGC-standardien mukaisia rajapintapalveluja paikkatiedon hakua varten.
Keskeisiä teknologioita: Python, Dask, Xarray, Pandas, NumPy, OpenShift, Kubernetes, Podman, CI/CD, GIS, OGC, REST, ohjelmistopaketointi.
Tulos
Alusta on operatiivisessa käytössä: datatieteilijät jälkikäsittelevät dataa skaalautuvasti, ja sama kokonaisuus tukee kehitystä, testausta ja tuotantoa yhdenmukaisella putkella. Ratkaisu yhdistää modernin dataprosessoinnin, klusteriajon, legacy-järjestelmien rinnalla työskentelyn ja standardoidun geodata-pääsyn — julkisen sektorin vaativassa ympäristössä tuotantokelpoisena kokonaisuutena. Ratkaisu demokratisoi laskenta-alustan: datatieteilijät voivat itse toteuttaa laskentatarpeensa ilman toiminnallisuuksien tiketöintiä ja kuukausien odottelua.
Kuva: Scandinavia temperature anomaly 2018 — NASA, public domain.