Dataputket ja aihemallinnus palautteesta
Data-alustan uudistus ja NLP-pohjainen aihemallinnus — asiakaspalautteesta toistettavia oivalluksia.
Konteksti ja ongelma
Suurella lentoyhtiöllä data on toimintakriittistä: turvaluokiteltua, säänneltyä ja osa ydintoiminnan hallintaa. Muutoksilta vaadittiin hallintaa, jäljitettävyyttä ja turvallisuusvaatimusten noudattamista. Asiakaspalautetta kertyi useista kanavista, mutta analyysi oli hidasta ja dataputket legacy-henkisiä. Tekninen velka hidasti uusia käyttötapauksia, eikä palautteesta saatu systemaattisesti näkyviin trendejä ja kipupisteitä. Autoin yhtiötä luotettavan data-kerroksen kehittämisessä ja rakensin analytiikkatyökalun päätöksenteon tueksi.
Mitä tehtiin
Yhtiön data ja dataputket olivat toimintakriittisiä. Modernisoin ja korjasin data-infraa — Airflow-putkien uudelleenrakennus, Snowflake- ja Elasticsearch-integraatioiden optimointi, IaC siirretty AWS CDK:hon, CI/CD ja Docker julkaisuun. Python-refaktorointi, valvonta ja verkko-/turvallisuusasetukset vähensivät operatiivista kitkaa.
Yhtiön asiakaspalautteen käsittely oli toimintakriittistä ja palaute oli massiivista. Rakensin aihemallinnusratkaisun asiakaspalautteelle — NLP-putki strukturoimattomalle datalle, LDA ja BERTopic trendien ja ongelmakohtien tunnistukseen. Raportointi ja työkalut customer success -tiimin käyttöön.
Keskeisiä teknologioita: Python, Airflow, Snowflake, Elasticsearch, AWS CDK, Docker, LDA, BERTopic, Pandas, NumPy, AWS QuickSight.
Tulos
Data-ympäristö oli ylläpidettävämpi ja halvempi operoida; palautteesta saatiin toistettava näkymä aiheisiin ja sentimenttiin ilman manuaalista läpikäyntiä. Ensin data engineering -perusta kuntoon, sitten NLP-mallinnus liiketoiminnan hyödyksi — kaksi erillistä roolia samassa asiakaskontekstissa.
Kuva: Viento cruzado I — Jumbero, CC BY-SA 2.0.