Pertti Haapala: Voiko historiaa tutkia tietokoneella?

Otsikko on tasan 50 vuoden takaa. Se on Viljo Rasilan tutkimuksen Kansalaissodan sosiaalinen tausta takakannesta. Vastaus on: ”Voidaan, käsissänne on ensimmäinen Suomessa milloinkaan ilmestynyt historiantutkimus, jossa on käytetty matemaattisia tietojenkäsittelymenetelmiä.” Edelleen kerrotaan, että ”tutkimus on puhtaasti tilastollinen” ja että metodina on ”faktorianalyysi”. Palataan sen tuloksiin myöhemmin, mutta sen voi tässä sanoa, että vastaanotto oli kylmä.

Kun pääsin opiskelemaan historiaa Tampereen yliopistoon, mikä ei ollut tavoitteeni, suoritin ensiksi tilastotieteen approbaturin. Se oli historian tutkintovaatimuksissa pakollisen latinan vaihtoehto. Vieläkään ei kaduta. Jo opiskeluaikana pääsin myös Viljo Rasilan tutkimusapulaiseksi. Tehtävänä oi koota väestöaineistoa rippikirjoista ja henkikirjoista. Tein siitä ominpäin elämänkulkuanalyyseja. Sitten pääsin mukaan MUULI-hankkeeseen (ks. Mikä on muuli?) tekemään samaa työtä vuosikausiksi. Se oli ensimmäisiä akatemian ns. projekteja, joita myös laajasti vieroksuttiin historiantutkimuksen luonteen vastaisina. Hankkeen johdossa oli kolme ei-silloin-niin-vanhaa professoria, Pentti Virrankoski Turusta, Yrjö Kaukiainen Helsingistä ja Viljo Rasila Tampereelta. Kaukiainen osasi demografian ja Rasila laskemisen. Virrankoski on kertonut hankkeesta muistelmissaan (Historian professori ja laulajapoika. Kulttuurin kuvia suuren muutoksen ajalta. 2013). Tutkijoita oli em. kolmesta yliopistosta, mm. Markku Kuisma Helsingistä. Seminaareissa, joissa aloin käydä, oli aina paikalla Eino Jutikkala, Beatrice Moring (nyk. Cambridge) ja ruotsalaisia väestöhistorian tutkijoita (Eric de Geer, Anders Brändström, Jan Sundin, Lars-Göran Tedebrand, Mats Morell). Mallilaitos meille oli Uumajan Demografiska Databasen. Resurssit olivat siellä aivan eri luokkaa eli siellä oli paljon tutkijoita ja atk-osaamista. Nykyään Uumaja on alallaan maailman huippua. Joskus valtion kannattaa perustaa tutkimuslaitos!

Kun kokosin MUULI-aineistoa arkistoissa, harmittelin, että en ehdi lukea tarpeeksi teoreettista kirjallisuutta. Mutta empiria sai minusta otteen ja aloin suhtautua vähätellen sosiologiaan, jota kuitenkin opiskelin. Oivalsin – tai kuvittelen niin – että ilmiöistä ei voi sanoa paljonkaan ilman pätevää aineistoa. Ajan kanssa tuli mietittyä pitkää ketjua: teko > fakta > data > faktori > analyysi > selitys > ymmärrys. Arkisemmin sanottua kysymys oli siitä miten hämäläisen maalaisen elämä kytkeytyi teollistumiseen ja ensimmäiseen globalisaatioon ja mitä siitä seurasi hänelle ja maailmalle. Arasti otin kantaa vallitsevaan teoreettiseen keskusteluun, mutta siis varovasti, koska luulin, että muiden itsevarmuus perustuu vankkaan tietoon ja aineistoon.

Nuorena opin siis seurakunnan arkistossa miten ’big things are made of small things’ ja se on riittänyt. Kun mittaava tutkimus tarvitsee isoja aineistoja, vain idiootti ei huomaa miten suurta vaihtelu ilmiöissä aina on ja ’normaali’ saa aivan uuden sisällön. Tai miten miten paljon vaikuttavia muuttujia aina on. Niitä ei löydä, ellei etsi, ja jos ei etsi on pakko arvata. Nykyinen big data -analytiikka löytää toki sellaista mitä silmä ei näe eikä mieli tajua, mutta kun tutkitaan ajattelevien ihmisten tekoja ja elämää, kone auttaa yllättävän vähän. Silti mittaava tutkimus ei ole mitenkään ristiriidassa ymmärtävän (humanistisen) tutkimuksen kanssa. Eikä se ole myöskään pelkkää raakadataa laadulliselle analyysille, vaan sitä itseään: tietoa.

1970- ja 1980-luvun keskustietokoneet olivat suuria ja hitaita. Ajon tulokset sai seuraavana päivänä. Oikeastaan tutkimuksen työläys oli terveellistä. Kun kaivaa aineiston itse arkistosta, tallettaa sen harkitun suunnitelman mukaisesti, koodaa sen käsin, keksii muuttujat ja kokeilee erilaisia mittaustapoja, vasta silloin ymmärtää mitä on tekemässä: miten tulokset syntyvät, miten ne muuttuvat (vääristyvät) eli miten aineisto ja hypoteesit reagoivat toisiinsa. Näin minulle valkeni mitä todella tarkoittaa validiteetti, kertooko aineisto siitä mistä luulen sen kertovan. Tämä tulee mieleen kun näkee esimerkkejä nykyisestä ’digitaalisesta humanismista’, jossa tutkijan ei tarvitse tietää mitä algoritmi tekee kun se tuuppaa käyrää isosta korpuksesta. Vanhanaikainen tilastotiede kysyy miksi aineisto käyttäytyy noin – ja tutkija yrittää sitten selittää mitä se kertookaan tapahtuneesta. Kun tämän muistaa, uusista aineistoista ja työkaluista on todella hyötyä.

Kirjoittaja: Pertti Haapala