Loppuraportti

Seuraavassa on loppuraportin sisältö. Voitte halutessanne käyttää toisenlaista otsikointia/rakennetta, mikäli se tuntuu sopivammalta, kunhan samat asiat tulee kerrottua. Mukana on apukysymyksiä, mutta soveltakaa niitä aiheenne mukaan. (Apukysymykset koskevat yleisimpiä menetelmiä.) Raportin pituus riippuu esitystyylin tiiviydestä (suositus: 12pt fontti). Oletusarvoisesti 6-10 sivua, mutta jos mukana on paljon kuvia (hyvä asia), niin sitten voi olla pidempikin (kuvia voi laittaa liitteeseen jos niitä on paljon). Pääasia että kaikki oleellinen tulee kerrottua riittävällä tarkkuudella.

Voitte halutessanne käyttää oheista latex-templaattia. (Käännettynä se näyttää tältä )

TÄRKEÄÄ:

Laittakaa jokaisen luvun alkuun luvun kirjoittaja(t).

Palauttakaa pdf:nä (voitte lähettää dokumentin tai vain linkin siihen)

Ehdoton deadline ke 29.5. klo 24.00.

Otsikkotiedot (halutessa kansilehti)

Keksikää aiheelle kuvaava nimi. Alaotsikoksi "Tiedonlouhinnan harjoitustyö" ja päivämäärä. Tekijöiksi ryhmän jäsenet (jotka jatkoivat loppuun asti) ja ainakin yhden kontaktihenkilön sähköposti (Tämä on tulevaisuutta varten, jos joku haluaa jälkikäteen kysellä lisää projektistanne.).

1. Yleiskuvaus aiheesta

Lyhyesti mikä oli aihe, mihin se liittyi, ihan yleisellä tasolla millainen data ja mihin kysymyksiin toivottiin erityisesti vastauksia tai mitä mallinnusmenetelmää haluttiin testata (Siis "tutkimusongelma(t)", jos sellaisia oli). Muistakaa: Tiiviisti ja yleisellä tasolla eli pituus vain 1-2 kpl.

2. Data

Alkuperäisen datan kuvaus eli seuraavat asiat

Datan määrä eli montako riviä ja montako muuttujaa.
Datan alkuperä (sikäli kuin tiedätte): Mistä kerätty? Oliko esim. tietyltä aikaväliltä tai tietyiltä yksilöiltä? Mihin tarkoitukseen?
Minkä tyyppistä dataa? Jos "tavallista" eli ei aikadimensiota ja esitetty valmiina muuttuja-arvopareina, voi luonnehtia staattiseksi ja rakenteelliseksi. Muuten miten poikkesi tästä: esim. oliko temporaalista eli aikasarja- tai tapahtumalokidataa tai sisälsikö rakenteettomia elementtejä (kyselydata).
Mitä muuttujia? Merkitys lyhyesti ellei ihan triviaali (tyyliin paino). Mittayksiköt? Mittausfrekvenssi (jos aikasarjadataa)? Muuttujan tyyppi? Tässä mainitaan myös "rakenteettomat muuttujat" (käytännössä merkkijonotyyppisiä muuttujia).
Datan laatu ja anomaliat (eli kaikki ongelmat): Oliko puuttuvia tai virheellisiä arvoja? Kuinka paljon? Keskittyivätkö tiettyihin muuttujiin vai tasaisesti? Tiedättekö syytä? (esim. lähestykatkot). Missä määrin (arvioitte) oli outliereita ja kohinaa? Olivatko ne mittausvirheitä vai aitoa vaihtelua kohteissa? (Tämä on tärkeää, jos vain erotettavissa!) Mikäli kohina tai outlierit selvisivät vasta esiprosessoinnissa tai mallinnuksessa, niitä voi käsitellä tarkemmin vastaavissa luvuissa ja tässä vain ennakkomainostaa.
Oliko varsinaisen datajoukon lisäksi jotain apudatoja (joissa lisätietoja joistain muuttujista, tyliin lehmäyksilöistä)?

3. Esiprosessointi

eli datan siivous, tilastollinen perusanalyysi (muuttujien jakaumat), uusien muuttujien muodostus ja mahdollinen muuttujien valinta -- mitä kaikkea teitte ennen varsinaista mallinnusta?

Mitä siivousta teitte?
Tilastollinen perusanalyysi: Millaisia muuttujien jakaumat olivat? Näitä voi esittää histogrammeina tms. visuaalisesti tai taulukkona, jossa ainakin numeeristen muuttujien keskiarvot ja -hajonnat (mediaanikin on hyvä, sillä sen vertaus keskiarvoon paljastaa vinoumaa/outliereita). Mikäli mallinnusmenetelmänne edellyttivät tietynlaista jakaumaa, esim. normaali-, silloin olisi hyvä todeta, pätikö oletus. Tässä vaiheessa voi myös kertoa selvistä outliereista, jotka paljastuivat yksittäisten muuttujien tutkimuksessa. (Miettikää miten tarkka esitys on tarpeen. Jos varsinainen mallinnusmenetelmä on robusti alkuperäisen datan jakaumalle, ei sitä juurikaan tarvitse tutkia.)
Mitä uusia muuttujia muodostitte? TÄRKEÄÄ! Uusia muuttujia voi jaotella muodostustavan perusteella: 1) Kokonaan uusia asioita kuvaavat piirteet, jotka on johdettu muuttujien yhdistelmistä tai käyttäen datan ulkopuolista tietoa (näiden muodostus huolella! myös mahdolliset taustaoletuksenne) ja 2) olemassaolevien muuttujien muunnokset, esim. standardointi, skaalaus, pehmennys, diskretointi (näistä riittää mainita menetelmä, jos yleisesti tunnettu, kuvata lyhyesti tai antaa kaava). Jos jokin muunnos tehtiin kaikille (numeerisille) muuttujille samalla tavalla, ei sitä tietenkään kuvata erikseen jokaiselle. (Huom! Usein muuttujien johtamisessa tehdään ensin 1 ja sitten 2.)
Muuttujien valinta: Valikoitteko muuttujia jo ennen mallinnusta? Millä perusteella? Tai loitteko datasta useita eri versioita, eri muuttujilla?

4. Mallinnus

Kaikki kokeillut menetelmät, niissä käytetyt muuttujat ja parametriasetukset. Muistakaa mainita, jos menetelmässä käytettiin vain jotain datan osaa. Esim.

Kaikki kahden (numeerisen tai ordinaalisen) muuttujan korrelaatiot ja/tai mutual informationit. Mikä korrelaatiomitta? Mutualin kohdalla myös diskretointivälien lkm.
Kaikki aikasarjamuuttujien autokorrelaatiot (ehkä kuvituksena korrelogrammit) tai Fourier-analyysissä saatu tieto frekvenssijakaumasta.
Diskreettisten tai diskretoitujen muuttujien väliset riippuvuussäännöt. Montako etsitte, mikä hyvyysmitta, oliko jotain ekstrarajoituksia (esim. eheysehdot tai jonkin hyvyysmitan minimi-/maksimiarvo)?
Luokittelu: Mitkä muuttujat, mikä menetelmä, sen parametrit? Koska samasta luokittelumenetelmästä on olemassa eri variaatioita (mm. eri oppimisalgoritmeja), koettakaa kertoa mahdollisimman tarkkaan, mitä käytitte.
Klusterointi: Mikä menetelmä ja mikä etäisyysmitta? Miten klusterien lukumäärä määritettiin? Taas kerran koettakaa kertoa menetelmä riittävän tarkasti.

Extraplussaa: Mitä esioletuksia menetelmään (tai valitsemiinne parametreihin) liittyy? Tästä voi kertoa myös tulosten yhteydessä eli mitä implisiittisiä rajauksia olitte asettaneet hakuavaruudelle (eli mitä mahdollisesti missattiin).

5. Tulokset

Kertokaa sekä negatiiviset että positiiviset tulokset ja pohtikaa niiden luotettavuutta ja merkitystä.

Negatiiviset tulokset: Jos jokin menetelmä ei löytänyt mitään, pohtikaa syitä: Oliko vika menetelmän esioletuksissa, esim. vaatisi normaalijakautunutta dataa? Tai oliko diskretointi huono? Vai oliko data aidosti liian satunnaista?
Luokittelu: Miten hyvyys arvioitiin? (esim. 10-kert. ristiinvalidointi) Mikä oli luokitteluvirhe? Mahd. muita luokittelun hyvyysmittoja (kappa, ROC)? Parhaiden luokittelijoiden osalta voi esittää myös sekaannusmatriisin. Arvioikaa myös mitä luokitteluvirhe olisi ollut satunnaisarvauksella ja mikä taas paras mahdollinen virhe kyseisellä datalla (datan konsistenssin perusteella, eli paljonko duplikaatteja joilla kuitenkin eri luokka-arvo). Tulkintaa, miksi jokin luokittelumenetelmä toimi muita paremmin. (Esim. sopivatko sen esioletukset paremmin dataanne?)
Klusterointi: Näiden laatua on vaikea arvioida numeerisesti, mutta aina voi yrittää. Myös klusterien visualisointi (2-ulotteiselle datalle helppoa, muille hankalampaa) paljastaa usein laadusta. Tärkeintä on kuitenkin klusterien merkitys: millaiset alkiot tulivat samaan klusteriin? Onko jaottelu mielekäs vai sattuman varainen? Tuottiko se uutta kiinnostavaa tietoa? (esim. löytyi kiinnostava osapopulaatio, joka kannattaa jatkossa huomioida) Mitkä menetelmät tai mitat tuottivat mielestänne parhaita tuloksia?
Riippuvuudet: Olivatko korrelaatiot tai niiden puute uskottavia? Löytyikö kiinnostavia epälineaarisia riippuvuuksia? Mikäli käytitte riippuvuussääntöjä, niistä huolellinen analyysi: Miten säännöt ryhmittyvät? (Tyypillisesti paljon yhden ydinsäännön tai asian variaatioita.) Miksi ne olivat merkitseviä? (Merkitsevyys kertoo joko vahvasta riippuvuudesta tai heikommasta mutta yleisestä riippuvuudesta. Leverage ja konfidenssi kertovat vahvuudesta, frekvenssi yleisyydestä.) Mitä ei-redundantit säännöt kertoivat (verrattuna yleistyksiinsä)? Eli mitä merkitsi että AB->C oli parempi kuin A->C ja B->C? Johtuiko parannus vain parista yksilöstä vai oliko merkittävää? Kertoiko että jokin kahden muuttujan riippuvuus päti vain tiettyille yksiköille? (esim. vain kaatopaikan asukeille). Kannattaa myös pohtia, oliko valitsemanne diskretointi onnistunut. Mikäli muuttujat olivat alkujaan numeerisia, voitte verrata sääntöjä vastaavien numeeristen muuttujien riippuvuuksiin (esim. regressio). (Tällöin riippuvuussäännöt siis ainostaan auttoivat löytämään kiinnostavat riippuvuudet mutta tarkempi mallinnus tehtiin numeerisilla menetelmillä. Järkevää jos suuridimensioinen ja vahvasti varioiva/kohinainen data eikä erityistä luokkamuuttujaa.).
Esiprosessoinnin hyvyys: Olivatko johdetut muuttujat onnistuneita? Mitkä osoittautuivat parhaiksi?

Lisäksi pohdintaa käytännön merkityksestä (nimenomaan sovellusalan kannalta)!

Johtopäätökset ja jatkokehitysideat

Löytyikö kiinnostavaa uutta tietoa? Mitkä menetelmät osoittautuivat parhaiksi ja mitkä huonoimmiksi? Myös vinkit, millaista dataa kannattaisi jatkossa kerätä tai miten samantapaisia ongelmia kannattaisi ratkaista.

Tämä luku voi puuttuakin, jos kaikki tuli jo kerrottua tuloksissa.