Loppuraportti
Seuraavassa on loppuraportin sisältö. Voitte halutessanne käyttää
toisenlaista otsikointia/rakennetta, mikäli se tuntuu sopivammalta,
kunhan samat asiat tulee kerrottua. Mukana on apukysymyksiä, mutta
soveltakaa niitä aiheenne mukaan. (Apukysymykset koskevat yleisimpiä menetelmiä.) Raportin pituus riippuu
esitystyylin tiiviydestä (suositus: 12pt fontti). Oletusarvoisesti
6-10 sivua, mutta jos
mukana on paljon kuvia (hyvä asia), niin sitten voi olla
pidempikin (kuvia voi laittaa liitteeseen jos niitä on paljon).
Pääasia että kaikki oleellinen tulee kerrottua riittävällä
tarkkuudella.
Voitte halutessanne käyttää oheista
latex-templaattia. (Käännettynä se näyttää tältä )
TÄRKEÄÄ:
Laittakaa jokaisen luvun alkuun luvun
kirjoittaja(t).
Palauttakaa pdf:nä (voitte lähettää dokumentin tai vain linkin siihen)
Ehdoton deadline ke 29.5. klo 24.00.
Otsikkotiedot (halutessa kansilehti)
Keksikää aiheelle kuvaava
nimi. Alaotsikoksi "Tiedonlouhinnan harjoitustyö" ja
päivämäärä. Tekijöiksi ryhmän jäsenet (jotka jatkoivat loppuun asti) ja
ainakin yhden kontaktihenkilön sähköposti (Tämä on tulevaisuutta varten,
jos joku haluaa jälkikäteen kysellä lisää projektistanne.).
1. Yleiskuvaus aiheesta
Lyhyesti mikä oli aihe, mihin se liittyi,
ihan yleisellä tasolla millainen data ja mihin kysymyksiin toivottiin
erityisesti vastauksia tai mitä mallinnusmenetelmää haluttiin testata
(Siis "tutkimusongelma(t)", jos sellaisia oli). Muistakaa: Tiiviisti ja
yleisellä tasolla eli pituus vain 1-2 kpl.
2. Data
Alkuperäisen datan kuvaus eli seuraavat asiat
- Datan määrä eli montako riviä ja montako muuttujaa.
- Datan alkuperä (sikäli kuin tiedätte): Mistä kerätty? Oliko esim.
tietyltä aikaväliltä tai tietyiltä yksilöiltä? Mihin tarkoitukseen?
- Minkä tyyppistä dataa?
Jos "tavallista" eli ei aikadimensiota ja esitetty valmiina
muuttuja-arvopareina,
voi luonnehtia staattiseksi ja rakenteelliseksi. Muuten miten poikkesi tästä:
esim. oliko temporaalista eli aikasarja- tai tapahtumalokidataa tai
sisälsikö rakenteettomia elementtejä (kyselydata).
- Mitä muuttujia? Merkitys lyhyesti ellei ihan triviaali (tyyliin paino).
Mittayksiköt? Mittausfrekvenssi (jos aikasarjadataa)? Muuttujan tyyppi? Tässä
mainitaan myös "rakenteettomat muuttujat" (käytännössä merkkijonotyyppisiä
muuttujia).
- Datan laatu ja anomaliat (eli kaikki ongelmat): Oliko puuttuvia
tai virheellisiä arvoja? Kuinka paljon? Keskittyivätkö tiettyihin
muuttujiin vai tasaisesti?
Tiedättekö syytä? (esim. lähestykatkot). Missä määrin (arvioitte) oli
outliereita ja kohinaa? Olivatko ne mittausvirheitä vai aitoa vaihtelua
kohteissa? (Tämä on tärkeää, jos vain erotettavissa!) Mikäli kohina tai
outlierit selvisivät vasta esiprosessoinnissa tai mallinnuksessa, niitä
voi käsitellä tarkemmin vastaavissa luvuissa ja tässä vain ennakkomainostaa.
- Oliko varsinaisen datajoukon lisäksi jotain apudatoja (joissa
lisätietoja joistain muuttujista, tyliin lehmäyksilöistä)?
3. Esiprosessointi
eli datan siivous, tilastollinen perusanalyysi
(muuttujien jakaumat), uusien muuttujien muodostus ja
mahdollinen muuttujien valinta -- mitä kaikkea teitte ennen varsinaista
mallinnusta?
- Mitä siivousta teitte?
- Tilastollinen perusanalyysi: Millaisia muuttujien jakaumat olivat? Näitä
voi esittää histogrammeina tms. visuaalisesti tai taulukkona, jossa ainakin
numeeristen muuttujien keskiarvot ja -hajonnat (mediaanikin on hyvä, sillä
sen vertaus keskiarvoon paljastaa vinoumaa/outliereita). Mikäli
mallinnusmenetelmänne edellyttivät tietynlaista jakaumaa, esim. normaali-,
silloin olisi hyvä todeta, pätikö oletus. Tässä vaiheessa voi myös kertoa
selvistä outliereista, jotka paljastuivat yksittäisten muuttujien tutkimuksessa.
(Miettikää miten tarkka esitys on tarpeen. Jos varsinainen
mallinnusmenetelmä on robusti alkuperäisen datan jakaumalle, ei sitä
juurikaan tarvitse tutkia.)
- Mitä uusia muuttujia muodostitte? TÄRKEÄÄ! Uusia muuttujia voi jaotella
muodostustavan perusteella: 1) Kokonaan uusia asioita kuvaavat piirteet,
jotka on johdettu muuttujien yhdistelmistä tai käyttäen datan ulkopuolista
tietoa (näiden muodostus huolella! myös mahdolliset taustaoletuksenne) ja
2) olemassaolevien muuttujien muunnokset, esim.
standardointi, skaalaus, pehmennys, diskretointi (näistä riittää mainita
menetelmä, jos yleisesti tunnettu, kuvata lyhyesti tai antaa kaava). Jos
jokin muunnos tehtiin kaikille (numeerisille) muuttujille samalla tavalla,
ei sitä tietenkään kuvata erikseen jokaiselle. (Huom! Usein muuttujien
johtamisessa tehdään ensin 1 ja sitten 2.)
- Muuttujien valinta: Valikoitteko muuttujia jo ennen mallinnusta? Millä
perusteella? Tai loitteko datasta useita eri versioita, eri muuttujilla?
4. Mallinnus
Kaikki kokeillut menetelmät, niissä käytetyt muuttujat ja
parametriasetukset. Muistakaa mainita, jos menetelmässä käytettiin vain
jotain datan osaa. Esim.
- Kaikki kahden (numeerisen tai ordinaalisen) muuttujan korrelaatiot ja/tai
mutual informationit. Mikä korrelaatiomitta? Mutualin kohdalla myös
diskretointivälien lkm.
- Kaikki aikasarjamuuttujien autokorrelaatiot (ehkä kuvituksena
korrelogrammit) tai Fourier-analyysissä saatu tieto frekvenssijakaumasta.
- Diskreettisten tai diskretoitujen muuttujien väliset riippuvuussäännöt.
Montako etsitte, mikä hyvyysmitta, oliko jotain ekstrarajoituksia (esim.
eheysehdot tai jonkin hyvyysmitan minimi-/maksimiarvo)?
- Luokittelu: Mitkä muuttujat, mikä menetelmä, sen parametrit? Koska samasta
luokittelumenetelmästä on olemassa eri variaatioita (mm. eri
oppimisalgoritmeja), koettakaa kertoa mahdollisimman tarkkaan, mitä käytitte.
- Klusterointi: Mikä menetelmä ja mikä etäisyysmitta? Miten klusterien
lukumäärä määritettiin? Taas kerran koettakaa kertoa menetelmä riittävän
tarkasti.
Extraplussaa: Mitä esioletuksia menetelmään (tai valitsemiinne parametreihin)
liittyy? Tästä voi kertoa myös tulosten yhteydessä eli mitä implisiittisiä
rajauksia olitte asettaneet hakuavaruudelle (eli mitä mahdollisesti missattiin).
5. Tulokset
Kertokaa sekä negatiiviset että positiiviset tulokset ja
pohtikaa niiden luotettavuutta ja merkitystä.
- Negatiiviset tulokset: Jos jokin menetelmä ei löytänyt mitään, pohtikaa
syitä: Oliko vika menetelmän esioletuksissa, esim. vaatisi
normaalijakautunutta dataa? Tai oliko diskretointi huono? Vai oliko data aidosti liian satunnaista?
- Luokittelu: Miten hyvyys arvioitiin? (esim. 10-kert. ristiinvalidointi)
Mikä oli luokitteluvirhe? Mahd. muita luokittelun hyvyysmittoja (kappa, ROC)? Parhaiden luokittelijoiden osalta voi esittää myös sekaannusmatriisin. Arvioikaa myös mitä luokitteluvirhe olisi ollut satunnaisarvauksella ja mikä taas paras mahdollinen virhe kyseisellä datalla (datan konsistenssin perusteella, eli paljonko duplikaatteja joilla kuitenkin eri luokka-arvo). Tulkintaa, miksi jokin luokittelumenetelmä toimi muita paremmin. (Esim. sopivatko sen esioletukset paremmin dataanne?)
- Klusterointi: Näiden laatua on vaikea arvioida numeerisesti, mutta aina voi yrittää. Myös klusterien visualisointi (2-ulotteiselle datalle helppoa, muille hankalampaa) paljastaa usein laadusta. Tärkeintä on kuitenkin klusterien merkitys: millaiset alkiot tulivat samaan klusteriin? Onko jaottelu mielekäs vai sattuman varainen? Tuottiko se uutta kiinnostavaa tietoa? (esim. löytyi kiinnostava osapopulaatio, joka kannattaa jatkossa huomioida) Mitkä menetelmät tai mitat tuottivat mielestänne parhaita tuloksia?
- Riippuvuudet: Olivatko korrelaatiot tai niiden puute uskottavia?
Löytyikö kiinnostavia epälineaarisia riippuvuuksia? Mikäli käytitte
riippuvuussääntöjä, niistä huolellinen analyysi: Miten säännöt ryhmittyvät?
(Tyypillisesti paljon yhden ydinsäännön tai asian variaatioita.) Miksi ne olivat merkitseviä? (Merkitsevyys kertoo joko vahvasta riippuvuudesta tai heikommasta mutta yleisestä riippuvuudesta. Leverage ja konfidenssi kertovat vahvuudesta, frekvenssi yleisyydestä.) Mitä ei-redundantit säännöt kertoivat (verrattuna yleistyksiinsä)? Eli mitä merkitsi että AB->C oli parempi kuin A->C ja B->C? Johtuiko parannus vain parista yksilöstä vai oliko merkittävää? Kertoiko että jokin kahden muuttujan riippuvuus päti vain tiettyille yksiköille? (esim. vain kaatopaikan asukeille). Kannattaa myös pohtia, oliko valitsemanne diskretointi onnistunut. Mikäli muuttujat olivat alkujaan numeerisia, voitte verrata sääntöjä vastaavien numeeristen muuttujien riippuvuuksiin (esim. regressio). (Tällöin riippuvuussäännöt siis ainostaan auttoivat löytämään kiinnostavat riippuvuudet mutta tarkempi mallinnus tehtiin numeerisilla menetelmillä. Järkevää jos suuridimensioinen ja vahvasti varioiva/kohinainen data eikä erityistä luokkamuuttujaa.).
- Esiprosessoinnin hyvyys: Olivatko johdetut muuttujat onnistuneita? Mitkä osoittautuivat parhaiksi?
Lisäksi pohdintaa käytännön merkityksestä (nimenomaan sovellusalan kannalta)!
Johtopäätökset ja jatkokehitysideat
Löytyikö kiinnostavaa uutta tietoa? Mitkä menetelmät osoittautuivat parhaiksi ja mitkä huonoimmiksi? Myös vinkit, millaista dataa kannattaisi jatkossa kerätä tai miten samantapaisia ongelmia kannattaisi ratkaista.
Tämä luku voi puuttuakin, jos kaikki tuli jo kerrottua tuloksissa.