Tiedonlouhinta-kurssin suoritus kotikokeella ja harjoitustyöllä

Suoritus

Tiedonlouhinta-kurssin (4 op, kanditason valinnainen kurssi) voi suorittaa kesän 2013 aikana kotikokeella ja itsenäisesti tehtävällä harjoitustyöllä seuraavasti:

  1. Kotikoe kesäkuussa, aikaa 2-3vk (sovitaan yhteinen deadline), noin 25 tehtävää Tehtävät ovat samantyylisiä kuin harjoituksissa ja ne pisteytetään. Tehtävät vievät noin 20-30h aikaa, minkä lisäksi siis asioiden opiskelu.
  2. Mikäli saa kotikokeesta vähintään 15p, saa kesäkuun lopulla harjoitustyöaiheen. Harjoitustyö vaatii noin 50h työtä ja suoritusaikaa on elokuun puoliväliin (sovitaan).

Työmäärä (4 op = 108h) jakautuu siis suurinpiirtein seuraavasti: harjoitustehtävät 20-30h, asioiden opiskelu 20-30h, harjoitustyö n. 50h (sisältää raportin kirjoituksen). Ideana on, että asiat tulisi opiskeltua (viimeistään) harjoitustehtäviä tehdessä, jolloin harjoitustyön tekijällä olisi jo omaksuttuna kaikki tarvittavat perustiedot ja -taidot. Koska harjoitustöiden generointi on erittäin aikaavievää, ei työtä saa, ellei anna etukäteen näyttöä siitä, että kykenee tekemään sen itsenäisesti.

Esitietovaatimukset ovat samat kuin kevään kurssilla (Pakolliset vaatimukset Ohjelmointi I ja II, Tietorakenteet ja algoritmit I sekä ainakin välttävät perustaidot Linuxin käytöstä. Suotavaa TRA II sekä tilastollisten työkalujen hallinta.)

Kurssin arvosana muodostuu seuraavasti: 25% kotikoetehtävät ja 75% harjoitustyö.

Kotikoe

Kotikoetehtävät löytyvät täältä (julkistettu 7.6.). Tehtävät pitää palauttaa viimeistään ma 24.6. 2013. Mikäli palautat aiemmin, voit saada harjoitustyönkin aiemmin.

Tehtävissä tarvittava oheismateriaali löytyy alta.

Ennakkovalmistautuminen

Kotikokeeseen kannattaa valmistautua etukäteen seuraavasti:

  1. Lue luentokalvot läpi ja merkitse itsellesi, mitä asioita täytyy opiskella lisää. Lisämateriaalivinkkejä on kurssisivulla. (Yhtä kaikenkattavaa oppikirjaa ei ole, mutta pohjaksi voi ottaa esim. Handin kirjan. Oppikirjat kattavat yleensä luokittelun, klusteroinnin, regression ja yleiset mallinnusperiaatteet, mutta esiprosessoinnin, tilastollisten perustekniikoiden ja temporaalisen datan mallinnuksen osalta on käytettävä muuta materiaalia.)
  2. Asenna Weka ja Kingfisher ja harjoittele niiden käyttöä esim. mikroharjoitusten ohjeiden mukaan. Jokin taulukkolaskentaohjelma (tai matlab/R) on myös hyvä hallita. Ilmaistyökaluista helpoin lienee gnumeric.

Datajoukot

Ohjelmia, skriptejä ym.

Katso sivulta Hyödyllisiä ilmaistyökaluja