Koneoppimismallit lintudatalle – jatkoa edelliseen

Koneoppimismallit lintudatalle – jatkoa edelliseen Kirjoitin edellisen blogipostaukseni outliereiden löytämisestä lajihavaintodatasta. Kirjoitus on edelleen mainio, mutta sen jälkeen olen viritellyt mallejani lisää. Mallien uusimmat versiot ovat GitHubissa . Tässä blogipostauksessa esittelen vielä yhden menetelmän, joka käyttää kaikkien mahdollisten lajihavaintojen sijaan lintuatlas-aineiston pesimävarmuusindeksejä , eli tietoa kunkin lintulajin pesimistodennäköisyydestä 10 km x 10 km ruuduissa. Aineisto on mainio koneoppimisharjoituksiin, sillä se on järjestelmällisesti ja kattavasti kerätty ympäri Suomea ja sisältää myös ns. absence-dataa (= lintu ei todennäköisesti pesi ruudussa). Tämä menetelmä pohjautuu löyhästi kollegani Mikko Heikkisen aiempiin mallinnuksiin, joista lisää hänen blogissaan : Data Tätä menetelmää varten tarvitaan pohjaksi 10 km x 10 km YKJ-ruudukko, jonka voi ladata täältä . Ruudukko kattaa koko Suomen alueen ja se täydenne...