Päättely epävarmojen havaintojen perusteella ja oppiminen ovat keskeisiä osatehtäviä hahmontunnistuksessa ja konenäössä. Esimerkiksi kuvasta mitattavissa olevat kohteiden piirteet eivät juuri koskaan riitä tunnistettavien kohteiden yksikäsitteiseen erotteluun. Eri luokkiin kuuluvista kohteista voi tulla samoja piirrearvoja (esimerkki kappaleessa 2.2), ja piirteiden havaitsemiseen kuvasta voi liittyä virheitä, jotka tekevät yksittäisistä piirrearvoista epäluotettavia.
Usein tunnistettavien kohteiden tai luokkien määrittely perustuu esimerkkeihin. Joissakin sovelluksissa, kuten laaduntarkastuksessa, voi olla olemassa selkeät säännöt, jotka määrittelevät luokkarajat havaittavien suureiden avulla. Luonnollisten kohteiden, kuten esimerkiksi ihmiskasvojen, tunnistukseen tällaisia sääntöjä on vaikea määritellä, ja tyypillinen lähestymistapa on opettaa luokat järjestelmälle antamalle sille näytteitä eri luokista.
Tilastollisessa hahmontunnistuksessa (ks. E. Ojan luku tässä kirjassa) luokkien sisäinen vaihtelu ja piirteiden havaitsemisessa tapahtuvat virheet mallinnetaan satunnaismuuttujina. Tilastollinen päättely perustuu todennäköisyyslaskentaan: luokkien todennäköisyysmalleista ja mittauksista voidaan johtaa todennäköisyydet mille tahansa mallin arvoille.
Puhtaasti todennäköisyyslaskentaan perustuva lähestymistapa johtaa ns. bayesilaiseen päättelyyn, jota esitellään yksityiskohtaisemmin luvussa 2. Sen peruselementit ovat a priori-tietämys, joka määrittelee päättelijällä olevan tietämyksen ennen havaintoa, ja a posteriori-tietämys, jossa havainnosta saatava informaatio on yhdistetty a priori-tietämykseen. Tällä periaatteella voidaan toteuttaa sekä tunnistus että oppiminen: tunnistuksessa a priori-tieto on opetusnäytteistä kerätty tieto luokkien ominaisuuksista, ja tunnistustulos on a posteriori-todennäköisyydet eri luokille kun kohteesta havaitut piirteet on otettu mukaan malliin. Päättelyn perustana olevia todennäköisyysmalleja luokkien ominaisuuksista voidaan opettaa samalla periaatteella (ns. induktiivinen oppiminen). Jos näytteen oikea luokka on tiedossa, voidaan havainnon avulla päivittää a priori-tietämys luokkien ominaisuuksista, ja siten saatu a posteriori-malli luokille sisältää tiedon kaikista aiemmista (a priori-malliin sisältyvistä) näytteistä ja uudesta näytteestä. Tämä jakauma toimii sitten a priori-tietämyksenä seuraavalle näytteelle.
Käytännössä mielivaltaisten todennäköisyysjakaumien esittäminen malleissa on mahdotonta. Perinteinen ratkaisu tähän on approksimoida jakaumia joillakin helposti käsiteltävillä yksinkertaisilla funktioilla. Tyypillinen esimerkki on normaalijakauma, joka mahdollistaa päättelytulosten laskemisen suljetussa muodossa. Viimeaikainen tietokoneiden laskentatehon kasvu mahdollistaa myös toisenlaisen ratkaisun: annetaan todennäköisyysjakaumien olla niin monimutkaisia kuin käsiteltävän ilmiön ominaisuudet vaativat, ja ratkaistaan tulokset numeerisesti. Tällä hetkellä eniten käytetyt menetelmät todennäköisyysjakaumien numeerisen käsittelyyn ovat satunnaislukuihin perustuvia ns. Markov-ketju Monte Carlo-menetelmiä, joita käytetään laajasti mm. tilastollisessa fysiikassa ja bayesilaisessa tilastotieteessä.
Bayesilainen päättely poikkeaa tavanomaisesta tilastollisesta mallinnuksesta ja hypoteesin testauksesta juuri a priori-oletusten suhteen. Perinteinen tilastotiede perustuu ns. suurimman uskottavuuden menetelmiin, joissa a priori-tietämys ei ole suoraan mukana päättelyssä, vaan sitä on upotettuna luokkien todennäköisyysmalleihin, vertailtavaksi valittuihin hypoteeseihin ja hypoteesien hyväksymisehtoihin. Luvussa 2.2 on esimerkki, joka valaisee suurimman uskottavuuden ja bayesilaisen luokittelun eroja.
Näköaistin, niin biologisen kuin koneellisen, tavoite on tuottaa kolmiulotteisesta maailmasta tarpeellista tietoa. Hahmontunnistus- ja estimointiongelmana näköaistiin sisältyy erittäin vaikea käänteisongelma: silmällä tai kameralla havaittu kaksiulotteinen kuva sisältää vain pienen osan siitä informaatiosta, joka tarvitaan näkymän kolmiulotteisen rakenteen päättelyyn. Biologisen näköjärjestelmän mallinnuksessa vallitseva ajatussuunta, konstruktivismi, lähteekin siitä, että aivoissa on jonkinlaisia malleja kohteiden rakenteesta, ja kolmiulotteinen havainto muodostuu kun aivot yhdistävät näiden mallien tuottamat odotukset silmän näkemään kuvaan. Monet visuaaliset illuusiot ovat seurausta siitä, että todelliseen 3D-maailmaan sovittuneet oletukset ovat virheellisiä jollekin yksittäiselle näkymälle. Kuvassa 1 on esimerkkejä etukäteisoletusten merkityksestä havaitsemisessa.
Toimivan konenäköjärjestelmän täytyy sisältää vastaavia priorioletuksia ja malleja kohteiden kolmiulotteisesta rakenteesta. Bayesilainen päättely tarjoaa matemaattisen pohjan priorioletusten esittämiseen ja niiden yhdistämiseen havaintoihin.
![]() |
Bayesilainen päättely pohjautuu todennäköisyysteoriaan jonka perusta on epävarmuuden esittäminen todennäköisyyksillä. Teoria on saanut nimensä 1700-luvulla eläneen Englantilaisen Thomas Bayesin mukaan, joka ensimmäisenä esitti kuinka aiempaa tietoa todennäköisyyksistä voidaan päivittää havaintojen perusteella (Bayes, 1763) Päättely tapahtuu muodostamalla posteriorijakaumat kiinnostuksen kohteena oleville ei havaituille muuttujille annettuna havainnot ja a priori oletukset. Kiinnostuksen kohteet voivat olla esimerkiksi parametrisen mallin parametrejä tai ennusteita regressio- tai luokitteluongelmassa.
Annettuna data D mallin M parametrien
posteriorijakauma on Bayesin kaavan mukaan
![]()
missä
on parametrien
uskottavuus,
on parametrien
priorijakauma ja p(D|M) on
normalisointivakio. Uskottavuus kuvaa kuinka todennäköinen saatu
data on annettuna parametrit
ja malli M. Termi M
sisältää kaikki mallin määrittelyssä olevat eksplisiittiset ja
implisiittiset oletukset kuten valinnat, että käytetään
neuroverkkoa ja tietynlaista kohinamallia.
Annettuna data
saadaan uudella syötteellä x(n+1) ennusteen y jakauma
integroimalla yli mallin parametrien posteriorijakauman
![]()
Bayesilainen teoria tarjoaa johdonmukaisen tavan käyttää todennäköisyyksiä ilmaisemaan epävarmuutta päättelyssä. Kun malli ja priorijakaumat on määritelty, ennusteen jakauman laskeminen on yksinkertaista matematiikkaa, vaikkakin tarvittavien integraalien laskeminen voi olla vaativaa. Tuloksena on todennäköisyysjakauma, joka kuvaa kuinka todennäköisiä erilaiset ennusteet ovat. Erinomaisia kirjoja bayesilaisestä päättelystä ovat esimerkiksi (Bernardo & Smith, 1994; Gelman et al., 1995; Sivia, 1996). Filosofisempaa pohdintaa todennäköisyyden käsitteestä löytyy esimerkiksi kirjoista (Gardenfors & Sahlin, 1988; Howson & Urbach, 1993; Jaynes, 1996).
Ennusteen jakauman tietäminen ei vielä riitä päätöksen tekemiseksi, vaan päätöksen tekoon kuuluu oleellisesti myös hyöty- tai kustannusfunktio. Rationaalisessa päätöksenteossa (Good, 1952) on otettava huomioon sekä todennäköisyydet että eri toimenpiteiden mahdolliset seuraamukset. Rationaalinen päätös maksimoi odotetun hyödyn tai minimoi odotetun kustannuksen. Toimenpiteen a odotettu kustannus c voidaan laskea seuraavasti
![]()
![]()
Hyödyt ja kustannukset eivät rajoitu vain taloudellisiin asioihin, vaan sisältävät myös muita arvoja kuten esimerkiksi tieteellinen mielenkiinto. Tästä seuraa, että vaikka kaksi päättelijää päätyisi täsmälleen samaan posteriorijakaumaan, voivat heidän päätöksensä toimenpiteistä olla hyvin erilaiset riippuen heidän arvoistaan.
Seuraava esimerkki havainnollistaa tilastollista hahmontunnistusta yksinkertaisessa ongelmassa. Oletetaan että metsässä on havaittu suuri käpälän jälki, joka näyttää koiran tai suden jäljeltä. Jäljen pituus on 14 cm ja sen perusteella yritetään päätellä onko otus susi vai koira. Kuvassa 2 on (hypoteettiset) todennäköisyysjakaumat ison koiran ja suden jäljen pituudelle.
![]() |
Oletetaan lisäksi, että irrallaan juoksevia koiria on sata kertaa enemmän kuin susia. Tällöin siis a priori todennäköisyys sudelle, kun mitään piirteitä ei ole havaittu, on n. 1%.
Taulukossa 1 on esitetty luokkien tiheysjakaumien suhteelliset arvot havaitulle jäljen pituudelle, joista suurimman uskottavuuden luokitus saadaan valitsemalla suurin arvo. Taulukossa on myös posteriori-todennäköisyydet eri luokille, joiden perusteella saadaan bayesilainen suurimman todennäköisyyden luokitus (Maximum A Posteriori, MAP).
| Luokitus | Uskottavuus | Posteriori-todennäköisyys |
| Susi | 0.92 | 0.10 |
| Koira | 0.08 | 0.90 |
Bayesilainen päätöksenteko perustuu ehdollisen riskin minimointiin tai hyödyn maksimointiin, jota varten tarvitaan tappio- tai hyötyarviot väärin tehdyille luokituksille. Tappio tai hyöty riippuu päätöksentekotilanteesta. Tässä esimerkissä voitaisiin haluta päättää, kannattaako lähteä lähimetsään sieniä poimimaan. Oikealle luokitukselle voitaisiin asettaa nollariski. Jos otus on koira ja pysytään kotona, seuraa pieni tappio, kun sieniretki jää aiheettomasti tekemättä. Jos taas otus on susi, mutta sitä luullaan koiraksi ja lähdetään sienimetsään, on tappio paljon suurempi, koska susi voi syödä sienestäjän suihinsa. Tappiomatriisi voisi siis olla taulukon 2 mukainen.
Taulukossa 3 on laskettu eri luokitusten ehdolliset riskit ylläolevalle tappiomatriisille. Tulosten perusteella voidaan verrata suurimman uskottavuuden luokitusta, suurimman todennäköisyyden luokitusta ja minimiriskipäätöksentekoa:
Esimerkistä näkyy myös selvästi, että kaikkien vaihtoehtojen todennäköisyydet täytyy pitää mukana lopulliseen päätöksentekoon asti. Tämä vastaa matematiikasta tuttua sääntöä, että välituloksia ei saa pyöristää. Jos luokkien todennäköisyyksien perusteella tehdään päätös, että kyseessä on koira, ei sen jälkeen ole enää mahdollista tehdä minimiriskipäätöstä, jossa otetaan huomioon väärän luokituksen aiheuttamat riskit. Usein päätöksentekotilanteeseen liittyy suureen tappioon johtavia vaihtoehtoja, joiden todennäköisyys on pieni. Oikein tehdyssä bayesilaisessa päättelyssä nämä vaihtoehdot ovat mukana lopullisessa päätöksessä.
Hahmontunnistuksessa ilmiöt ovat usein kompleksisia, joten silloin tarvitaan myös kompleksisia malleja. Kompleksisia malleja käytettäessä on ongelmana kompleksisuuden hallinta. Tiedetään että mallin optimaalinen kompleksisuus riippuu datan määrästä, mittauskohinan määrästä ja allaolevan ilmiön kompleksisuudesta. Mitä enemmän mittausdataa on käytettävissä, sitä useampia parametrejä ja siis monimutkaisempia malleja datasta voidaan estimoida. Vastaavasti, mitä pienemmät mittausvirheet datapisteissä on, sitä hienojakoisempia ilmiöitä mittausten perusteella voidaan päätellä. Ilmiön todellinen kompleksisuus asettaa ylärajan mallin sopivalle kompleksisuudelle (joka voidaan saavuttaa vain kun mittausdatan määrä on hyvin suuri) ja käytännössä rajalliseen aineistoon täytyy sovittaa paljon yksinkertaisempi malli.
Perinteisillä hahmontunnistuksessa käytetyillä menetelmillä mallin kompleksisuuden hallinta on ollut vaikeaa ja hyvin karkeaa ja usein laskennallisesti erittäin raskasta. Bayes-menetelmien avulla kompleksisuuden hallinta onnistuu luonnollisesti ja johdonmukaisesti. Tuntematon kompleksisuuden aste käsitellään määrittelemällä väljä priorijakauma mallin kompleksisuuden määrääville hyperparametreille ja integroimalla yli näiden hyperparametrien posteriorijakauman. Väljästi sanoen bayesilainen malli keskiarvoistaa yli kaikkien eri kompleksisuusasteiden painottaen niitä niiden posterioritodennäköisyyksillä. Bayes-menetelmien avulla voidaan myös määritellä hierarkkisia priorimalleja, joiden avulla on mahdollista sallia eri kompleksisuusasteita eri osissa mallia. Esimerkiksi voidaan määritellä, että eri syötteet saattavat vaikuttaa malliin erilaisilla kompleksisuusasteilla, ja tämä aste määräytyy mittausdatan perusteella.
Perinteisten hahmontunnistuksessa käytettyjen menetelmien ongelma on myös työkalujen puute tulosten analysointiin, kuten ennusteiden jakaumaa kuvaavien kvantiilien laskemiseen ja mallin hyvyyden arviointiin. Bayes-menetelmät tuottavat automaattisesti jakaumat ennusteille, joista on helppo laskea tarvittavat tiedot, kuten tulosten luotettavuusvälit. Luonnollinen tapa arvioida mallin hyvyyttä on arvioida mallin odotettu hyöty. Mallin odotettu hyöty on ennuste hyödylle, joka saataisiin mikäli mallia käytettäisiin päätöksentekoon tulevaisuudessa. Mallin odotetun hyödyn voi arvioida bayesilaisittain esimerkiksi ristiinvalidointimenetelmien avulla ja bayesilaisten menetelmien ollessa kyseessä voidaan samalla arvioida myös todennäköisyysjakauma odotetun hyödyn arviolle (Vehtari & Lampinen, 2002). Vertailemalla eri vaihtoehtoisten mallien odotettujen hyötyjen jakaumia voidaan valita hyödyllisin malli ja laskea myös millä todennäköisyydellä jokin malli on parempi kuin jokin toinen malli.
Tietokoneiden laskentatehon jatkuva kasvu yhdessä joidenkin viime vuosien teoreettisten edistysaskeleitten kanssa on tehnyt bayesilaisista menetelmistä käyttökelpoisia monissa konenäön ja hahmontunnistuksen ongelmissa. Alla olevalla listalla luetellaan joitakin merkittäviä bayes-menetelmien sovellusalueita konenäössä ja julkaisuja, joista aiheesta kiinnostunut lukija voi hankkia lisätietoa.
Seuraavassa on muutamia esimerkkejä bayesilaisten menetelmien soveltamisesta erilaisiin hahmontunnistuksen osa-alueisiin.
Luokittelu
Metsänäkymän luokittelu (ks. myös toisaalla tässä kirjassa reprint
paperista (Lampinen & Vehtari, 2001)) on osatehtävä ongelmassa,
jossa tarkoituksena on estimoida kuvassa näkyvien puiden
tilavuudet. Metsänäkymä luokitellaan ensin pikseleittäin puuksi
tai taustaksi, jotta saaadan alkuarvaus puiden sijainnille
hienostuneempia malleja varten. Ongelmana on suuri variaatio
luokkien sisällä. Sekä puunrunkojen että taustan väri, valaistus ja
tekstuuri vaihtelevat paljon. Ongelmana on sopivien piirteiden
valinta ja useita piirteitä käytettäessä ulotteisuuden kirous. Kuva
3 esittää esimerkin luokittelutuloksesta kun
bayesilaisia MLP-neuroverkkoja vertailtiin perinteisesti
hahmontunnistuksessa käytettyihin menetelmiin. Sekä tällaisten
esimerkkikuvien että arvioidun odotetun luokittelutarkkuuden
perusteella Bayes-MLP pärjää selvästi paremmin kuin muut
menetelmät.
Kuva-analyysi
Betonin laadunmallinnussovelluksessa tutkittiin kiviaineksen
ominaisuuksien vaikutusta betonin laatuun (ks. myös toisaalla tässä
kirjassa reprint paperista (Lampinen & Vehtari, 2001)).
Kuva-analyysin avulla kiviaineksesta mitattiin useita
muototekijöitä (kuva 4) ja lisäksi mitatiin joitakin
kiviaineksen kemiallisia ominaisuuksia.
![]() |
Kohteenseuranta
Kohteenseurannassa (tracking) liikkuvan kohteen paikkaa ja nopeutta estimoidaan mittausten avulla. Kohteenseurantaa käytetään mm. lentokoneiden seurantaan lennonjohtoa tai sotilaallisia sovelluksia varten, sekä yhä enenevässä määrin konenäössä kohteiden liikkeiden seurantaan videokuvasta. Sovelluksia on mm. automaattinen vartiointi, liikenteen seuranta ja laskenta, autonomiset robotit ja tulevaisuuden ihminen-tietokonekäyttöliittymissä käyttäjän eleiden ja ilmeiden analysointi. Perinteisesti kohteenseurantaan on käytetty Kalman-suodinta ja sen johdannaisia. Kalman-suodin on bayesilainen rekursiivinen tilaestimaattori, joka on optimaalinen kun satunnaisilmiöt mittauksissa ja systeemin tiloissa ovat normaalijakautuneita, ja liikemalli on lineaarinen tai paikallisesti linearisoitu. Videokuvissa kohteiden uskottavuusfunktiot ovat tyypillisesti monihuippuisia (etsitty kohde näyttää sopivan moneen kohtaan kuvassa), eivätkä normaalijakaumaoletukset ole kovinkaan päteviä, joten Kalman-suotimeen perustuvat menetelmät eivät käytännössä pysty seuraamaan kovinkaan monimutkaisia kohteita videokuvissa.
Viimeaikoina on kehitetty MCMC-menetelmiin perustuvia ratkaisuja ns. partikkelisuotimia, joissa satunnaisnäytteiden avulla voidaan estimoida mielivaltaisia systeemin tilojen jakaumia. Hahmontunnistuksen kannalta merkittävin esimerkki näistä menetelmistä on CONDENSATION (Conditional Density Propagation) (Blake & Isard, 1998), jonka toiminnasta videokuvan seurannassa löytyy erinomaisia demonstraatioita www-osoitteesta http://www.robots.ox.ac.uk/~misard/condensation.html.
Audio-visuaalinen puheentunnistus
Yksi esimerkki bayesilaisten menetelmien soveltamisesta ihmisen havaitsemisen mallintamiseen on ns. FLMP-malli (Massaro, 1998) audio-visuaalisen informaation integrointiin. Mallin mukaan kuuloaisti tuottaa todennäköisyysjakauman äänisignaalin perusteella mahdollisista foneemeista. Jos puhujan huulet nähdään, tuottaa näköaisti vastaavan jakauman. Olettamalla nämä mittaukset riippumattomiksi saadaan integroitu havainto kertomalla nämä jakaumat keskenään, kuten taulukossa 4 esitetään. Mallin tulokset vastaavat psykofysikaalissa kokeissa havaittua ihmisen toimintaa. Audio-visuaalinen integraatio on yksi Laskennallisen tekniikan laboratorion tutkimusaiheita.
http://bayes.wustl.edu/etj/prob.html.