Bayesilaiset menetelmät hahmontunnistuksessa
Jouko Lampinen ja Aki Vehtari

Teknillinen korkeakoulu
Laskennallisen tekniikan laboratorio


1 Johdanto


Päättely epävarmojen havaintojen perusteella ja oppiminen ovat keskeisiä osatehtäviä hahmontunnistuksessa ja konenäössä. Esimerkiksi kuvasta mitattavissa olevat kohteiden piirteet eivät juuri koskaan riitä tunnistettavien kohteiden yksikäsitteiseen erotteluun. Eri luokkiin kuuluvista kohteista voi tulla samoja piirrearvoja (esimerkki kappaleessa 2.2), ja piirteiden havaitsemiseen kuvasta voi liittyä virheitä, jotka tekevät yksittäisistä piirrearvoista epäluotettavia.

Usein tunnistettavien kohteiden tai luokkien määrittely perustuu esimerkkeihin. Joissakin sovelluksissa, kuten laaduntarkastuksessa, voi olla olemassa selkeät säännöt, jotka määrittelevät luokkarajat havaittavien suureiden avulla. Luonnollisten kohteiden, kuten esimerkiksi ihmiskasvojen, tunnistukseen tällaisia sääntöjä on vaikea määritellä, ja tyypillinen lähestymistapa on opettaa luokat järjestelmälle antamalle sille näytteitä eri luokista.

Tilastollisessa hahmontunnistuksessa (ks. E. Ojan luku tässä kirjassa) luokkien sisäinen vaihtelu ja piirteiden havaitsemisessa tapahtuvat virheet mallinnetaan satunnaismuuttujina. Tilastollinen päättely perustuu todennäköisyyslaskentaan: luokkien todennäköisyysmalleista ja mittauksista voidaan johtaa todennäköisyydet mille tahansa mallin arvoille.

Puhtaasti todennäköisyyslaskentaan perustuva lähestymistapa johtaa ns. bayesilaiseen päättelyyn, jota esitellään yksityiskohtaisemmin luvussa 2. Sen peruselementit ovat a priori-tietämys, joka määrittelee päättelijällä olevan tietämyksen ennen havaintoa, ja a posteriori-tietämys, jossa havainnosta saatava informaatio on yhdistetty a priori-tietämykseen. Tällä periaatteella voidaan toteuttaa sekä tunnistus että oppiminen: tunnistuksessa a priori-tieto on opetusnäytteistä kerätty tieto luokkien ominaisuuksista, ja tunnistustulos on a posteriori-todennäköisyydet eri luokille kun kohteesta havaitut piirteet on otettu mukaan malliin. Päättelyn perustana olevia todennäköisyysmalleja luokkien ominaisuuksista voidaan opettaa samalla periaatteella (ns. induktiivinen oppiminen). Jos näytteen oikea luokka on tiedossa, voidaan havainnon avulla päivittää a priori-tietämys luokkien ominaisuuksista, ja siten saatu a posteriori-malli luokille sisältää tiedon kaikista aiemmista (a priori-malliin sisältyvistä) näytteistä ja uudesta näytteestä. Tämä jakauma toimii sitten a priori-tietämyksenä seuraavalle näytteelle.

Käytännössä mielivaltaisten todennäköisyysjakaumien esittäminen malleissa on mahdotonta. Perinteinen ratkaisu tähän on approksimoida jakaumia joillakin helposti käsiteltävillä yksinkertaisilla funktioilla. Tyypillinen esimerkki on normaalijakauma, joka mahdollistaa päättelytulosten laskemisen suljetussa muodossa. Viimeaikainen tietokoneiden laskentatehon kasvu mahdollistaa myös toisenlaisen ratkaisun: annetaan todennäköisyysjakaumien olla niin monimutkaisia kuin käsiteltävän ilmiön ominaisuudet vaativat, ja ratkaistaan tulokset numeerisesti. Tällä hetkellä eniten käytetyt menetelmät todennäköisyysjakaumien numeerisen käsittelyyn ovat satunnaislukuihin perustuvia ns. Markov-ketju Monte Carlo-menetelmiä, joita käytetään laajasti mm. tilastollisessa fysiikassa ja bayesilaisessa tilastotieteessä.

Bayesilainen päättely poikkeaa tavanomaisesta tilastollisesta mallinnuksesta ja hypoteesin testauksesta juuri a priori-oletusten suhteen. Perinteinen tilastotiede perustuu ns. suurimman uskottavuuden menetelmiin, joissa a priori-tietämys ei ole suoraan mukana päättelyssä, vaan sitä on upotettuna luokkien todennäköisyysmalleihin, vertailtavaksi valittuihin hypoteeseihin ja hypoteesien hyväksymisehtoihin. Luvussa 2.2 on esimerkki, joka valaisee suurimman uskottavuuden ja bayesilaisen luokittelun eroja.

A priori-oletukset visuaalisessa havaitsemisessa

Näköaistin, niin biologisen kuin koneellisen, tavoite on tuottaa kolmiulotteisesta maailmasta tarpeellista tietoa. Hahmontunnistus- ja estimointiongelmana näköaistiin sisältyy erittäin vaikea käänteisongelma: silmällä tai kameralla havaittu kaksiulotteinen kuva sisältää vain pienen osan siitä informaatiosta, joka tarvitaan näkymän kolmiulotteisen rakenteen päättelyyn. Biologisen näköjärjestelmän mallinnuksessa vallitseva ajatussuunta, konstruktivismi, lähteekin siitä, että aivoissa on jonkinlaisia malleja kohteiden rakenteesta, ja kolmiulotteinen havainto muodostuu kun aivot yhdistävät näiden mallien tuottamat odotukset silmän näkemään kuvaan. Monet visuaaliset illuusiot ovat seurausta siitä, että todelliseen 3D-maailmaan sovittuneet oletukset ovat virheellisiä jollekin yksittäiselle näkymälle. Kuvassa 1 on esimerkkejä etukäteisoletusten merkityksestä havaitsemisessa.

Toimivan konenäköjärjestelmän täytyy sisältää vastaavia priorioletuksia ja malleja kohteiden kolmiulotteisesta rakenteesta. Bayesilainen päättely tarjoaa matemaattisen pohjan priorioletusten esittämiseen ja niiden yhdistämiseen havaintoihin.


Kuva 1: Esimerkki a priori-oletusten merkityksestä havaitsemisessa. Vasen kuva: todennäköisin selitys 3D-maailmassa vinoille konvergoiville viivoille on samansuuntaisten viivojen perspektiivivääristymä. Tällä oletuksella ylempi palkki on kauempana. Näköaisti pyrkii arvioimaan kappaleiden todellisen koon, joten samanmittaisena näkyvä kauempana oleva palkki arvioidaan suuremmaksi. Keskimmäinen kuva: kuvasta tulee vahva kolmiulotteinen havainto. Rakenne ei ole kuitenkaan yksikäsitteinen, sillä on olemassa ääretön määrä rautalankamalleja, jotka tuottavat havaitun 2D-projektion. Todellisuudessa kuvan kappale on kaksiulotteinen, sillä viivat sijaitsevan tämän kirjan lehdellä samassa tasossa. Edes stereonäöstä saatu vihje kuvan tasomaisuudesta ei muuta 3D-vaikutelmaa. Oikea kuva: paperin pinnalla oleva kuva vinosta katsottuna. Kolmiulotteinen havainto kertoo vahvasta taipumuksesta tulkita vinot viivat perspektiivistä johtuviksi.


2 Bayesilainen päättely


 

Bayesilainen päättely pohjautuu todennäköisyysteoriaan jonka perusta on epävarmuuden esittäminen todennäköisyyksillä. Teoria on saanut nimensä 1700-luvulla eläneen Englantilaisen Thomas Bayesin mukaan, joka ensimmäisenä esitti kuinka aiempaa tietoa todennäköisyyksistä voidaan päivittää havaintojen perusteella (Bayes, 1763) Päättely tapahtuu muodostamalla posteriorijakaumat kiinnostuksen kohteena oleville ei havaituille muuttujille annettuna havainnot ja a priori oletukset. Kiinnostuksen kohteet voivat olla esimerkiksi parametrisen mallin parametrejä tai ennusteita regressio- tai luokitteluongelmassa.

Annettuna data D mallin M parametrien $\theta$posteriorijakauma on Bayesin kaavan mukaan
\begin{align*}
p(\theta \vert D, M) = \frac{p(D \vert \theta, M) p(\theta\vert M)}{p(D \vert M)},\end{align*}
missä $p(D \vert \theta, M)$ on parametrien $\theta$ uskottavuus, $p(\theta\vert M)$ on parametrien $\theta$ priorijakauma ja p(D|M) on normalisointivakio. Uskottavuus kuvaa kuinka todennäköinen saatu data on annettuna parametrit $\theta$ ja malli M. Termi M sisältää kaikki mallin määrittelyssä olevat eksplisiittiset ja implisiittiset oletukset kuten valinnat, että käytetään neuroverkkoa ja tietynlaista kohinamallia. Annettuna data $D = \{(x^{(i)},y^{(i)}) ; i=1,2,\ldots,n \}$saadaan uudella syötteellä x(n+1) ennusteen y jakauma integroimalla yli mallin parametrien posteriorijakauman

\begin{displaymath}
p(y \vert x^{(n+1)}, D, M) = 
 \int p(y \vert x^{(n+1)}, \theta, D, M) p(\theta \vert D, M) d \theta .\end{displaymath}

Diskreetissä tapauksessa tämä integrointi vastaa sitä, että lasketaan kaikkien mahdollisten mallivaihtoehtojen ennusteiden painotettu keskiarvo käyttäen painoina mallien posteriori-todennäköisyyksiä.

Bayesilainen teoria tarjoaa johdonmukaisen tavan käyttää todennäköisyyksiä ilmaisemaan epävarmuutta päättelyssä. Kun malli ja priorijakaumat on määritelty, ennusteen jakauman laskeminen on yksinkertaista matematiikkaa, vaikkakin tarvittavien integraalien laskeminen voi olla vaativaa. Tuloksena on todennäköisyysjakauma, joka kuvaa kuinka todennäköisiä erilaiset ennusteet ovat. Erinomaisia kirjoja bayesilaisestä päättelystä ovat esimerkiksi (Bernardo & Smith, 1994; Gelman et al., 1995; Sivia, 1996). Filosofisempaa pohdintaa todennäköisyyden käsitteestä löytyy esimerkiksi kirjoista (Gardenfors & Sahlin, 1988; Howson & Urbach, 1993; Jaynes, 1996).

Bayesilainen päätöksenteko

Ennusteen jakauman tietäminen ei vielä riitä päätöksen tekemiseksi, vaan päätöksen tekoon kuuluu oleellisesti myös hyöty- tai kustannusfunktio. Rationaalisessa päätöksenteossa (Good, 1952) on otettava huomioon sekä todennäköisyydet että eri toimenpiteiden mahdolliset seuraamukset. Rationaalinen päätös maksimoi odotetun hyödyn tai minimoi odotetun kustannuksen. Toimenpiteen a odotettu kustannus c voidaan laskea seuraavasti

\begin{displaymath}
c(a\vert x^{(n+1)},D,M)=\int L(a,y) p(y\vert x^{(n+1)},D,M) dy,\end{displaymath}

missä L(a,y) on kustannus toimenpiteelle a jos tapahtuma on todellisuudessa y, ja p(y|x(n+1),D,M) on ennustetun tapahtuman posterioriprediktiivinen jakauma. Diskreetissä tapauksessa tämä integrointi vastaa sitä, että lasketaan kyseisen toimenpiteen kaikkien mahdollisten seuraamusten kustannusten painotettu keskiarvo käyttäen painoina tapahtumien posteriori-todennäköisyyksiä (esimerkki seuraavassa luvussa). Toimenpiteistä valitaan se joka minimoi odotetun kustannuksen

\begin{displaymath}
a^* = \text{argmax}_a c(a\vert x^{(n+1)},D,M).\end{displaymath}

Hyödyt ja kustannukset eivät rajoitu vain taloudellisiin asioihin, vaan sisältävät myös muita arvoja kuten esimerkiksi tieteellinen mielenkiinto. Tästä seuraa, että vaikka kaksi päättelijää päätyisi täsmälleen samaan posteriorijakaumaan, voivat heidän päätöksensä toimenpiteistä olla hyvin erilaiset riippuen heidän arvoistaan.

Esimerkki bayesilaisesta luokittelusta ja päätöksenteosta

  Seuraava esimerkki havainnollistaa tilastollista hahmontunnistusta yksinkertaisessa ongelmassa. Oletetaan että metsässä on havaittu suuri käpälän jälki, joka näyttää koiran tai suden jäljeltä. Jäljen pituus on 14 cm ja sen perusteella yritetään päätellä onko otus susi vai koira. Kuvassa 2 on (hypoteettiset) todennäköisyysjakaumat ison koiran ja suden jäljen pituudelle.


  
Kuva 2: Esimerkki luokkien todennäköisyystiheysjakaumista piirteiden funktiona. Tavoite on tunnistaa otus havaitun jäljen pituuden perusteella. Kuvassa on esitetty jäljen pituuden (hypoteettiset) jakaumat kahdelle luokalle (paksut viivat). Havaitun jäljen pituus on merkitty kuvaan pystyviivalla.
\begin{figure}
 \begin{center}
\leavevmode
 
\includegraphics [width=150mm]{hatutus_likelihoods.eps}

 \end{center}\end{figure}

Oletetaan lisäksi, että irrallaan juoksevia koiria on sata kertaa enemmän kuin susia. Tällöin siis a priori todennäköisyys sudelle, kun mitään piirteitä ei ole havaittu, on n. 1%.

Taulukossa 1 on esitetty luokkien tiheysjakaumien suhteelliset arvot havaitulle jäljen pituudelle, joista suurimman uskottavuuden luokitus saadaan valitsemalla suurin arvo. Taulukossa on myös posteriori-todennäköisyydet eri luokille, joiden perusteella saadaan bayesilainen suurimman todennäköisyyden luokitus (Maximum A Posteriori, MAP).


 
Taulukko 1: Eri luokkien uskottavuudet ja posteriori-todennäköisyydet susi/koira-esimerkissä.
Luokitus Uskottavuus Posteriori-todennäköisyys
Susi 0.92 0.10
Koira 0.08 0.90
 


Bayesilainen päätöksenteko perustuu ehdollisen riskin minimointiin tai hyödyn maksimointiin, jota varten tarvitaan tappio- tai hyötyarviot väärin tehdyille luokituksille. Tappio tai hyöty riippuu päätöksentekotilanteesta. Tässä esimerkissä voitaisiin haluta päättää, kannattaako lähteä lähimetsään sieniä poimimaan. Oikealle luokitukselle voitaisiin asettaa nollariski. Jos otus on koira ja pysytään kotona, seuraa pieni tappio, kun sieniretki jää aiheettomasti tekemättä. Jos taas otus on susi, mutta sitä luullaan koiraksi ja lähdetään sienimetsään, on tappio paljon suurempi, koska susi voi syödä sienestäjän suihinsa. Tappiomatriisi voisi siis olla taulukon 2 mukainen.

Taulukko 2: Tappiomatriisi. Taulukossa on arvioitu odotettu riski eri toiminnoille metsässä lymyävän otuksen todellisen luokan mukaan.  
  Otuksen luokka
Toiminta Susi Koira
Pysytään kotona 0 1
Lähdetään metsään 1000 0

Taulukko 3: Eri toimintojen ehdolliset riskit, kun luokkien posteriori-todennäköisyydet ovat taulukon 1 mukaiset ja väärien luokitusten riskit taulukon 2 mukaiset.  
Toiminta Ehdollinen riski
Pysytään kotona 0.9
Lähdetään metsään 100

Taulukossa 3 on laskettu eri luokitusten ehdolliset riskit ylläolevalle tappiomatriisille. Tulosten perusteella voidaan verrata suurimman uskottavuuden luokitusta, suurimman todennäköisyyden luokitusta ja minimiriskipäätöksentekoa:

Esimerkistä näkyy myös selvästi, että kaikkien vaihtoehtojen todennäköisyydet täytyy pitää mukana lopulliseen päätöksentekoon asti. Tämä vastaa matematiikasta tuttua sääntöä, että välituloksia ei saa pyöristää. Jos luokkien todennäköisyyksien perusteella tehdään päätös, että kyseessä on koira, ei sen jälkeen ole enää mahdollista tehdä minimiriskipäätöstä, jossa otetaan huomioon väärän luokituksen aiheuttamat riskit. Usein päätöksentekotilanteeseen liittyy suureen tappioon johtavia vaihtoehtoja, joiden todennäköisyys on pieni. Oikein tehdyssä bayesilaisessa päättelyssä nämä vaihtoehdot ovat mukana lopullisessa päätöksessä.


3 Bayes-menetelmiä hahmontunnistuksessa


Hahmontunnistuksessa ilmiöt ovat usein kompleksisia, joten silloin tarvitaan myös kompleksisia malleja. Kompleksisia malleja käytettäessä on ongelmana kompleksisuuden hallinta. Tiedetään että mallin optimaalinen kompleksisuus riippuu datan määrästä, mittauskohinan määrästä ja allaolevan ilmiön kompleksisuudesta. Mitä enemmän mittausdataa on käytettävissä, sitä useampia parametrejä ja siis monimutkaisempia malleja datasta voidaan estimoida. Vastaavasti, mitä pienemmät mittausvirheet datapisteissä on, sitä hienojakoisempia ilmiöitä mittausten perusteella voidaan päätellä. Ilmiön todellinen kompleksisuus asettaa ylärajan mallin sopivalle kompleksisuudelle (joka voidaan saavuttaa vain kun mittausdatan määrä on hyvin suuri) ja käytännössä rajalliseen aineistoon täytyy sovittaa paljon yksinkertaisempi malli.

Perinteisillä hahmontunnistuksessa käytetyillä menetelmillä mallin kompleksisuuden hallinta on ollut vaikeaa ja hyvin karkeaa ja usein laskennallisesti erittäin raskasta. Bayes-menetelmien avulla kompleksisuuden hallinta onnistuu luonnollisesti ja johdonmukaisesti. Tuntematon kompleksisuuden aste käsitellään määrittelemällä väljä priorijakauma mallin kompleksisuuden määrääville hyperparametreille ja integroimalla yli näiden hyperparametrien posteriorijakauman. Väljästi sanoen bayesilainen malli keskiarvoistaa yli kaikkien eri kompleksisuusasteiden painottaen niitä niiden posterioritodennäköisyyksillä. Bayes-menetelmien avulla voidaan myös määritellä hierarkkisia priorimalleja, joiden avulla on mahdollista sallia eri kompleksisuusasteita eri osissa mallia. Esimerkiksi voidaan määritellä, että eri syötteet saattavat vaikuttaa malliin erilaisilla kompleksisuusasteilla, ja tämä aste määräytyy mittausdatan perusteella.

Perinteisten hahmontunnistuksessa käytettyjen menetelmien ongelma on myös työkalujen puute tulosten analysointiin, kuten ennusteiden jakaumaa kuvaavien kvantiilien laskemiseen ja mallin hyvyyden arviointiin. Bayes-menetelmät tuottavat automaattisesti jakaumat ennusteille, joista on helppo laskea tarvittavat tiedot, kuten tulosten luotettavuusvälit. Luonnollinen tapa arvioida mallin hyvyyttä on arvioida mallin odotettu hyöty. Mallin odotettu hyöty on ennuste hyödylle, joka saataisiin mikäli mallia käytettäisiin päätöksentekoon tulevaisuudessa. Mallin odotetun hyödyn voi arvioida bayesilaisittain esimerkiksi ristiinvalidointimenetelmien avulla ja bayesilaisten menetelmien ollessa kyseessä voidaan samalla arvioida myös todennäköisyysjakauma odotetun hyödyn arviolle (Vehtari & Lampinen, 2002). Vertailemalla eri vaihtoehtoisten mallien odotettujen hyötyjen jakaumia voidaan valita hyödyllisin malli ja laskea myös millä todennäköisyydellä jokin malli on parempi kuin jokin toinen malli.

Bayes-menetelmiä konenäössä

Tietokoneiden laskentatehon jatkuva kasvu yhdessä joidenkin viime vuosien teoreettisten edistysaskeleitten kanssa on tehnyt bayesilaisista menetelmistä käyttökelpoisia monissa konenäön ja hahmontunnistuksen ongelmissa. Alla olevalla listalla luetellaan joitakin merkittäviä bayes-menetelmien sovellusalueita konenäössä ja julkaisuja, joista aiheesta kiinnostunut lukija voi hankkia lisätietoa.

Seuraavassa on muutamia esimerkkejä bayesilaisten menetelmien soveltamisesta erilaisiin hahmontunnistuksen osa-alueisiin.

Luokittelu

Metsänäkymän luokittelu (ks. myös toisaalla tässä kirjassa reprint paperista (Lampinen & Vehtari, 2001)) on osatehtävä ongelmassa, jossa tarkoituksena on estimoida kuvassa näkyvien puiden tilavuudet. Metsänäkymä luokitellaan ensin pikseleittäin puuksi tai taustaksi, jotta saaadan alkuarvaus puiden sijainnille hienostuneempia malleja varten. Ongelmana on suuri variaatio luokkien sisällä. Sekä puunrunkojen että taustan väri, valaistus ja tekstuuri vaihtelevat paljon. Ongelmana on sopivien piirteiden valinta ja useita piirteitä käytettäessä ulotteisuuden kirous. Kuva 3 esittää esimerkin luokittelutuloksesta kun bayesilaisia MLP-neuroverkkoja vertailtiin perinteisesti hahmontunnistuksessa käytettyihin menetelmiin. Sekä tällaisten esimerkkikuvien että arvioidun odotetun luokittelutarkkuuden perusteella Bayes-MLP pärjää selvästi paremmin kuin muut menetelmät.

 
Kuva 3: Esimerkki metsänäkymän luokittelusta. Bayesilaista MLP-neuroverkkoa verrattiin perinteisesti hahmontunnistuksessa käytettyihin menetelmiin: K-lähimmän naapurin luokittelija, CART-luokittelupuu ja MLP-neuroverkko aikaisella pysäytyksellä. Bayes-MLP:lle kokeiltiin myös ARD-prioria, joka on hierarkkinen priori syötteille, mahdollistaen eri asteiset mallin kompleksisuudet eri syötteille.  
\begin{figure}
 \begin{center}
\leavevmode
 
\includegraphics [width=120mm,clip]{Hatutus_metla.eps}

 \end{center}\end{figure}

Kuva-analyysi

Betonin laadunmallinnussovelluksessa tutkittiin kiviaineksen ominaisuuksien vaikutusta betonin laatuun (ks. myös toisaalla tässä kirjassa reprint paperista (Lampinen & Vehtari, 2001)). Kuva-analyysin avulla kiviaineksesta mitattiin useita muototekijöitä (kuva 4) ja lisäksi mitatiin joitakin kiviaineksen kemiallisia ominaisuuksia.

  
Kuva 4: Esimerkki betonin laadunmallinnussovelluksesta. Sorarakeista mitataan kuva-analyysillä suuri joukko tunnuspiirteitä (raekoko, erilaisia muotopiirteitä, pinnan karkeus, pyöristyneisyys,...), joiden avulla bayesilainen malli pystyy ennustamaan lopputuloksena saatavan betonin lujuus- ja käsiteltävyysominaisuuksia.
\begin{figure}
 \begin{center}
\leavevmode
 
\includegraphics [width=110mm, bb=40 200 540 574,
 clip]{Hatutus_kivikuva.eps}
 \end{center}\end{figure}

Kuva-analyysia käyttämällä voidaan tavallisella pöytäskannerilla nopeasti ja luotettavasti mitata uuden kiviaineksen ominaisuudet. Lohja Rudus Oy:n kanssa tehdyssä tutkimuksessa havaittiin useiden muototekijöiden vaikutus betonin laatuun. Tärkeä osa tutkimustulosten hyväksyttävyydessä oli bayesilaisten menetelmien tarjoamat arviot ennusteiden luotettavuuksista. Bayesilaisen mallin ja siihen pohjautuvien johtopäätösten (Järvenpää, 2001) avulla on mahdollista keinotekoisesti valmistaa laatuvaatimusten kannalta parempaa soraa ja siten vähentää betoninvalmistuksen raaka-ainekustannuksia 5-15% ja vähentää luonnonsoran osuus betonin kiviaineksista 5-20%:iin verrattuna nykyiseen 60-100%:iin. Soran osuuden vähentäminen on linjassa myös ympäristöviranomaisten toiminnan kanssa, jossa perinteiset betonikäyttöön soveltuvat, puhtaat ja karkeat, soraharjut halutaan varataan pohjaveden "valmistamiseen" eli tulevaisuuden juomaveden turvaamiseen.

Kohteenseuranta

Kohteenseurannassa (tracking) liikkuvan kohteen paikkaa ja nopeutta estimoidaan mittausten avulla. Kohteenseurantaa käytetään mm. lentokoneiden seurantaan lennonjohtoa tai sotilaallisia sovelluksia varten, sekä yhä enenevässä määrin konenäössä kohteiden liikkeiden seurantaan videokuvasta. Sovelluksia on mm. automaattinen vartiointi, liikenteen seuranta ja laskenta, autonomiset robotit ja tulevaisuuden ihminen-tietokonekäyttöliittymissä käyttäjän eleiden ja ilmeiden analysointi. Perinteisesti kohteenseurantaan on käytetty Kalman-suodinta ja sen johdannaisia. Kalman-suodin on bayesilainen rekursiivinen tilaestimaattori, joka on optimaalinen kun satunnaisilmiöt mittauksissa ja systeemin tiloissa ovat normaalijakautuneita, ja liikemalli on lineaarinen tai paikallisesti linearisoitu. Videokuvissa kohteiden uskottavuusfunktiot ovat tyypillisesti monihuippuisia (etsitty kohde näyttää sopivan moneen kohtaan kuvassa), eivätkä normaalijakaumaoletukset ole kovinkaan päteviä, joten Kalman-suotimeen perustuvat menetelmät eivät käytännössä pysty seuraamaan kovinkaan monimutkaisia kohteita videokuvissa.

Viimeaikoina on kehitetty MCMC-menetelmiin perustuvia ratkaisuja ns. partikkelisuotimia, joissa satunnaisnäytteiden avulla voidaan estimoida mielivaltaisia systeemin tilojen jakaumia. Hahmontunnistuksen kannalta merkittävin esimerkki näistä menetelmistä on CONDENSATION (Conditional Density Propagation) (Blake & Isard, 1998), jonka toiminnasta videokuvan seurannassa löytyy erinomaisia demonstraatioita www-osoitteesta http://www.robots.ox.ac.uk/~misard/condensation.html.

Audio-visuaalinen puheentunnistus

Yksi esimerkki bayesilaisten menetelmien soveltamisesta ihmisen havaitsemisen mallintamiseen on ns. FLMP-malli (Massaro, 1998) audio-visuaalisen informaation integrointiin. Mallin mukaan kuuloaisti tuottaa todennäköisyysjakauman äänisignaalin perusteella mahdollisista foneemeista. Jos puhujan huulet nähdään, tuottaa näköaisti vastaavan jakauman. Olettamalla nämä mittaukset riippumattomiksi saadaan integroitu havainto kertomalla nämä jakaumat keskenään, kuten taulukossa 4 esitetään. Mallin tulokset vastaavat psykofysikaalissa kokeissa havaittua ihmisen toimintaa. Audio-visuaalinen integraatio on yksi Laskennallisen tekniikan laboratorion tutkimusaiheita.


 
Taulukko 4: Esimerkki audio-visuaalisesta puheen tunnistuksesta kun kuultu äänne on /p/ ja videolla nähty äänne on /k/. Integroitu havainto on äänne /t/, jota ei havaita kummallakaan erillisellä aistilla. Tämä illuusio on nimeltään McGurk-ilmiö, joka voidaan selittää olettamalla että aivoissa muodostuu todennäköisyysjakaumat mahdollisille havainnoille ja integraatio perustuu näiden jakaumien käsittelyyn. Siten lopullinen havainto voi olla kompromissi, joka on molemmilla aisteilla erikseen epätodennäköinen, jos eri aistien havainnot ovat ristiriitaisia. Esimerkiksi McGurk-illuusiossa kuuloaisti tunnistaa äänteen /p/ mutta näköaisti kertoo, että /p/:n toidennäköisyys on hyvin pieni, koska huulet eivät käy yhdessä. Taulukon todennäköisyydet on valittu havainnollisuuden vuoksi. Kokeissa saatavat tulokset ovat tyypillisesti kvalitatiivisesti samankaltaisia.  
  Yksimodaaliset todennäköisyydet Audio-visuaaliset todennäköisyydet
Äänne Audio Video Audio $\times$ Video
/k/ 0.001 0.900 0.078
/p/ 0.900 0.001 0.078
/t/ 0.099 0.099 0.845


Viitteet

Bayes, T. (1763).
An essay towards solving a problem in the doctrine of chances.
The Philosophical Transactions , 53, 370-418.
Reprinted 1958 in Biometrika , 45(3/4):296-315.

Bernardo, J. M., & Smith, A. F. M. (1994).
Bayesian Theory .
John Wiley & Sons.

Besag, J. (1986).
On the statistical analysis of dirty pictures.
Journal of the Royal Statistical Society. Series B (Methodological) , 48(3), 259-302.

Blake, A., & Isard, M. (1998).
Active Contours .
Springer.

Brandt, S., & Heikkonen, J. (2001).
Optimal method for the affine F-matrix and its uncertainty estimation in the sense of both noise and outliers.
In Proceedings of the Eighth International Conference on Computer Vision (ICCV) , vol. 2, (pp. 166-173). Vancouver, Canada.

Gardenfors, P., & Sahlin, N.-E. (Eds.) (1988).
Decision, Probability, and Utility .
Cambridge University Press.

Gelman, A., Carlin, J. B., Stern, H. S., & Rubin, D. R. (1995).
Bayesian Data Analysis .
Chapman & Hall.

Geman, S., & Geman, D. (1984).
Stochastic relaxation, Gibbs distributions and the Bayesian restoration of images.
IEEE Transactions on Pattern Analysis and Machine Intelligence , 6(2), 721-741.

Good, I. J. (1952).
Rational decisions.
Journal of the Royal Statistical Society. Series B (Methodological) , 14(1), 107-114.

Gordon, N. J., Salmond, D. J., & Smith, A. F. M. (1993).
Novel approach to nonlinear/non-gaussian bayesian state estimation.
IEE Procedings F , 140(2), 107-113.

Green, P. J. (1996).
MCMC in image analysis.
In W. R. Gilks, S. Richardson, & D. J. Spiegelhalter (eds.), Markov Chain Monte Carlo in Practice , (pp. 381-400). Chapman & Hall.

Howson, C., & Urbach, P. (1993).
Scientific Reasoning: The Bayesian Approach .
Open Court Publishing Company, 2nd ed.

Jaynes, E. T. (1996).
Probability Theory: The Logic of Science [online] .
Fragmentary edition of March 1996. Available at http://bayes.wustl.edu/etj/prob.html.

Järvenpää, H. (2001).
Quality characteristics of fine aggregates and controlling their effects on concrete .
Acta Polytechnica Scandinavica, Civil Engineering and Building Construction Series No. 122. The Finnish Academy of Technology.

Kaipio, J. P., Kolehmainen, V., Somersalo, E., & Vauhkonen, M. (2000).
Statistical inversion and Monte Carlo sampling methods in electrical impedance tomography.
Inverse Problems , 16(5), 1487-1522.

Knill, D. C., & Richards, W. (Eds.) (1996).
Perception as Bayesian Inference .
Cambridge University Press.

Konrad, J., & Dubois, E. (1992).
Bayesian estimation of motion vector fields.
IEEE Transactions on Pattern Analysis and Machine Intelligence , 14(9), 910-927.

Lampinen, J., & Vehtari, A. (2001).
Bayesian approach for neural networks - review and case studies.
Neural Networks , 14(3), 7-24.

Massaro, D. (1998).
Talking Faces - From Speech Perception to a Behavioral Principle .
MIT Press/Bradford Books Series in Cognitive Psychology. The MITT Press, Cambridge, London.

Ripley, B. D. (1999).
Statistical considerations in magnetic resonance imaging of brain function.
In B. K. Ersboll, & P. Johansen (eds.), SCIA'99: Proceedings of The 11th Scandinavian Conference on Image Analysis , vol. 1, (pp. 283-287). The Pattern Recognition Society of Denmark.

Sivia, D. S. (1996).
Data Analysis: A Bayesian tutorial .
Oxford Science Publications.

Vehtari, A., & Lampinen, J. (2002).
Bayesian model assessment and comparison using cross-validation predictive densities.
Neural Computation .
In press.



Jouko Lampinen
5/3/2002