Automaattinen puheentunnistus
Salminen, Teemu (2015)
Salminen, Teemu
Tampereen ammattikorkeakoulu
2015
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2015123121744
https://urn.fi/URN:NBN:fi:amk-2015123121744
Tiivistelmä
Tässä opinnäytetyössä käydään läpi tavanomaisen Markovin piilomalleihin pohjautuvan automaattisen puheentunnistusjärjestelmän toimintaperiaate. Työn tarkoituksena on antaa lukijalle yksinkertaistettu kuva nykyisten käytössä olevien tunnistimien toiminnasta ja tulevaisuuden kehityksen suunnasta.
Automaattinen puheentunnistus tai lyhyesti ASR on merkittävä tilastollisten ja hahmontunnistus menetelmien sovellus, joka mahdollistaa luonnollisen kielen käytön ihmisen ja koneen välisessä vuorovaikutuksessa. Puheentunnistusjärjestelmien ydin koostuu tilastollisilla menetelmillä estimoiduista malleista, jotka edustavat tunnistettavan puhekielen eri rakenneosia eli äänteitä, joita tunnistuksessa verrataan puhesignaalista laskettujen äänteiden ominaispiirteisiin. Markovin piilomallit tarjoavat yksinkertaisen ja tehokkaan tavan käsittelemään puheen ajallista vaihtelevuutta, jonka seurauksena lähes kaikki nykypäivän automaattisen jatkuvan puheentunnistusjärjestelmien tilastolliset äännemallit perustuvat Markovin piilomalleihin.
Tässä työssä tehdään aluksi lyhyt katsaus automaattisen puheentunnistuksen historian päävaiheisiin ja nykytilaan, jonka jälkeen työssä esitellään Markovin piilomalleihin (HMM) pohjautuvan automaattisten puheentunnistusjärjestelmän yleinen rakenne ja toiminta.
Automaattinen puheentunnistus tai lyhyesti ASR on merkittävä tilastollisten ja hahmontunnistus menetelmien sovellus, joka mahdollistaa luonnollisen kielen käytön ihmisen ja koneen välisessä vuorovaikutuksessa. Puheentunnistusjärjestelmien ydin koostuu tilastollisilla menetelmillä estimoiduista malleista, jotka edustavat tunnistettavan puhekielen eri rakenneosia eli äänteitä, joita tunnistuksessa verrataan puhesignaalista laskettujen äänteiden ominaispiirteisiin. Markovin piilomallit tarjoavat yksinkertaisen ja tehokkaan tavan käsittelemään puheen ajallista vaihtelevuutta, jonka seurauksena lähes kaikki nykypäivän automaattisen jatkuvan puheentunnistusjärjestelmien tilastolliset äännemallit perustuvat Markovin piilomalleihin.
Tässä työssä tehdään aluksi lyhyt katsaus automaattisen puheentunnistuksen historian päävaiheisiin ja nykytilaan, jonka jälkeen työssä esitellään Markovin piilomalleihin (HMM) pohjautuvan automaattisten puheentunnistusjärjestelmän yleinen rakenne ja toiminta.