Luonnollista tekstiä käsittelevien apien vertailu sekä niiden hyödyntäminen ohjelmistorobotiikassa
Silmäri, Joni (2017)
Silmäri, Joni
Karelia-ammattikorkeakoulu (Pohjois-Karjalan ammattikorkeakoulu)
2017
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-201705229421
https://urn.fi/URN:NBN:fi:amk-201705229421
Tiivistelmä
Opinnäytetyö sisältää vertailun kahden luonnollista tekstiä käsittelevän apin välillä sekä esimerkkisovellukset apien hyödyntämisestä ohjelmistorobotiikassa. Vertailussa olevat luonnollista tekstiä käsittelevät apit olivat helposti saatavilla ja niiden käyttö oli maksutonta koko opinnäytetyön ajan.
Apeja vertaillaan käytöstä aiheutuvien kustannusten ja niiden ominaisuuksien sekä niistä saatavan analyysin perusteella. Vertailu on suoritettu ohjelmistoroboteilla. Ohjelmistorobotit on tehty UiPath–sovelluksella, ja toteutuksessa on käytetty Microsoftin Cognitive Text Analytics -apia sekä IBM Watson Natural Language Understanding -apia.
Lyhyt kuvaus ohjelmistorobotista, joka on toteutettu Microsoftin apilla. Ohjelmistorobotille annetaan tiedosto, joka sisältää listan dokumentteja, joihin pitäisi lisätä metadataa. Ohjelmistorobotti käy dokumenttien sisällön läpi yksitellen ja lähettää kunkin dokumentin analysoitavaksi Microsoft Cognitive Text Analytics -apille. Microsoftilta saadaan vastaus, joka sisältää listan avainsanoja, joita tekstistä löytyy. Vastauksena saadut avainsanat lisätään dokumentin metatietoihin ja dokumentti tallennettaan. Dokumentteja analysoidaan niin kauan, kuin läpikäymättömiä dokumentteja on jäljellä.
Testauksen aikana ilmeni se, että IBM:n -api palauttaa huomattavasti laadukkaampaa ja täsmällisempää analyysia kuin Microsoftin -api. Molempien apien kustannukset ovat hyvin samankaltaiset ja molemmille löytyy erinomaisia käyttötarkoituksia. Kumpikaan testatuista apeista ei ollut täydellinen ja varsinkin suomen kielen tuen puuttuminen oli suuri pettymys, mutta tästäkin huolimatta molemmille apeille löytyy varmasti käyttöä.
Apeja vertaillaan käytöstä aiheutuvien kustannusten ja niiden ominaisuuksien sekä niistä saatavan analyysin perusteella. Vertailu on suoritettu ohjelmistoroboteilla. Ohjelmistorobotit on tehty UiPath–sovelluksella, ja toteutuksessa on käytetty Microsoftin Cognitive Text Analytics -apia sekä IBM Watson Natural Language Understanding -apia.
Lyhyt kuvaus ohjelmistorobotista, joka on toteutettu Microsoftin apilla. Ohjelmistorobotille annetaan tiedosto, joka sisältää listan dokumentteja, joihin pitäisi lisätä metadataa. Ohjelmistorobotti käy dokumenttien sisällön läpi yksitellen ja lähettää kunkin dokumentin analysoitavaksi Microsoft Cognitive Text Analytics -apille. Microsoftilta saadaan vastaus, joka sisältää listan avainsanoja, joita tekstistä löytyy. Vastauksena saadut avainsanat lisätään dokumentin metatietoihin ja dokumentti tallennettaan. Dokumentteja analysoidaan niin kauan, kuin läpikäymättömiä dokumentteja on jäljellä.
Testauksen aikana ilmeni se, että IBM:n -api palauttaa huomattavasti laadukkaampaa ja täsmällisempää analyysia kuin Microsoftin -api. Molempien apien kustannukset ovat hyvin samankaltaiset ja molemmille löytyy erinomaisia käyttötarkoituksia. Kumpikaan testatuista apeista ei ollut täydellinen ja varsinkin suomen kielen tuen puuttuminen oli suuri pettymys, mutta tästäkin huolimatta molemmille apeille löytyy varmasti käyttöä.