LRK2013 Meklēt korpusā Vārdu biežuma saraksts
Latviešu valodas runas atpazīšanas korpuss
Korpusā ir iekļauti audioieraksti un to atšifrējumi ortogrāfiskajā transkripcijā. Katram audioierakstam ir pievienoti metadati: ziņas par ieraksta vietu, ieraksta ilgums, runātāja vecums, dzimums un latviešu valodas valodas prasme. Daļa korpusa (apm. 4 stundas) ir marķēta fonētiskajā transkripcijā. Korpuss galvenokārt tiek izmantots runas atpazīšanas risinājumu izstrādei. Publiski pieejams ir tikai transkribētais teksts, bet ne audioieraksti.
Atsauces
Publikācija
Korpusa apjoms | 100 stundas (1,1 milj. tekstvienību) |
Datu publicēšanas periods | 2005–2013 |
Izstrādes periods | 2013 |
Izstrādātāji | Latvijas Universitātes Matemātikas un informātikas institūts, SIA Tilde, SIA LETA |
Finansējuma avots | Eiropas Reģionālās attīstības fonds (KC/2.1.2.1.1/10/01/001, projekts Nr. 2.9) |
Mājaslapa | http://runa.korpuss.lv/ |
Citas publikācijas |
I. Auzina,
M. Pinnis,
R. Dargis
Comparison of rule-based and statistical methods for grapheme to phoneme modelling IOS Press, 2014
A. Znotins,
K. Polis,
R. Dargis
Media monitoring system for Latvian radio and TV broadcasts 2015 |