Многоезикови ресурси за CEF.AT от областта на законодателството
Секция по компютърна лингвистика
Срок: 01.10.2018 г. – 31.03.2021 г. (удължен с шест месеца – протокол от заседание на НС от 21.12.2020 г.)
Вид на проекта: колективен, международен
Партньори: Изследователски институт по лингвистика, Унгарска академия на науките (координатор); Университетът в Загреб, Хърватия; Институт по компютърни науки, Полска академия на науките; Институт за изкуствен интелект, Румънска академия; Институт по лингвистика „Людовит Щур“, Словашка академия на науките; Институт „Йожеф Стефан“, Словения
Финансиране: Изпълнителна агенция за иновации и мрежи. Механизъм за свързване на Европа
Ръководител: проф. д-р Светла Коева (до 30 юни 2020 г.), проф. д-р Тинко Тинчев, гл. ас. д-р Валентина Стефанова, гл. ас. д-р Цветана Димитрова, гл. ас. д-р Димитър Георгиев (до 18.02.2019 г.), Мартин Ялъмов, Валери Костов (от 25.02.2019 до м. август 2019 г.), Никола Обрешков (от м. септември 2019 г.)
Анотация:
Основната цел на проекта (marcell-project.eu) е разработването на устойчива инфраструктура за събиране и семантична обработка на документи от националното законодателство (закони, постановления, наредби и др.) на България, Полша, Румъния, Словакия, Словения, Унгария и Хърватия в помощ на обучението на съвременни системи за автоматичен превод. Конкретните задачи на екипа от Института за български език включват: създаване на инфраструктура за автоматично събиране, предварителна обработка и лингвистична анотация на документи от националното законодателство на България; семантична сегментация на данните; междуезиково семантично съотнасяне между различни по големина части от текстовете (думи, фрази, изречения, абзаци).
Резултатите от проекта са предназначени за системите на Платформата за автоматичен превод на Механизма за свързване на Европа (CEF.AT). Качеството на автоматичния превод зависи от обучението на системите за превод на базата на голямо количество преводни документи от дадена тематична област. Значението на автоматичния превод нараства все повече заедно с нарастването на икономическите, политическите и културните връзки между отделните (европейски) държави.
Проектът се разработва в рамките на приоритетното направление на Института за български език Електронни езикови ресурси и програми за тяхната обработка.
Форма на представяне на резултатите: инфраструктура за автоматично извличане и семантична обработка на многоезикови документи; лингвистично обработени и семантично свързани данни от областта на законодателството за седем европейски езика.