Колекция от многоезикови ресурси за CEF.AT (CURLICAT)
Секция по компютърна лингвистика
Срок: 01.06.2020 г. – 31.05.2022 г.
Вид на проекта: колективен, международен
Партньори: Изследователски институт по лингвистика, Унгарска академия на науките; Университет на Загреб, Хърватия, Факултет по хуманитарни и социални науки; Институт по компютърни науки, Полска академия на науките; Институт за изкуствен интелект, Румънска академия; Институт по лингвистика „Людовит Щур“, Словашка академия на науките; Институт „Йожеф Стефан“, Словения
Финансиране: Изпълнителна агенция за иновации и мрежи. Механизъм за свързване на Европа. Сектор „Телекомуникации“.
Ръководител: проф. д-р Светла Коева
Участници: проф. д-р Светла Коева (от 01.07.2021 г.), проф. д-р Тинко Тинчев, гл. ас. д-р Цветана Димитрова, гл. ас. д-р Валентина Стефанова, Мартин Ялъмов, Никола Обрешков
Анотация:
Проектът ще предостави подбрани и обработени по подходящ начин езикови ресурси за седем езика: български, хърватски, унгарски, полски, румънски, словашки и словенски. Ресурсите ще бъдат от следните тематични области: финанси, здравеопазване, научни изследвания, културно наследство, образование, икономика, политика, от Инфраструктурата за дигитални услуги на Механизма за свързване на Европа.
Конкретните цели на проекта са насочени към: създаване на многоезиков ресурс с документи от разнообразни тематични области; автоматична лингвистична анотация на многоезиковия ресурс; автоматична лингвистична обработка и обогатяване на многоезиковия ресурс.
Резултатите от проекта, които ще осигурят най-малко 140 милиона думи (по 20 милиона за език), ще се използват при обучението на системите за автоматичен превод на Платформата за автоматичен превод на Механизма за свързване на Европа (CEF.AT) Качеството на автоматичния превод зависи от обучението на системите за превод на базата на голямо количество преводни документи от дадена тематична област. Значението на автоматичния превод нараства все повече заедно с нарастването на икономическите, политическите и културните връзки между отделните (европейски) държави.
Проектът се разработва в рамките на приоритетното направление на Института за български език „Електронни езикови ресурси и програми за тяхната обработка“.
Форма на представяне на резултатите: лингвистично обработени и анотирани езикови данни от разнообразни тематични области (най-малко 20 милиона думи), софтуер, инфраструктура за извличане и семантична обработка на документи.