Семантични ресурси и програми за обработка на езика (БулНет)
Секция по компютърна лингвистика
Срок: 2017 – 2020 (удължен с една година – протокол № 16 – 1/26.06.2019 г.)
Вид на проекта: колективен
Финансиране: бюджетна субсидия, БАН – ЕБР с РумАН, Програма за подпомагане на младите учени – БАН, Фонд „Научни изследвания“
Ръководител: проф. д-р Св. Коева
Участници: проф. д-р Светла Коева, гл. ас. д-р Валентина Стефанова, гл. ас. д-р Мария Тодорова, гл. ас. д-р Светлозара Лесева, гл. ас. д-р Цветана Димитрова, д-р Ивелина Стояновa, Христина Кукова, Мартин Ялъмов
Анотация:
Основната цел на проекта е обогатяване на Българската лексикалносемантична мрежа БулНет с нови синонимни множества и семантичните релации, които ги свързват. Описанието на синонимните множества включва: синонимите, които назовават дадено понятие; тълковна дефиниция; граматични характеристики на множеството и на отделните синоними, които го съставят; примери за употреба; стилистични и граматични бележки; семантични, словообразователни и екстралингвистични връзки с други синонимни множества; връзка със съответното синонимно множество в английски и посредством английски – с още 22 лексикалносемантични мрежи (УърдНет).
Разширяването на Българската лексикално-семантична мрежа БулНет е свързано както с теоретични изследвания в областта на лексикалния състав, граматичната и семантичната структура на българския език, така и с разработването на компютърни приложения за обработка на езика, подпомагащи лингвистичните изследвания, преводаческата работа и езиковото обучение.
Резултатите от проекта предоставят възможности за ефективно използване на Българската лексикално-семантична мрежа БулНет в компютърната обработка на езика: за разширено търсене и извличане на информация, отстраняване на семантична многозначност, семантичен анализ, откриване на междуезикови връзки и др.
Проектът се разработва в рамките на две от приоритетните направления на Института за български език: Академични речници на българския език и Електронни езикови ресурси и програми за тяхната обработка.
Форма на представяне на резултатите: лексикално-семантична мрежа за български, част от многоезиковата лексикално-семантична мрежа УърдНет; онлайн система за търсене в многоезиковата лексикално-семантична мрежа УърдНет; студии и статии, представящи теоретичната работа и практическото приложение на създадените ресурси и програми за обработка на езика.