Проект:
Семантични ресурси и програми за обработка на езика (лексикално-семантични мрежи и езикови модели)
Вид на проекта:
колективен, национален
Звено:
Секция по компютърна лингвистика
Срок:
2023 – 2026 г. (удължен срок с протокол № 7 от НС на ИБЕ от 18.04.2024 г.)
Финансиране:
бюджетна субсидия; Национален план за възстановяване и устойчивост (договор No ПВУ-55 от 12.12.2024 г. (BG-RRP-2.017-0030-C01)
Резюме
Основната цел на проекта е свързана с обогатяването на създадените в Секцията по компютърна лингвистика лексикално-семантичните мрежи и създаването на нови езикови модели. Семантичните мрежи се използват за организиране на семантично лингвистично знание и предоставят ефективен и интегриран достъп до свързани данни. Езиковите модели предсказват вероятността дадена последователност от думи да се използва в изречение на базата на статистически анализ на голямо количество от езикови данни. Приложението на езиковите модели е практически във всяка област на компютърната обработка на езика: морфологичен и синтактичен анализ, машинен превод, извличане на информация и др. Проектът се основава на някои от резултатите от предходни проекти на Секцията по компютърна лингвистика, като се цели съществуващи ресурси да бъдат разширени с нови лексикални единици и прилежащата им семантична информация или да бъдат създадени изцяло нови ресурси, които са необходими за компютърна обработка на езика, а като допълнително преимущество – могат да бъдат използвани за различни лингвистични или обучителни цели. В рамките на работен пакет 5 се изпълнява проектът „Инфраструктура за фина настройка на предварително обучени големи езикови модели“ (финансиран по Националния план за възстановяване и устойчивост). Проектът се разработва в рамките на две от приоритетните направления на Института за български език: Електронни езикови ресурси и програми за тяхната обработка и Теоретични езиковедски изследвания.
Ръководител
проф. д-р Светла Коева
