Българският национален корпус
Секция по компютърна лингвистика
Срок: 2017 – 2019
Вид на проекта: колективен, национален
Финансиране: бюджетна субсидия
Ръководител: проф. д-р Тинко Тинчев
Участници: проф. д-р Тинко Тинчев, гл. ас. д-р Мария Тодорова, гл. ас. д-р Светлозара Лесева, д-р Ивелина Стояновa, Кузман Белев (до 06.02.2019).
Анотация:
Българският национален корпус е голям динамично развиващ се корпус, представящ съвременното състояние на българския език (//dcl.bas.bg/bulnc/). Корпусът съдържа и преводни текстове на 47 езика. При създаването на корпуса се прилага унифициран подход за събиране, предварителната обработка, анотация и достъп до езиковите данни.
Основните цели на проекта са: увеличаване на обема на Българския национален корпус и разширяване на възможностите за достъп до него. Изпълнението на проекта е свързано с автоматично идентифициране и събиране на подходящи документи от интернет, извличане на описателни метаданни за тях и автоматична лингвистична анотация на събраните текстове. Предвижда се подобряване на системата за търсене (//search.dcl.bas.bg) в Българския национален корпус (разширяване на функционалностите, опростяване на начините за използване, подобряване на бързината при показване на резултатите), както и подбор на корпусните единици, които ще бъдат използвани в системата.
Изпълнението на проекта ще осигури по-ефективното приложение на Българския национален корпус за разнообразни изследователски и образователни цели, както и при лексикографското описание на актуалното състояние на българския език.
Проектът се разработва в рамките на приоритетното направление на Института
за български език Електронни езикови ресурси и програми за тяхната обработка.
Форма на представяне на резултатите: усъвършенствана система за търсене в Българския национален корпус; речник на съставните лексикални единици; усъвършенствана система за откриване на неологизми; усъвършенствана система за извличане на цитати; студии и статии, представящи теоретични изследвания и работата по изграждането на корпуса и неговите приложения.