EN
Начало » Проекти » Текущи проекти » Българският национален корпус

Българският национален корпус

Секция по компютърна лингвистика

Секция за българска лексикология и лексикография

Срок: 2014-2016

Вид на проекта: колективен, етап от многогодишен

Финансиране: бюджетна субсидия, БАН – ЕБР с ЧАН, ФНИ

Ръководител: проф. д-р Св. Коева, доц. д-р С. Колковска

Участници: проф. д-р Св. Коева, проф. д-р С. Колковска – СБЛЛ, проф. д-р Д. Благоева – СБЛЛ, гл. ас. д-р Цв. Димитрова, гл. ас. д-р Св. Лесева, д-р И. Стоянова, Б. Ризов, гл. ас. д-р М. Тодорова, Л. Джаков, М. Ялъмов, гл. ас. д-р Цв. Георгиева – СБЛЛ, гл. ас. д-р Н. Костова – СБЛЛ, гл. ас. д-р Ат. Атанасова – СБЛЛ

Анотация:

Целите на проекта са насочени към по-нататъшно увеличаване на обема на Българския национален корпус (БНК), повишаване на неговата представителност и балансираност и разширяване на възможностите за достъп до него. Чрез изпълнението на тези цели ще се осигури по-ефективното използване на БНК като база за извършване на разнообразни лингвистични изследвания и за лексикографско описание на актуалното състояние на българския език.

За нуждите на по-нататъшното разширяване на БНК (включително и на паралелните многоезикови корпуси в него) ще продължи автоматичното идентифициране и събиране на подходящи документи от интернет. Важна насока в усъвършенстването на БНК ще бъде и доизграждането на таксономично организиран класификационен модел за описание на документите в корпуса, който ще позволи включване на нови категории текстове и лесна реорганизация. Във връзка с лингвистичната анотация на БНК ще продължи работата по автоматично анотиране на документите в него. За да се осигури оптимално лексикографско приложение на БНК, се предвижда извършването на подбор на корпусни единици, които ще бъдат използвани в системата за търсене за лексикографски цели, а също така и подобряване на възможностите за извличане на специализирани едноезикови и многоезикови корпуси.

Работата върху разширяването на корпуса и достъпа до него обединява различни научни направления като лингвистика и компютърна лингвистика, лексикография и корпусна лингвистика и др. и води до високи и ефективни интердисциплинарни научни постижения. Създаващите се по проекта и на основата на резултатите от проекта електронни ресурси и приложения стоят в основата на социалноориентирани софтуерни решения и технологични продукти – автоматично резюмиране на големи по обем документи за нуждите на администрацията, медиите и библиотеките, автоматично търсене на съответните документи в дадена област, интелигенти програми, подпомагащи преводачите; система от езикови правила, улесняваща хора със слухови увреждания и др. Проектът участва в две от приоритетните за Института за български език области: Теоретични езиковедски изследвания и Електронни езикови ресурси и програми за тяхната обработка.

Подтеми:

Български национален корпус. Колективен проект. Участници: проф. д-р Св. Коева, проф. д-р С. Колковска, проф. д-р Д. Благоева, гл. ас. д-р Цв. Димитрова, гл. ас. д-р Св. Лесева, д-р Ив. Стоянова, Б. Ризов, гл. ас. д-р М. Тодорова, Л. Джаков, М. Ялъмов, гл. ас. д-р Цв. Георгиева, гл. ас. д-р Н. Костова, гл. ас. д-р Ат. Атанасова. Срок: 2014 – 2016 г.

Автоматично разпознаване на именувани обекти в български и чешки език. Колективен проект с партньор Институт за чешки език – Чешка АН. Ръководител от българска страна: гл. ас. д-р Цв. Димитрова. Участници от българска страна: проф. д-р Св. Коева, гл. ас. д-р Цв. Димитрова. Срок: 2014 – 2016 г.

Форма на представяне на резултатите: анотиран корпус на българския език, анотиран паралелен многоезиков корпус, софтуер за търсене в корпуса, научни публикации.

начало