А.В.Венцов, В.Б.Касевич (СПбУ)

Из опыта работы над частотным словарем русского языка
(настоящее исследование проводится при частичной поддержке РФФИ (грант 97-06-80099))

1. В настоящее время прикладная лингвистика в наибольшей степени уделяет внимание работам в области NLP (Natural Language Processing). Среди них выделяются системы, автоматически сопоставляющие предложению его грамматическую структуру (ср. Программу The BracketDoctor, разработанную Ф.Браличем и его коллегами). Стоит отметить, что реально такого рода системы-"парсеры" (точного русского эквивалента, кажется, не существует) выступают как средства анализа ТЕКСТА, а не языка, и должны были бы представлять область NTP (Natural Text Processing). Язык (грамматика) либо берется как данное в каком-то из существующих вариантов, либо разрабатывается специально применительно к указанной задаче.

2. К области NTP можно отнести и существенно иные работы, моделирующие ВОСПРИЯТИЕ РЕЧИ: здесь также объектом приложения некоторой программы является текст, но на выходе - интерпретация последнего в терминах тех языковых единиц и категорий, которые, как можно полагать, используются носителем языка для смысловой записи данного текста. Строго говоря, такие работы уже не принадлежат прикладной лингвистике.

2.1. Модель восприятия речи невозможна без словаря как своего существеннейшего компонента. При восприятии речи основной оперативной единицей выступает СЛОВО. Из этого следует, в частности, что каждое слово воспринимаемого текста должно быть отождествлено с соответствующей единицей внутреннего словаря слушающего (или читающего). Естественно считать, что уже с самого начала поиск ограничен некоторыми подобластями словаря. Согласно большинству современных теорий восприятия речи, собственно фонетический анализ звучащего текста в типичном случае дает лишь некоторую ЧАСТИЧНУЮ информацию о возможном фонологическом облике слова, и такого рода информации отвечает не одно, а определенное МНОЖЕСТВО слов словаря; следовательно, возникает задача (а) выделить соответствующее множество по тем или иным параметрам и (б) в пределах очерченного множества (если оно выделено адекватно) произвести "отсев" всех слов, кроме того единственного, которое и соответствует наилучшим образом данному слову распознаваемого текста. Одна из стратегий "отсева" - исключение низкочастотных слов. Отсюда следует, что словарь для восприятия речи - это частотный словарь. Именно создание компьютерной версии частотного словаря русского языка и является первоначальной задачей представляемого проекта.

2.2. На материале русского языка существует 5 частотных словарей (не считая отраслевых). Отметим лишь некоторые общие недостатки - с точки зрения наших задач - имеющихся словарей.

2.2.1. Все известные нам частотные словари русского языка построены на обработке массивов письменных (печатных) текстов. Отчасти по этой причине, когда тождество слова во многом опирается на совпадение формальное, графическое, недостаточно учитывается семантика. В результате оказываются смещенными, искаженными и частотные характеристики; например, если слова из сочетания "друг друга" составитель частотного словаря включает в общую статистику употребления слова "друг", то едва ли это оправданно: учитывая семантику, мы должны признать, что в составе сочетания это уже ДРУГИЕ слова, а точнее, что самостоятельной словарной единицей выступает лишь само по себе сочетание в целом.

2.2.2. Во всех существующих словарях слова помещены лишь в своих основных формах: существительные в форме ед.ч., им.п., глаголы в форме инфинитива и т.д. Некоторые из словарей дают информацию о частотности словоформ, но обычно делают это недостаточно последовательно, не исчерпывающим образом.

3. В связи с указанными особенностями существующих частотных словарей, для моделирования восприятия речи возникают весьма серьезные проблемы, решение которых пока может быть предложено лишь в сугубо предварительном порядке.

3.1. Частотности разных словоформ одного и того же слова заведомо не совпадают. Разработчик же модели восприятия речи должен учитывать, что в реальном перцептивном процессе распознаванию подлежит именно конкретная словоформа, "погруженная" в текст: на базе анализа начального участка экспонента словоформы формируется множество слов с идентичным началом, причем начальный участок словоформы не обязательно тождествен начальному участку словарной формы. Именно словоформе принадлежит конкретная ритмическая структура - также чрезвычайно важный параметр для перцептивного отбора слов. Наконец, в итоговом представлении распознанного высказывания опять-таки слова представлены соответствующими словоформами.

Существует множество работ, в которых демонстрируется важность частотности в процессе восприятии речи. Но нам не известны работы, где использовалась бы частотность СЛОВОФОРМ - напротив, все авторы практически игнорируют частотность отдельных словоформ, обращаясь исключительно к лексемам. Если полученные ими результаты не считать артефактами, приходится допустить, что носителю языка каким-то образом доступна информация о соотношении частотностей словоформ и словарной формы, т.е., фактически, лексемы. Причем такого рода переход от словоформы к лексеме, конечно, невозможно объяснить естественным знанием соответствующей парадигмы, поскольку информация о частотности должна использоваться ДО окончательной идентификации слова, иначе она просто теряет смысл.

3.2. Можно было бы также предположить, что В СЛОВАРЕ хранятся все словоформы, тогда проблема радикально упрощается - категория лексемы фактически изымается из описания процесса восприятия речи. Однако, как отмечалось выше, в известных нам исследованиях, демонстрирующих релевантность частотности для распознавания слов, использовались все же частотности лексем, а не словоформ. Что же касается более общего вопроса о реалистичности представления словаря как инвентаря словоформ, а не лексем, то данный вопрос достаточно давно обсуждается в литературе с точки зрения большей/меньшей экономности. Что экономнее: хранить большие массивы непосредственно доступных единиц - или же гораздо более компактные наборы словарных форм плюс системы правил, которые позволяют выводить из словарных все прочие единицы? Вопрос можно счесть эмпирическим, т.е. подлежащим решению путем моделирования соответствующих ситуаций при разных принципах устройства словаря. Но сформулированные выше вопросы в любом случае остаются; к тому же с лингвистических позиций признание реалистичности словаря как полного набора словоформ (с исключением порождающих их правил) эквивалентно полному отрицанию грамматики (морфологии) в качестве самостоятельного компонента языкового механизма.

3.3. Возможно, следует признать реалистичность КУМУЛЯТИВНОЙ частотности для всех слов (словоформ), однокоренных данному (данной). Тогда всем членам такого класса присваивался бы один и тот же индекс кумулятивной частотности.

4. Изложенные принципы (и ряд других, не нашедших здесь отражения) к настоящему моменту (начало 1998 г.) частично отражены в разработанной авторами (при участии Е.В.Ягуновой и Е.В.Глазановой) компьютерной версии частотного словаря русского языка, содержащего более 20 тыс. словоформ.
_______________________________

Prof. Dr. Vadim B. Kassevitch (Univ. of St. Petersburg)

P.O.Box 14, St. Petersburg, 191025, Russia

Phone (7-812) 314-6123 (home)

<kasevich@vbk.usr.pu.ru>