Дискретная математика:
логика, группы, графы, фракталы

Акимов О.Е.

3.4. Лингвистические и поисковые графы

Граф словоизменения

Итак, до сих пор мы рассматривали медленные исторические процессы формирования лексикона. Однако чаще и быстрее всего словоизменение (не историческое, а практическое, повседневное) происходит в результате префиксации и суффиксации. В этой связи приведем ветви словообразовательного дерева с корнем смотр (рис. 3.60). На примере этого порождающего лингвистического графа разберем типичные трудности, встречающиеся при упорядочении словоформ в лингвистике.

Рис. 3.60

Первое, о чем следует сказать, глядя на нашу схему: любое дерево будет неполным, ибо живой язык невозможно втиснуть в какие-то заранее определенные рамки. Но дело даже не в постоянной изменчивости языка. В нашем дереве отсутствуют, например, такие обычные глаголы настоящего времени, как смотришь, смотрит, смотрим, вместе с многочисленными префиксами о, у, под. То же самое нужно сказать и в отношении прошедшего времени (смотрел, смотрела, смотрели), некоторых деепричастий (смотрев, смотревши), повелительного наклонения глаголов (смотри, смотрите) и т.д. Все эти распространенные и очень понятные слова, отвечающие различным склонениям и спряжениям, не внесены в дерево потому, что они касаются поверхностных изменений, которые нас сейчас интересуют мало, но при этом значительно увеличивают крону порождающего дерева. Нам же любопытно проследить более глубинные грамматические метаморфозы, так как в общем случае действует принцип: чем глубже и дольше перемены, в частности, затрагивающие корень слова, тем меньше в них регулярности, и наоборот, чем мельче изменения, в частности, относящиеся только к периферийным частям слова, тем выше регулярность, которую несложно свести к компьютерной обработке. Согласованное написание флексий, т.е. изменяющейся части слова, зависящей от лица, рода, числа, склонения, спряжения, обеспечить довольно легко. Современные компьютерные переводчики типа PROMT в основном справляются с этой функцией. Когда речь заходит о выборе нужного синонима или антонима, т.е. там, где затрагиваются проблемы смысла слов, то уже возникает задача совершенного иного рода, более трудная, чтобы не сказать, неразрешимая.

При внимательном анализе представленного графа можно во многих местах обнаружить нарушение внутренней логики построения древовидной структуры. Достаточно сказать, что в словах досмотреть и досматривать происходит не просто присоединение входного полуслова, а еще и чередование букв о и а. Можно придерживаться какого-то определенного правила синтеза новых слов, однако они по большей части будут искусственными. При наличии в схеме некоторых отклонений от правил составления слов, данное дерево, тем не менее, можно запрограммировать на компьютерную обработку по присоединению суффиксов и префиксов. В любом случае словообразовательное гнездо «смотр» нельзя сравнивать, например, с древом жизни и эволюции растительного и животного мира, в котором каждому виду отводится постоянное место, соответствующее природным условиям. Биология давно распрощалась с искусственными классификациями, тогда как лингвистика пока что опирается на них. Все лингвистические базы данных — это плод искусственной группировки составных частей по довольно спорным критериям отбора слов-особей. В естественных условиях буквенное наращивание слов происходит самым неожиданным образом. Регулярность, конечно, существует, но она далека от тотальной; язык изобилует словами-мутантами, выпадающими из установленных учебником грамматики лингвистических норм.

Причин, которые вызывают неоднозначность естественных языков и невозможность их алгоритмизации, много. Одна из основных причин заключена в том, что в живом языке не определена очередность присоединения самых распространенных префиксов, суффиксов и окончаний. Всякая установленная программистом очередность будет искусственной. В частности, есть ветвь, изображенная на рис. 3.61а отдельно, у которой порядок образования слов может быть изменен на другой (рис. 3.61б). В цепочке слов, показанной на рис. 3.61б, фигурирует слово смотреться, взятое с другой ветви порождающего дерева (рис. 3.60). Вместе с тем в нее не попало слово осмотреть. Таким образом, имеются варианты, которые нужно отбирать в зависимости от конкретно решаемой лингвистической задачи. В обоих указанных случаях фигурируют одинаковые наборы входных полуслов, но выходные слова получились разными. Это происходит потому, что используются различные матрицы формирования (эти матрицы изображены на рис. 3.62а и 3.62б).


Рис. 3.61

Рис. 3.62

Генерация очередного словообразования, быть может, и допустима при наличии соответствующего конструкторского набора из морфологических запчастей, но ограничение накладывается содержанием, которое невозможно запрограммировать. Ведь понятно, что присоединение к корню слева или справа дополнительных букв изменяет смысл исходного слова. Вопрос влияния частей слова на их содержание является, как было сказано, одним из главных в языкознании.

Когда формально-логический критерий оптимального обхода дерева выработан, задача алгоритмиста или программиста сводится к обыкновенной инженерно-технической проблеме, которую он обязан решить как специалист своего дела. Вся сложность решения задачи заключена именно в предмете лингвистики, т.е. за пределами программирования и до появления какой-либо формализованной логико-математической модели. И так повсюду, чего бы мы ни касались: для выработки удовлетворительной формы нужно проникнуться содержанием. Давайте и мы попытаемся понять, с чем сталкивается разработчик компьютерных программ с самого начала решения лингвистической задачи, какой путь он должен преодолеть перед тем, как создаст готовый программный продукт.

Любая семантика отдельной словесной частицы вытекает из общего смысла, который имеется у некоторой совокупности слов с этой частицей. Еще в младших классах средней школы нам рассказывают о назначении приставок пре-, при-, про-, по-, в-, на-, об-, раз-, рас-, у-, с-, со- через совокупности слов типа: превзойти, превыше, прелестный, прекрасно, превратить — переворотить, преградить — перегородить, предать — передать, пресечь — пересечь, перегнуть — пригнуть, передвинуть — придвинуть, претворить — притворить, приблизить, приоткрыть, просветить, продвинуть, проткнуть, просверлить, предбанник, предвзятый, предводитель, предгорье, предместье, поесть, постучать, поудить, вставить, ввинтить, вкрутить, взломать, взлететь, вскрикнуть, накрыть, налить, насыпать, обмять, обтесать, обработать, разнести, расплести, расставить, установить, укрепить, убавить, удалено, увеличено, уменьшено, скосить, смять, сломать, сокрушить, совладать, сомкнуть.

Там же в школе нам говорят о назначении суффиксов. Их нужно классифицировать, потому что впоследствии на основе этой классификации создаются специализированные базы данных. Хотя и безо всякой предварительно разработанной таксономии мы легко догадываемся, что суффикс -ик является уменьшительным: носик, домик, а суффикс -чк- — ласкательным: душечка, ласточка, весточка. При использовании языка мы не анализируем, подобно компьютеру, состав слов; суффиксы, сливаясь с контекстом всей фразы, непосредственно воздействуют на те отделы головного мозга, которые ответственны за эмоции. Так, в речи встречаются небольшие группы слов с определенными концовками, передающими отношение говорящего к субъекту или объекту высказывания: добродушное (гулена, сластена), недоброжелательное (меняла, подгоняла), незлобивое (верзила, громила, чудила, заводила, кутила, страшила). Компьютерная обработка эмоционально окрашенных слов всегда будет сопряжена с большими трудностями.

Продемонстрируем один из механизмов образования серии новых слов, которая, однако, имеет больше исключений, чем слов, составленных по правилам. Предположим, имеется масса чего-либо; из этого множества выделяется единица, в итоге получаем: град + одна (устар. едина) = градина, дробь — дробина, жемчуг — жемчужина, изюм — изюмина, морковь — морковина, рыба — рыбина, солома — соломина, сугроб — сугробина, ухаб — ухабина. Существуют исключения: усы — усища. В единственном числе это слово не употребляется (усина), но употребляется во множественном числе (усищи); аналогично: деньги — деньжищи (в ед. числе деньжина или деньжища уже не говорят). Но вот мы находим слово той же структуры — гадина, которое выражает не просто единицу некой массы (гады), например, змей-гадюк, а еще и резко отрицательную характеристику. Существуют аналогичные негативные слова: жадина, уродина или образина. Здесь характеристика единичности уходит на второй план, а на первый выходит неприятное качество лингвистического объекта. Если бы свойство не было столь отрицательным, то последние слова можно было бы поставить рядом с качественными существительными, вызывающими у говорящего легкое удивление: громадина, холодина. Однако, поставив рядом такие слова, как виноградина и година, картофелина и середина, чепуховина и низина, глубина и дружина, мякина и проталина, оскомина и скважина, родина и говядина, понимаешь, что одна и та же концовка (-ина) отнюдь не гарантирует содержательную однотипность слов. Звуковая гамма негативных слов гадина, жадина, уродина, образина ничем особенным не отличается от звуковой гаммы таких нейтральных слов, как зарубина, долина, ложбина, брюквина. Но зададимся вопросом, различаются ли в принципе по структуре и фонетическому составу «хорошие» и «плохие» слова или, более широко, высокий и низкий стили. Ответ будет таким: да, различаются, но не настолько, чтобы это различие можно было использовать для компьютерной обработки.

Большинство распространенных однослоговых слов нейтральны. Это слова, характеризующие: время (час, день, ночь, год, век), родственные отношения (сын, мать, дочь, брат, тесть, зять, сват), метеорологические явления (снег, дождь, шторм, гром, град), части лица (лоб, нос, рот), элементы ландшафта (луг, лес, степь) и т.п. Кроме того, существует большая нейтральная группа однослоговых глаголов (гнать, брать, дать, бить, вить). Однако в русском языке имеется следующая тенденция: чем короче слово, тем меньше в нем возвышенного и благозвучного, оно несет больше негативной энергии. Существует немало коротких слов-ругательств, при использовании которых можно заметно снизить художественные достоинства текста; вслушайтесь: тварь, рвань, брань, дрянь, дурь, врун, лгун, вонь, хряк, бзик, шиш. Добавление суффиксов и префиксов, а также использование сложных слов, как правило, облагораживает стиль изложения. Возьмем слова с приставкой без-, бес-, передающие нехватку чего-либо. Если отбросить слова, означающие прямую ущербность: безглазый, безголовый, бездомный, безмозглый, безногий, безрукий, безусый, а также сравнительно молодые словообразования: беспроволочный телеграф, бесплатный проезд, то многие эпитеты с этими приставками звучат вполне поэтично: безвременный, безмолвный, безмятежный, безраздельный, бескорыстный, бесподобный, беспредельный, бессмертный, бесстрастный.

Приставка от-, выполняющая самые различные функции, тоже редко снижает уровень стиля, особенно когда она встречается в старых словах. Современное слово советского периода отщепенец, образованное от нейтрального щепа, передает удручающее содержание. Среди старых церковно-славянских слов, писавшихся через специальную букву от, таких слов, пожалуй, не найти: отблагодарить, отважный, отверженный, отвращение, отдохновение, отживший, откланяться, открещиваться, откровение, отлаженный, отличиться, отмежеваться, отмщение, отобрание, отпевание, отписать, отплатить, отпраздновать, отрада, отстроенный, отчаяние, отчужденный, отшатнуться.

Хорошо известна возвышающая роль приставки воз-, вос-: возвысить, возглавить, воздвигнуть, возместить, вознести, воспеть, воспрянуть, воссиять, восславить, воссоздать, восхвалять, восхищать. Обе указанные приставки в некоторых случаях могут быть заменены на приставки из-, ис- с заметным увеличением элементов обыденности: возвести — извести, возвещать — извещать, возводить — изводить, возвращать — извращать, воздать — издать, воздыхать — издыхать, восполнять — исполнять, восторгать — исторгать. То же самое может произойти при замене воз- на вы-: нация возрождается — нация вырождается, вознести до небес — вынести мусор. Однако глаголы с приставками из-, ис-, как правило, относятся к более высокому стилю, чем с приставкой вы-. Большую роль играет, конечно, ближайшее словесное обрамление:


испить чашу долготерпения — выпить рюмку водки,
испустить дух — выпустить пар,
испросить разрешения — выпросить подачку,
исполнить долг — выполнить работу,
иссушить сердце — высушить белье,
искупить вину — выкупить лошадь,
изучить философию — выучить урок,
изукрасить узорами — выкрасить забор,
изложить требования — выложить товар,
издавать книги — выдавать деньги,
изгонять врагов — выгонять скотину,
извести себя — вывести пятно
.

От глаголов могут быть образованы другие части речи, например: изломанная судьба — выломанная дверь; или, без противопоставления: искоренение, избранник, выкормыш, выкидыш, выгон. Словам излучать, изнывать, изобличать, изображать, изобретать, изрекать нельзя противопоставить слова с приставкой вы-; то же самое, но уже с приставкой ис-: вывесить, выскочить, выстричь, высыпать, вытравить. Существуют глаголы с приставкой из- и ис- довольно низкого уровня: изгадить, испоганить, испохабить, которые, однако, используются культурными людьми с высоким чутьем на языковую ситуацию, поэтому они не звучат грубо. Есть масса слов, не различимых по стилю: избирать — выбирать, изгибать — выгибать, исписать — выписать, исколоть — выколоть, исколотить — выколотить. Для корней этих слов компьютерный переводчик может с одинаковым успехом присоединять префикс вы-, из- или ис-. Тем не менее, слова с приставкой вы-, которых насчитывается около 2500, выглядят менее привлекательно, чем слова с приставкой из-, ис-, которых примерно в полтора раза меньше. Должен ли разработчик компьютерных программ ориентироваться на этот факт? Да, должен, когда определяет шкалу ранжирования слов. Например, при переводе текста компьютер может отдать предпочтение словосочетанию выбирать депутата перед избирать депутата, если по соседству, в переведенном абзаце уже использовались слова выбирать, выборы или близкие по звучанию; из фонетических соображений здесь лучше остановиться на словосочетании избирать депутата.

Наряду с префиксами в словообразовании широко используются слова-приставки: велико-, все-, добро-, досто-, живо-; они дают, например, такие благозвучия: великодушный, великомученический, всеблагой, всеведущий, всевышний, добродетельный, достопочтенный, добросердечный, достославный, живописный, животворный, жизнестойкий, жизнеутверждающий. К подобным же превосходным словоформам относятся: красноречивый, лучезарный, миролюбивый, общепризнанный, первозданный, первопрестольный, светозарный, священнодейственный, сердобольный. Подобные слова, передающие высокое содержание, возникали, видимо, в церковно-приходской среде, путем составления сложных слов. Рассмотрим пример из ряда слов, первой частью которых служит звучное слово благо: благоверный, благоволить, благоговейный, благодарственное, благодетель, благополучие, благоразумие, благородство, благословенный, благотворный, благоуханный, благочестие.

Благо — южнославянское редуцированное слово; северославянское слово с полнозвучным -оло- сохранилось только в географическом названии Бологое. Красивые слова, например, со словом болото, конечно, составить невозможно. Но если берутся такие, как злато и золото, то на первом слове построены прекрасные эпитеты: златовласый и златоглавая. На втором слове тоже можно построить аналогичные словоформы: золотоволосый и золотоголовый, но при этом потерять поэзию звука. Здесь золото уже не поэтический образ, а скорее технический термин, пригодный разве что для образования более чем прозаических выражений типа золотовалютный коридор, золотодобытчик, золотоносная жила, золотопромышленность, золотосодержащая руда.

Обратите внимание: слова здравый и здравомыслящий обозначают крепость ума, а слова здоровый, здоровенный, здоровёхонький, здоровёшенький всегда относятся к более приземленному — телу. Издревле на Руси использовали сладкие корешки травы под называнием солодка, однако же существует превосходное поэтическое слово сладострастный, но не солодострасный; есть сладкогласие, но нет солодкоголосие. Сравните два выражения: драгоценный дар и дорогостоящие огурцы, и вы поймете роль южнославянского говора в формировании русского языка; первое словосочетание украсит хорошее лирическое стихотворение, второе годно лишь для торгово-хозяйственного отчета.

Замечено, что две конкурирующие в окончаниях шипящие щ и ч распределены неравномерно как по территориальному срезу, так и по временному. Исторически сложилось так, что первая буква чаще использовалась южными славянами, вторая — северными: южане говорили нощь вместо ночь и свеща вместо свеча. Грамота пошла с юга России, поэтому, например, слов, оканчивающихся на -чина, получилось несколько меньше, чем на -щина, причем на -чина оканчиваются только те слова, основа которых заканчивалась на -к, т.е. мы имеем дело с вынужденным чередованием букв к/ч: бок — обочина, бык — бычина, лик — личина, мужик — мужичина, поперёк — поперечина, щека — пощёчина, дурак — дурачина. Основная же масса (свыше сотни) подобных слов приходится на окончание -щина; вот некоторые из них: барщина, безотцовщина, бесовщина, боярщина, годовщина, дармовщина, деревенщина, женщина, морщина, община, трещина. Есть в этом списке множество слов, передающих резко отрицательное содержание. Однако негативный элемент в эти слова привносится не шипящей фонемой -щ-, как в словах чертовщина и матерщина, а концовкой –ина; сравните: блевотина, гадина, детина, дубина, жадина, идиотина, орясина, пошлятина, скотина, тухлятина. Звук щ, контрастирующий на фоне нешипящих фонем, выполняет функцию соединительного звена. Когда основа заканчивается на к, соединительное звено в виде буквы ч появляется самопроизвольно; вставка буквы щ здесь уже не требуется.

Существует большая группа прилагательных с концовкой -чный, -чий, в которых ч также появилась из-за присутствия букв к или ц: вечный, двоичный, догматичный, заячий, личный, логичный, млечный, облачный, птичий, табачный, частичный. Встречаются и парные прилагательные, создающие проблему выбора для переводчика: бродячий и бродящий, вечный и вещный, висячий и висящий, горячий и горящий, живучий и живущий, колючий и колющий, лежачий и лежащий, могучий и могущий, ползучий и ползущий, трясучий и трясущий. Звуки щ и ч с эстетической точки зрения, конечно, неразличимы, хотя через букву ч нередко проскальзывает просторечие: висящий крест и висячий хвост, горящий огонь и горячий пирог, ныне живущие и живучая кошка, стоящий храм и стоячее болото, сущая истина и сучий сын. Перевести могучий Бог будет неправильно, нужно выбрать всемогущий Бог. Однако утверждать, что выражение гудящий колокол имеет высокий стиль, а поросячий визг — низкий только из-за того, что в первом выражении фигурирует буква щ, а во втором — ч, было бы, видимо, преувеличением.

Ясно, что подобные вопросы нельзя решать единичным примером, здесь требуется провести серьезный статистический анализ, прежде чем создавать базу данных для компьютерных переводчиков. Разработчик программ должен знать, что зарождение письменности в Болгарии и Македонии сказалось на формировании русского языка таким образом, что юго-западная буква щ в современном языке принимает более активное участие в процессе словообразования, чем северо-западная ч. В частности, слов, оканчивающихся на -щий (свыше 400), примерно в два раза больше, чем на -чий, причем слова на -щий, передают более возвышенное содержание, их произносят на торжествах или при других случаях, внушающих слушателям уважение. Напротив, слова, оканчивающиеся на -чий, относятся к предметам обыденным и ничтожным. Этот историко-лингвистический факт нужно учесть при ранжировании базы данных переводчика на русский язык. Нужно помнить, что правильно проведенное ранжирование есть залог успеха для любого компьютерного переводчика. Если говорить коротко, именно ранжирование слов по приоритетному их использованию является центральной проблемой трансляции текста с одного языка на другой.

Мы уже говорили о сложных словах, когда один из их компонентов ассоциируется с чем-то торжественным или священным для людей, говорящих на данном языке. Но эмоциональную окраску слова может изменить самое незатейливое и короткое окончание, которое даже трудно различить на слух. Однако неумолимая статистика использования слов свидетельствует, что, например, едва заметная разница во флексии -ие и –ье, делает слова либо более, либо менее сладкозвучными, а именно, окончание -ие несколько более одухотворенно, чем -ье. Наиболее грубые слова имеют окончание даже не -ье, а -ьё. Их немного: бабьё, вороньё, ворьё, враньё, вытьё, гнильё, дурачьё, жильё, житьё-бытьё, жраньё, жульё, зверьё, комарьё, мужичьё, нытьё, офицерьё, рваньё, старьё, тряпьё, хамьё, хулиганьё, шитьё. Многие слова, оканчивающиеся на -ье, можно закончить и на -ие, например, слова чиханье и купанье безболезненно заменяются на чихание и купание, однако уже труднее написать бабье хихиканье, сучье тявканье через -ие. Общая статистика русских слов говорит о том, что слова с -ье на конце более грубы, вульгарны и примитивны (их насчитывается до 300). Слов, оканчивающихся на -ие, гораздо больше, чем на -ье (их около 4000); отличаются они возвышенностью и глубокой содержательностью: безбрежие, бескорыстие, благолепие, бытие, всесилие, деяние, доверие, Евангелие, единобожие, милосердие, обаяние, отягощение, очищение, пение, переживание, покаяние, смущение, увещевание, ухаживание, целомудрие. Зная эту закономерность, из двух выражений Божие царствие и Божье царство, вы всегда выберете первое, если не хотите оскорбить слух верующего.

Таким образом, учитывая законы функционирования слов, статистику их использования и некоторые историко-лингвистические факты, можно разработать вполне работоспособную программу для перевода текстов. Такие программы уже существуют, хотя реклама их часто осуществляется на демонстрационных примерах специально подобранных текстов, не представляющих серьезной проблемы для языкового перевода. Вышерассмотренные лингвистические трудности сильно ограничивают использование компьютеров при переводе высокохудожественных текстов на другие языки мира. Утрата эмоциональной окраски слов практически неизбежна; на полноценный художественный перевод машина вряд ли способна. Слишком затруднена алгоритмическая генерация слов и автоматический поиск различных словоформ по свободным матрицам, определяющим состав предложений. Порядок слов в русском языке, по сравнению с английским, особенно слабо детерминирован.

В связи с этим разработчики программных продуктов пошли по пути специализации переводчиков. Прежде чем перевести текст, пользователь компьютерного переводчика должен отнести его к одной из категорий: медицинской, математической т.д. Но узкие специалисты, как показывает практика использования переводчиков, профессионалы в избранной области редко прибегают к помощи компьютера, так как они легко научаются самостоятельно читать специализированные тексты, написанные на иностранном языке. Компьютерными переводчиками обычно пользуются посетители культурно-развлекательных, общеобразовательных, спортивных и политических сайтов общедоступного назначения, принадлежащих серверам Всемирной паутины, которые размещены на территориях Америки и Европы. А раз так, нужны компьютерные переводчики и общего назначения, рассчитанные на неподготовленного пользователя. Это, в свою очередь, возвращает нас ко всем тем языковым проблемам, о которых было сказано выше.


 
  


Hosted by uCoz