СТРУКТУРЫ ЯЗЫКА
СТРУКТУРЫ ЯЗЫКА
Формальным моделям синтаксических структур естественного языка уделяется значительное внимание в современной проблематике систем искусственного интеллекта и компьютерной лингвистики. Это связано с необходимостью создания действенных программ генерации и анализа предложений естественного языка в экспертных и информационных системах, во многих системах управления и принятия решений, в перспективных ЭВМ будущих поколений. Сейчас уже ясно, что любое продвижение в этой области влечет прогресс в понимании эволюционного процесса развития языка и мышления человека.
Самая значительная структурная текстовая и коммуникативная единица — предложение. На неточном уровне основные синтаксические конструкции предложений описываются в классических схемах грамматики языка, восходящих к периоду античности и мало изменившихся к настоящему времени. Но до сих пор нет полной ясности в определении предложения. Большой вклад в развитие этого понятия внесли отечественные лингвисты — А. А. Потебня, М. Н. Петерсон, Л. В. Щерба, А. М. Пешковский, Ф. Ф. Фортунатов, А. А. Шахматов, В. В, Виноградов, Н. Ю. Шведова, А. В. Гладкий и др. Почти все соглашались, что предложение выражает законченную мысль. С этой точки зрения критике подверглось понятие придаточного предложения — оно «выражает мысль» только внутри единого сложного предложения и поэтому его нельзя рассматривать как предложение (М. Н. Петерсон, Н. С. Поспелов). Некоторые считали, что понятие «мысль» еще более туманно, чем предложение». Поэтому подвергалось критике как неформальное определение предложения через законченную мысль. Потебня в 70-е годы прошлого века отмечал необходимость наличия главного глагола в предложении. Особенно ярко это проявляется в арийских языках. В славянских выпадение глаголов из некоторых конструкций объяснялось историческими изменениями языка. Считалось, что в праисторические времена такие глаголы должны были присутствовать. Эта концепция также критиковалась как непроверяемая на практике. Пешковский в первой половине нашего века вернулся к концепции «законченной мысли». Он высказал идею о подчинении одних частей предложения другим. Ученый признавал главным членом предложения подлежащее, а сказуемое оказывалось подчиненным словом, хотя он и отмечал, что сказуемое — самое главное слово для выражения процесса мысли. Самое главное слово оказалось подчиненным! Не в силах справиться с этим противоречием, он объявил, что здесь проявляется антиномия основ языка, Виноградов акцентировал внимание на так называемой предикативной связи, объединяющей подлежащее и сказуемое в предикативное ядро. Тезис о единице мышления положил в основу определения предложения и Шахматов. Он считал, что такой единицей не может быть логическое суждение, являющееся утверждением или отрицанием чего-нибудь. За единицу мышления он принимает «психологическую коммуникацию». Отталкиваясь от идей Пешковского, в последние годы значительное развитие получила концепция управляющей связи слов и словосочетаний внутри предложения. Тонкие отношения управления между словами изучаются в известных лингвистических моделях деревьев подчинения и систем составляющих, появившихся в 50-е годы нашего столетия. На этих двух последних моделях остановимся дальше более подробно.
Очевидное достоинство всех перечисленных моделей — их правильность — адекватное отражение тех или иных специфических характеристик синтаксической структуры текста. Однако ни одна из этих моделей еще не была использована для создания каких- либо действующих систем общения с ЭВМ на естественном языке. Модель деревьев подчинения ориентирована на управляющие связи только по словам, а модель систем составляющих учитывает только иерархическое отношение вложенности словосочетаний в линейной структуре текста. Эти факторы лишь приближенно описывают действительные коммуникативные свойства, содержащиеся в синтаксических структурах текста. Поэтому ученые предприняли попытки построения моделей, обобщающих средства деревьев подчинения и систем составляющих. Так, А. С. Нариньяни, исходя из задач практического программирования систем, взаимодействующих с использователем на естественном языке, предложил модель системы компонент. В этой модели структура предложения описывается в виде системы синтаксических компонентов, связанных отношениями правления и примыкания. Допускаются разрывность и пересечения компонент. Гладкий разработал концепцию синтаксических групп. Здесь наиболее явно подчеркивается важность учета управляющих связей между группами слов, образующих цельный синтаксический объект в структуре предложения. Таким образом, уточнение моделей синтаксических структур идет от уточнения управляющих связей между словами и словосочетаниями к уточнению связей между группами синтаксических единиц. При этом с неизбежностью происходит перемещение точки рассмотрения синтаксических структур из линейного порядка, навязанного последовательностью записи текста, к сложному пространству, образованному синтаксически связанными группами объектов. В пределе (оставаясь в рамках синтаксиса) приходим к пространству представления, не зависящему от порядка записи текста, а значит, и от национального языка, выражающему все предикативные и определяющие отношения, содержащиеся в синтаксических структурах. Это пространство, названное управляющим, образует полную синтаксическую структуру предложения и является рекурсивно-топологическим выражением того процесса, который называется мыслью. В отличие от чисто лингвистического подхода предложение рассматривается как некоторый динамический вычислительный рекурсивный процесс, развивающийся в управляющем пространстве, связывающем синтаксически сгруппированные части предложения информационными каналами. Структура управляющего пространства отражает семантику определяющих и предикативных конструкций языка. Неожиданным оказалось то, что управляющие пространства подобного вида уже рассматривались как вычислительная модель для рекурсивно-параллельных процессов. Это уже упоминавшиеся ПАРУС-структуры. В формальном аспекте предлагаемая модель — это одновременное обобщение деревьев подчинения и систем составляющих, а также других упоминаемых ранее моделей. Реализация этой модели ориентирована на ПАРУС-системы программирования, поддерживающие концепцию рекурсивно-параллельного программирования в управляющих пространствах. При изложении мы ограничиваемся концептуальным уровнем. Подробности и уточнения конкретных деталей выходят за пределы книги.
Деревья подчинения, системы составляющих и синтаксических групп. Ограничимся неформальными определениями.
Считается, что в предложении слово и управляет словом v (v подчинено и), если v выступает непосредственным уточнением (комментарием) слова и. Такую зависимость изображают ориентированной дугой, направленной от слова и к v. Сказуемое — главное в предложении, остальные слова всегда имеют непосредственных «хозяев». Отношение непосредственного подчинения слов образует дерево подчинения предложения. При графическом изображении таких деревьев обычно учитывают порядок слов самого предложения, т. е. соотносят само дерево подчинения с его отображением в линейную запись (рис. 15). В терминах деревьев подчинения можно успешно выражать многие стилистические характеристики текстов.[114]
Рис. 15. Варианты дерева зависимостей предложения
Какой-то тайный смысл был в этих знаках.
2
3
Другая известная модель, отражая иерархическую структуру частей предложения, — системы составляющих. Их удобно задавать в виде скобочной структуры. В скобки заключают синтаксически связные словосочетания. Например,
(Онегин, (добрый(мой приятель))), (родился(на (брегах Невы))).
Очевидно, рассмотренные модели дают важную информацию о синтаксической структуре предложения. Однако у обеих есть существенные недостатки. Деревья подчинения не учитывают связей между словосочетаниями и синтаксически целостными группами слов. В сложных предложениях группы слов могут служить для уточнения одного слова или другой группы слов, что затруднительно выразить связями деревьев подчинения. Системы составляющих игнорируют направленные связи. Кроме того, они не позволяют описывать разрывные словосочетания. Поэтому ни одна из моделей не дает полного представления о синтаксической структуре предложения. Отталкиваясь от такой критики, Гладкий предложил более общую модель, названную им системой синтаксических групп и6. Синтаксическая группа — это подмножество слов (часть текста), связанных согласно определенному критерию. Между синтаксическими группами устанавливается отношение непосредственного подчинения. Деревья подчинения и системы составляющих могут быть интерпретированы как некоторые разные виды синтаксических групп. Разложение предложения на синтаксические группы неоднозначно и зависит от выбора критерия объединения слов в синтаксическую группу. Гладкий рассмотрел ряд критериев получения синтаксических групп.[115]
Алгоритмическая модель предложения (модель охотника и жертвы). Мы пытаемся построить модель, максимально приближенную к реальной синтаксической структуре предложения. Предварительно сделаем несколько замечаний, касающихся будущей модели.
Деревья подчинения и системы составляющих, несмотря на недостатки, отличаются и достоинством: они адекватно отражают существенные свойства синтаксической структуры предложения. Поэтому модель, которую необходимо разработать, должна давать одновременно информацию, содержащуюся и в деревьях подчинения, и в системах составляющих.
Кроме того, что язык дает имена объектам окружающего мира, он обладает фундаментальным свойством выражать динамические отношения, в которые вступают объекты. Например, глагол связывает в отношение объекты, участвующие в схеме его действия, прилагательное задает отношение объекта с самим собой. Из синтаксической модели мы должны знать, какие части предложения связаны между собой через отношения и что это за отношения. Существуют всего два вида синтаксических отношений — предикативное и синтагматическое. Первое выражает зависимость между синтаксическими объектами через понятие, означающее действие и обычно выражаемое сказуемым. Синтагма — это сочетание двух синтаксических объектов, из которых один служит определением другого. Поэтому в разрабатываемой модели должны полностью выявляться именно эти виды отношений. Кроме того, в таком широком понимании синтагмы должны образовывать синтаксические группы.
Адекватная модель синтаксической структуры должна также отражать основополагающее свойство рекурсивности языка — способность развертывать собственные определения, т. е. давать уточнения, характеристики, комментарии к своим частям, а также строить определения определений. «Язык в себе самом содержит свой внутренний принцип развития».[116]
Отнесение подобных вопросов к сфере семантики неправомочно — они должны решаться на уровне синтаксической модели, так как проявляются на уровне общей схемы, не зависящей от смысла высказываний.
Предлагаемая ниже модель удовлетворяет всем перечисленным условиям.
Прежде всего о роли управляющих связей между словосочетаниями. Мы нарушаем традиционный лингвистический подход, при котором сказуемое считается главным членом предложения, от которого распространяются управляющие связи. Это идет от привычки считать имя функции более важным, чем ее аргументы. Для наших целей удобнее задавать синтаксические отношения связями генерации и передачи отношений. При этом достигается более точная характеристика управляющих связей, чем при традиционном подходе, где акцент делался только на связи подчинения. Пешковский был прав, считая подлежащее главным, но только необходимо было говорить о генерации отношения. Сказуемое тоже главное, но в другом аспекте — в выражении мысли.
Вспомним базовую схему первобытного мышления: охотник->действие->жертва. По этой схеме должны строиться простые предложения. Поэтому выделяем объекты-»охотники», генерирующие отношения и «набрасывающие» их на объекты-»жертвы». В сложных предложениях эта схема многократно рекурсивно повторяется. Анализ предложения сводится к выявлению членов предложений как персонажей рекурсивной «охоты».
Если два объекта, А и В, вступают в отношение С, мы выделяем объект (предположим, А), вызывающий (инициирующий, порождающий) это отношение, и объект, на который оно передается. Таким образом, выделяем два вида направленных связей: от объекта — генератора отношения — к отношению и от отношения к подчиненному объекту. Первый вид связи называем а-связью (связь генерирования), второй — Р-связью (связь распространения). Объекты А, В и отношение С размещаются в точках управляющего пространства, поэтому графическое представление отношения С, связывающего А и В, имеет вид, изображенный на рис. 16. Глаголы определяют отношения между объектами. Вот почему в стандартной схеме простого предложения «Существительное — глагол — существительное» а-связь направлена от первого существительного к глаголу, а р-связь — от глагола к существительному-определению. Рассмотрим пример. «Девочка собирает цветы». Объект девочка генерирует отношение собирает и направляет его на объект цветы. Рассмотрим фразу «Красивая девочка». Здесь объект девочка генерирует унарное отношение красивая и передает это отношение себе же (охотник охотится на себя) (рис. 17). Возникает кольцевая связь, характеризующая определения. Аналогично рассуждая, для фразы «Красивая девочка весело собирает цветы» получаем структуру, показанную на рис. 18. Для сравнения рассмотрим дерево зависимостей этого предложения (рис. 19). Замечаем, что структура, показанная на рис. 18, более информативна по сравнению с деревом подчинения. Разложение предложения по а — р-связи с учетом вложенности точек называем управляющим пространством предложения. Отношения — тоже объекты и могут вступать в отношения между собой (это и есть рекурсия). Поэтому а — p-структуры управляющего пространства распространяются и на сложные предложения.
Рис. 16. Объект А — «охотник» генерирует отношение С и направляет его на «жертву» — В
Рис. 17. Сложный объект с кольцевой связью
Таким образом, предложение имеет два варианта а — р-связей: строго линейную и замкнутую кольцевую зависимость. Первую называем линейной конструкцией, вторую — определением. В линейных конструкциях некоторые объекты могут отсутствовать. Поэтому допускаем наличие только одной а- или р-связи. Например, птицы летят. Здесь только одна а-связь, направленная от слова «птицы» к слову «летят».
Рис. 18. Структура управляющего пространства предложения
Красивая девочка весело собирает цветы
Рис. 19. Дерево зависимостей
В предложении «Улетают вдаль» выделяется одна р-связь. В подобных случаях иногда можно считать, что отсутствующая а- или р-связь соединяется с особым объектом «неопределенность». В линейной конструкции связываются отношением два объекта, хотя можно было бы допустить наличие конструкций с несколькими а- и р-связями через одно предикативное отношение. При построении управляющих пространств следует избегать таких ситуаций, хотя и это допустимо. Логика языка дает возможность обойтись только простыми линейными конструкциями и определениями. Например: «Он написал письмо брату». В этом предложении в предикативную связь вступают три объекта — он, письмо, брату. Поэтому можно было бы структуру VII этого предложения представить в линейном виде с одной а- и двумя р-связями. Но интуитивно осознается, что группа написал письмо сильнее связана, чем написал брату. В этом случае слово письмо выступает как некоторая уточняющая характеристика действия написал. Объекты Он и брату связаны предикативной конструкцией написал письмо. Поэтому более точная структура этого предложения имеет вид, изображенный на рис. 20. Семантически правильна также интерпретация этого предложения, при которой происходит связывание объектов Он и письмо через отношения написал брату (рис. 21).
«Он написал письмо брату:
Рис. 22. Еще один вариант управляющего пространства
Отличия в понимании этих двух интерпретаций находятся на уровне оттенков смысла и отражают способность мозга в динамике распознавать фразы. При анализе фразы «Он написал письмо брату» сначала распознается смысл фразы «Он написал письмо», затем добавляется новый объект для анализа — брату. Динамически меняется предикативное отношение, объединяя в одну группу написал и письмо, а затем новое отношение направляется на объект брату. Вторая интерпретация, при которой связываются в одну группу слова написал и брату, более адекватно фразе «Он написал брату письмо». Таким образом, при помощи управляющих пространств можно учитывать достаточно тонкие смысловые отличия, связанные с перестановочностью слов внутри фразы. Возможна также третья интерпретация, при которой в одну точку помещается группа письмо брату (рис. 22). В этом случае слово брату понимается как атрибутивная характеристика слова письмо. Кстати, построение деревьев подчинения также не всегда однозначно.
Таким образом, управляющее пространство предложения строится как система вложенных структур, состоящих из точек с а — р-связями между ними и содержащих внутри себя части предложений, образующих определения или линейные конструкции. Структура управляющих пространств отражает фундаментальное свойство языка порождать отношения и распространять их на соответствующие элементы.
Управляющие связи деревьев подчинения автоматически восстанавливаются из структуры а — (J-связей. Структура управляющего пространства дает более тонкую классификацию управляющим связям.
В предложениях без нарушений свойства проективности (т. е. без пересечения определений разных элементов) элементы, вложенные в точку, образуют систему составляющих. В этом смысле структура управляющее пространство одновременно обобщает и деревья подчинения, и системы составляющих. Также ясно, что управляющее пространство учитывает разрывные словосочетания, а слова, входящие в одну точку, образуют синтаксическую группу в смысле Гладкого.
Управляющее пространство предложения не связано с его последовательным порядком записи и отражает только семантику порождения и передачи отношений. Значит, структура управляющего пространства не зависит от конкретного языка и только ее трансляция в линейную запись определяется синтаксисом конкретного языка. Поэтому управляющие пространства являются хорошим кандидатом на промежуточную форму представления в системах автоматического перевода.
Заметим, что рассмотрение линейных конструкций и определений для представления синтаксических структур традиционно в лингвистических исследованиях. В том или ином ограниченном виде они часто встречаются в литературе: предикаты и синтагмы в классической лингвистике, управление и примыкание, актантное и атрибутивное отношения, отношения в ПРОЛОГ-системах обработки естественного языка. Выразительные средства модели управляющих пространств дают новую наглядную характеристику этим отношениям, учитывают управляющие и иерархические связи между группами словосочетаний и, кроме того, ориентированы иа конкретную технологию рекурсивно-параллельного программирования.
При обработке синтаксических структур естественного языка возникают две основные задачи — анализ и синтез. Задача анализа — по линейной записи текста построить соответствующее управляющее пространство, задача синтеза — по управляющему пространству построить соответствующую линейную последовательность связного текста. Вторая задача, вообще говоря, проще. При отображении линейной зависимости в текст алгоритм синтеза следует последовательности а — р-связей. При синтезе текста из определений алгоритм сначала решает вопрос, что выдается раньше — определяемый объект или его уточнение. Затем происходит выдача текста из соответствующих конструкций, образующих определение. В алгоритме анализа идет многократная свертка определений и выделение линейных зависимостей.
В программной реализации модели управляющих пространств предложений а — (J-связи реализуются как каналы в ПАРУС-системе программирования. В точках размещаются алгоритмические модули, задающие слова, их характеристики и связь с семантическими базами. По а — (J-каналам осуществляется необходимый обмен информацией для выбора необходимой синтаксически правильной формы частей речи. Разрабатывается экспериментальная версия генерации и анализа предложений русского языка. Отметим, что ПАРУС-технология ориентирована на применение в высокопроизводительных параллельных вычислительных комплексах. Поэтому предлагаемый подход допускает эффективную параллельную реализацию.
Интересна реализация управляющих пространств человеческим мозгом. Нейроны легко соединяются в переплетенные ансамбли, образуя сложные иерархические комплексы. В такой структуре нервное возбуждение может передаваться однонаправленно. Это соответствует реализации линейных а — (J-связей. Нейроны также способны образовывать замкнутые кольцевые реверберирующие цепи, в которых может долго, без затухания циркулировать электрический сигнал. На этом принципе основана кратковременная память. Как раз циклические цепи и нужны для образования замкнутых а — р-циклов. Таким образом, мозг может топологически, один к одному, моделировать управляющие пространства и строить причудливые картины мысли.
В мозге есть две особые речевые зоны — Брока и Вернике. У большинства людей обе они расположены в левом полушарии. Зона Вернике отвечает за сопоставление слов образам. Она работает с семантическими сетями памяти и отвечает за построение управляющего пространства, что соответствует пониманию речи. Зона Вернике связана дугообразным пучком волокон с зоной Брока. Последняя отвечает за анализ и синтез грамматических схем. В зоне Брока управляющее пространство транслируется в линейные последовательности речевых предложений. Эти принципы могут лечь в основу схемы нейрокомпьютера, понимающего речь.
Управляющие пространства можно использовать для получения стилистических характеристик отдельных текстов и авторов. Например, в предложении можно просчитывать количество циклических а — р-цепей, линейных соединений, глубину вложенности определений, вложенность по линейным конструкциям, другие особенности строения управляющего пространства предложений. Интересные функциональные характеристики стиля дает линейная конфигурация текста, построенная по VII. В этом случае текст графически изображается колебательной структурой, отражающей иерархию подчиненных предложений.
В отличие от классической стилеметрии, где ведется статистический учет только линейных параметров текста — частота появления тех или иных частиц, слов, междометий и т. д., в рассматриваемом случае учитывается топология мысли, ярко выражающая индивидуальные особенности мышления. Вот несколько характерных предложений В. Набокова из автобиографической прозы «Другие берега».
1. «Снег — настоящий на ощупь; и когда наклоняюсь, чтобы набрать его в горсть, полвека жизни рассыпается морозной пылью у меня между пальцев».
2. «От морского ветра губы становились солеными: пляж трепетал как цветник, и безумно быстро через него проносилась залетная бабочка, оранжевая с черной каймой».
3. «Люди неумные, с большими способностями к математике, лихо добираются до тайных сил природы, которые кроткие, в ореоле седин, и тоже не очень далекие физики предсказали (к тайному своему удивлению)».
4. «В чистоте и пустоте незнакомого часа тени лежали с непривычной стороны, получалась полная перестановка, не лишенная некоторого изящества, вроде того, как отражается в зеркале у парикмахера отрезок панели с бесконечными прохожими, уходящими в отвлеченный мир, — который вдруг перестает быть забавным и обдает душу волною ужаса».[117]
Это характерный набоковский стиль — раскрашенные стеклянные шарики на рождественской елке в далеком детстве (рис. 23, 24). Этот стиль можно выразить в числах. У Набокова велика частота простых уточняемых словосочетаний. Он мастер составления расцвеченных текстов. Интересно, как сам он охарактеризовал модель своей жизни: «Цветная спираль в стеклянном шарике — вот модель моей жизни».[118]
Разворачивание управляющего пространства в линейную последовательность текста в разных языках может выполняться по разным критериям. В английском консервативный прямой порядок слов, в японском текст читается справа налево, вначале сказуемое, затем подлежащее и дополнение, в русском, наиболее свободном, допустимы перестановки.
Управляющее пространство — универсальный способ представления языка. В любой среде обитания разума, где есть неделимые действия и уточнения понятий, возникает такое пространство представления языка. Даже язык инопланетян должен иметь подобную графическую структуру.
Язык, появившийся когда-то как слабая прозрачная оболочка вещей, как неясная тень вечных движений, завершил полный цикл развития и вступил в сферу самостоятельного бытия. Сбылось то, что предсказывали мудрецы. Новые космические смерчи рекурсии, зарождающиеся в недрах языка, потрясают мир. Язык раскрывает свои универсальные схемы, и электронные существа уже примеривают эти структуры к своему бытию. Искусственный интеллект из далекой мечты превращается в неизбежную реальность. И может быть, человек — только разрыв в порядке вещей, только переходный этап на пути к возникновению этой новой реальности.
Рис. 23. Управляющее пространство предложения 1
Рис. 24. Управляющее пространство предложения 4
«Разумеется, вера в превосходство человека является традиционной. Когда-то наша Земля считалась центром Вселенной, сегодня это всего лишь одна из планет. Когда-то нам приписывалось божественное происхождение, сегодня ряд людей считает, что это результат удачного стечения обстоятельств в развитии приматов. Когда-то наш разум был вне конкуренции, но, возможно, придет день, когда вычислительные машины будут смеяться над ними и задавать вопрос о том, могут ли биологические информационные процессоры быть достаточно разумными. Осторожно относитесь к тем, кто думает, что этого никогда не случится. Предки этих людей преследовали Галилея и высмеивали Дарвина».[119]