2.4 Технологии прогнозирования

Вне зависимости от избранного пути, на том или ином этапе выбора, основанного на сопоставлении показателей эффективности, полезности или риска приходится возвращаться к решению проблемы обоснования предпочтений, что невозможно сделать без учета поставленных целей, сложившейся обстановки и прогноза на будущее.

При создании и обосновании концепций и детализированных планов их авторы часто ошибочно используют метод исторической аналогии, заменяя процедуру прогнозирования простым переносом исторических прецедентов на современную ситуацию. Безусловно, исторический опыт при взвешенном подходе к его использованию представляет собой большую ценность, однако в крайних формах его привлечения таит немалые опасности. Любая концепция, план или программа создается для исполнения в конкретном историческом контексте — будь то концепция политической, социальной или экономической реформы, рассчитанная на реализацию в масштабах государства или концепция реорганизации деловых процессов в бизнесе. Очень часто использование исторического опыта в современных условиях в принципе не способно дать ожидаемый результат, либо повлечет за собой всю ту массу негативных процессов, которые предполагалось миновать в надежде на иной уровень развития общественных институтов и гражданского самосознания. Так, например, слепое копирование опыта экономических реформ Запада в условиях России потерпело неудачу, а точнее — породило те же проблемы, которые были характерны для США времен «дикого Запада». Особо тяжелые формы эти «болезни роста» приобрели на фоне резкого снижения эффективности управления, вызванного поспешными политическими реформами. Впрочем, другая крайность, проявляющаяся в полном игнорировании исторического опыта едва ли лучше (отечественная история полна примеров решений в духе фразы «не вызревают финики, так попробуем с ананасами»).

Грамотное построение системы информационно-аналитической деятельности в любой структуре предполагает прогнозирование, как важнейшую составную часть аналитики. Прогнозирование тесно связано со стратегическим планированием, анализом показателей потребления и темпов прироста стратегических ресурсов и расчетом рисков.

Функция прогнозирования состоит в выработке предположений относительно состояния или тенденций изменения объектов или систем. Процесс синтеза прогноза тесно связан с анализом динамики различных показателей функционирования организации и характера воздействия на нее различных внешних и внутренних факторов.

Весьма характерным для современности заблуждением является смешивание понятий прогнозирования и планирования. Заметим: прогнозирование и планирование используют различный аппарат и используются на разных этапах и в отношении различных сущностей. Планирование, как таковое, уже предполагает наличие прогноза (т. е. системы предположений относительно будущего), на основе чего формируются намерения или управляющие воздействия.

Прогнозирование — это процесс синтеза знаний о будущем состоянии системы или объекта прогнозирования на основе I обобщенных знаний (моделей), полученных ранее об этой системе или ее аналогах, и конкретных знаний о текущем состоянии системы. Можно воспользоваться и иным определением: прогнозирование — это научное предсказание каких-либо событий, процессов и явлений. Научность в последнем определении подчеркивается неслучайно — гадание к прогнозированию отношения не имеет (за исключением тех случаев, когда оно выступает для придания убедительности научно обоснованным выводам).

Действительно, на ранних этапах развития человеческого общества логическим доводам верили и того меньше, чем сейчас — эмоциональное начало (в большей степени соответствовавшее древним формам сознания) в человеке всегда доминировало над интеллектуальным (этим активно пользуются специалисты в области рекламы и PR). Как это ни печально, но и сегодня многим политологам, чтобы быть услышанными лицами, принимающими решения (или широкой аудиторией), приходится рядиться под астрологов и звездочетов — зачастую, на пути к вершинам власти люди утрачивают рациональное мышление. Вероятно, что потеря доверия к рациональной аргументации вызвана низким качеством ранее потреблявшихся прогнозов или низкой результативности собственных логических выкладок… Правда, иногда задаешь себе вопрос: а может, они исходно рациональным мышлением не располагают? — Отсюда и экзотические консультанты — доктора оккультных наук, магистры белой и черной магии, Распутины и прочая, прочая, прочая…

Однако к каким бы аргументам человек не прислушивался, он постоянно прогнозирует последствия своих решений, действий. Другое дело, что способности к прогностической деятельности у разных людей могут быть развиты в большей или меньшей мере, но главное, что они все-таки есть (как-никак, предвидение — основа построения любой активной защиты). В большинстве житейских ситуаций прогнозирование носит эвристический, неформальный характер. Результаты такого прогнозирования фиксируются только в памяти человека, а процесс в большинстве случаев является фоновым, протекает на уровне автоматизма. Иными словами, в бытовых ситуациях процесс этот не выделен в особый вид деятельности.

Однако, очевидно, что этот природный дар человека может быть усилен в результате разработки и применения формальных методов прогнозирования. Применение этих методов позволяет добиться более высокой точности прогноза за счет:

— вовлечения в процесс анализа большего массива исходных данных;

— осознанного и целенаправленного анализа причинно-следственных связей в реальных процессах;

— рассмотрения большего числа гипотез о вариантах развития ситуаций и путей их достижения целей;

— проведения расчетов на больший период упреждения;

— повышения точности и достоверности расчетов за счет испытаний на моделях и др.

Можно утверждать, что с процедурной точки зрения прогнозирование представляет собой совокупность эффективных методик и приемов, выполнение которых в определенной последовательности позволяет обеспечить более высокое качество управленческих решений за счет проведения модельного эксперимента и синтеза оснований для применения формальнологических и математических методов для априорного оценивания качества решений.

Пропуск одного из элементов этой системы, изъятие отдельных этапов и процедур из целостного процесса прогнозирования, как правило, приводит к:

— снижению точности планирования;

— возникновению трудно обнаружимых логических ошибок;

— повышению риска принятия ошибочного решения.

Для более глубокого понимания сущности прогностической деятельности целесообразно рассмотреть классификацию методов прогнозирования.

Комплексный подход к прогнозированию

Как правило, практическое применение такой подход находит на высших уровнях управления. По масштабам решаемых задач ему соответствуют: страны, транснациональные корпорации, отрасли, регионы, холдинги, финансово-промышленные группы и иные сложные организационно-технические и социальные системы. Исторически сложилось так, что комплексный подход к прогнозированию впервые был применен в области военно-технического прогнозирования.

Сложность современных политико-экономических систем делает сложным или, вообще, невозможным их единообразное описание, а, следовательно, и прогнозирование их поведения с использованием только одного из вышеуказанных методов. При этом возникает необходимость в комплексировании различных методов прогнозирования.

Разработка комплексного метода прогнозирования для каждого конкретного случая ведется с учетом специфики прогнозируемой системы, объекта или процесса. При разработке комплексной системы прогнозирования к основным операциям следует отнести: определение состава и процедур сингулярных (единичных, частных) методов прогнозирования, которые будут входить в систему, и логических правил их объединения в систему.

В процессе прогнозирования частные методы используются в отношении тех компонентов целостной системы, поведение которой может быть корректно предсказано с применением того или иного частного метода. Однако, несмотря на внешние различия сложных систем, чье поведение прогнозируется, известные образцы комплексных систем прогнозирования достаточно близки по методологии построения.

Метод прогнозного графа. Комплексная система, построенная в соответствии с этим методом, реализует следующие процедуры:

— выделение из комплекса проблем совокупности, в отношении которой необходим прогноз;

— уточнение задачи и генеральной цели прогноза;

— стратификация системы (выделение совокупности объектов прогноза);

— исследование среды и ее влияния на систему, в отношении которой осуществляется прогнозирование;

— формулирование значимых для прогнозирования событий;

— классификация событий;

— исследование структуры и параметров системных связей целевой системы;

— анализ иерархии объектов и отношений;

— сбор данных, оценочных суждений, синтез гипотетических стратегий, в том числе, — с проведением анкетирования экспертов;

— синтез системы метрик (шкал оценивания и сопоставления единичных и комплексных параметров), позволяющей оценивать состояние системы;

— приведение собранных данных и оценочных суждений к созданной системе метрик;

— математическая обработка данных;

— количественная оценка;

— верификация полученных результатов.

Граф может быть построен с использованием методов эвристического прогнозирования, в частности, метода Дельфи. Сведение альтернативных прогностических графов к результирующему осуществляется в результате анализа их сходства и различий, исключения несущественных деталей. Эта операция может осуществляться в ходе многоэтапного опроса экспертов.

Методика Паттерн[78]. Данная методика была разработана в США в качестве средства поддержки принятия решений по важнейшим вопросам определения перспектив военного производства. Используется для обоснования прогнозов и планов посредством научно-технической оценки количественных данных. Принципы, заложенные в эту систему, позволяют осуществить прогноз и провести анализ данных в любой области деятельности. Рассматриваемая система позволяет:

— выбрать объект прогноза;

— выявить внутренние закономерности его развития;

— разработать сценарий;

— сформулировать задачи и генеральную цель прогноза;

— провести анализ иерархии и декомпозицию целей;

— принять внутреннюю и внешнюю структуры объекта прогнозирования;

— провести анкетирование;

— выполнить математическую обработку данных анкетного опроса;

— количественно оценить структуры;

— верифицировать результат;

— разработать алгоритм распределения ресурсов;

— провести распределение ресурсов;

— оценить распределение ресурсов.

Сравнение методов прогнозного графа и метода Паттерн показывает, что основное преимущество последнего состоит в наличии механизма реализации прогноза. Впрочем, это уже может быть отнесено к методам стратегического планирования. По сути, метод Паттерн представляется возможным назвать комбинацией методов прогнозирования и стратегического планирования.

Помимо приведенных методологических подходов существуют и иные, в большей или в меньшей степени ориентированные на привлечение экспертных оценок. Естественно, при отсутствии сведений о конкретных формах протекания процессов полагаться приходится на интуицию аналитика, его способность найти удачные аналогии и исторические прецеденты, выявить те наиболее общие черты, которые неизбежно должны проявиться в прогнозируемой ситуации. Едва ли имеет смысл создавать систему распознавания ситуации, наступление или повторение которой не является ожидаемым.

Несомненный интерес представляют методики теоретико-игрового моделирования поведения систем при условии введения системы ресурсных ограничений и совокупности базовых стратегий расходования этих ресурсов. В основе методик этого класса лежит процедура декомпозиции некоторой системы на совокупность элементов, поведение которых определяющим образом сказывается на поведении системы в целом. Одним из важнейших моментов при реализации такого подхода является то, что система полагается целенаправленной, а отдельные ее элементы полагаются заинтересованными в достижении некоторой конечной цели, которая определяется априори на основе экспертных методик. В ходе анализа для каждого такого элемента выявляется множество элементарных стратегий целенаправленного поведения, реализация которых принципиально возможна (без учета ограничений по ресурсам). Далее многообразие элементарных стратегий подвергается сокращению за счет отбрасывания тех стратегий, реализация которых невозможна при имеющих запасах ресурсов и существующей (или гипотетически возможной) схеме их распределения. Степень неопределенности поведения системы (или выбора поведения системы) поэтапно сокращается в результате решения оптимизационных задач. Разрабатывается множество стратегий с различным уровнем риска, относительно которых возможны некоторые вариации, не приводящие к принципиальным изменениям стратегии (в том числе, и стратегии потребления ресурсов). Далее проводится моделирование — чаще всего с использованием метода Монте-Карло, в ходе которого устанавливается степень устойчивости и повторяемости результата к изменениям обстановки в которой данные стратегии реализуются. В результате формулируются выводы о том, какая стратегия, скорее всего, будет избрана (если речь идет о внешней по отношению к аналитику системе) или какая стратегия должна быть избрана системой.

При использовании таких методов для прогнозирования поведения системы аналитику требуется выявить (или в случае проектирования — установить) систему приоритетов частных задач и те структурные особенности, которые определяют потенциал адаптации системы. Следует определить, какого рода и какой интенсивности внешние воздействия должна выдержать система, не претерпевая структурных и функциональных изменений, каковы ее ресурсные ограничения, каковы состав и мощность инструментальной подсистемы, предназначенной для решения задачи и массу иных параметров, выступающих в качестве ограничений при решении оптимизационной задачи.

Сейчас такие методы нашли свое применение и в сфере развлечений — достаточно вспомнить увлекательные стратегические компьютерные игры типа Evolution, WarLords и иные. Играя в эти игры, мы не задумываемся о тех сложных аналитических процедурах, которые осуществляет компьютер, играющий против нас. Правда, в некоторых играх компьютер не «думает», а лишь генерирует случайные события, то есть, реализует механизм испытаний по методу Монте-Карло тех стратегий, которые вырабатываются игроком. А ведь еще в 1960-е годы подобные игры многим казались фантастикой и о них не как об игрушках, а как о мощном инструменте мечтали политики и военные.

Ситуационный анализ

Ни один метод прогнозирования не может обеспечить требуемого качества без установления начального состояния системы, в отношении которой строится прогноз. В некоторых случаях, когда в качестве объекта прогностической деятельности выступают системы, обладающие высокой устойчивостью паттернов поведения (например, организационно-технические системы, в сильной степени зависящие от состояния технологической компоненты, средствами которой осуществляется ее деятельность), задача прогнозирования может быть сведена к задаче точного установления ее текущего состояния.

Отнюдь не ко всем системам такой подход может быть применен без ограничений. Поведение системы определяется не только ее текущим состоянием, но и множеством других факторов — факторов внешнего происхождения (по отношению к исследуемой системе). Именно здесь и следует обратиться к понятию ситуации. Когда говорят о ситуационном анализе, речь идет не просто о текущем состоянии системы, но и о ситуации, в которой она находится.

Попытаемся определить содержание понятия «ситуация». В большинстве корректных употреблений этого слова его семантика связана с тремя понятиями «субъект», «действие» и «условия». Ситуация для кого-то ситуация «складывается», кто-то «создал» ситуацию и так далее… В то же время, в состоянии может пребывать и субъект и объект… Более того, состоянием субъект может управлять практически неограниченно, а вот ситуацией — только опосредованно, через среду и других субъектов. Большинство словарей определяет слово «ситуация», ставя его в один ряд со словами «обстоятельства», «обстановка», подчеркивая тот факт, что ситуация — это нечто внешнее по отношению к субъекту. Что же получается?

Ситуация — это состояние системы более высокого порядка, нежели данная, рассматриваемая. В отношении последней приемлемо употребление термина «состояние». Состояние и ситуация имеют различный временной масштаб. Ситуация является более протяженной во времени, нежели состояние и, в общем случае, имеет довлеющий над состоянием характер.

Поэтому в связи с решением задачи прогнозирования следует говорить о задачах распознавания состояний (применительно к объекту прогноза) и ситуаций (применительно к системе более высокого уровня, определяющей поведенческие особенности объекта прогноза). Но поскольку ситуация — это тоже состояние, но только состояние системы более высокого уровня, для краткости мы будем употреблять словосочетание «распознавание состояния», не делая акцента на уровне системы. По содержанию эти процедуры очень близки и отличаются только носителем состояния.

Качество решения задачи распознавания определяется тем, насколько качественно решена задача формализации признаков и критериев распознавания, и построения системы эталонов. Поскольку нам не дано иной альтернативы для снижения размерности задачи, речь идет о построении дискретной картины мира (тех его фрагментов, знание состояния которых важно для решения задачи) в виде формальных признаков. Более того, специфика большинства методов ситуационного анализа заключается, прежде всего, в том, каким способом осуществляется формализация признаков, и их выделение из общего потока данных. Один из подходов к решению задачи распознавания ситуаций излагается ниже.

Ранее нами рассматривались различные способы представления и отображения данных (а значит, и способы задания эталонов для распознавания). Анализ кибернетического подхода к решению задачи распознавания образов позволил выдвинуть гипотезу о возможности применения технологии дискретного масштабирования образов, широко используемой в отношении графических объектов, к анализу ситуаций. Это становится возможным, поскольку ситуация с точки зрения кибернетики предстает в таком же дискретном виде, как и графические объекты при решении задачи распознавания. В отношении знаковых систем, с помощью которых человек выражает свои мысли, это утверждение тем более справедливо (знаки по своей природе дискретны). При распознавании графических образов достаточно широко используются методы прореживания точек в геометрическом пространстве. Когда же речь идет о распознавании ситуации, аналогичное прореживание возможно в некотором пространстве признаков, описывающих состояние некоторой системы.

Таким образом, переход от дискретного масштабирования образов объектов к дискретному масштабированию образов ситуаций вполне логичен. Автоматически возникают следующие вопросы: «Правомерно ли рассматривать множество признаков, как множество равно значимых для решения задачи распознавания элементов?», «Существуют ли пути автоматизации процесса прореживания точек в пространстве признаков?», «Как и какую метрику можно ввести в таком пространстве признаков?». Ответы на эти вопросы подсказывает все та же теория распознавания образов. Ответы, если расположить их по порядку, таковы: «Не правомерно», «Существуют (при специфической организации пространства признаков)», «Метрика должна вычисляться на основе анализа иерархии, упорядочивающей однотипные признаки». Иными словами, пространство признаков должно быть построено по иерархическому принципу, определяющему параметры алгоритма отсеивания менее информативных признаков. В этом случае процесс масштабирования эталона или образа ситуации до некоторого момента не будет приводить к потере существенных для распознавания черт ситуации. В области ситуационного анализа эти технологии, идеи которых были заложены еще в 1950-е, нашли применение лишь в конце 1980-х — начале 90-х годов.

При обработке изображений теория распознавания образов пошла дальше — с целью преодоления недостатков обычной растровой (построчной, поэлементной) дискретизации изображения были разработаны технологии векторизации контурных изображений по совокупности опорных точек. Это стало возможно благодаря дальнейшей математизации кибернетики и внедрению высокопроизводительной вычислительной техники. При использовании технологии векторизации контурное изображение, считываемое в режиме растрового сканирования, подвергается анализу с целью дальнейшего представления в виде совокупности фрагментов кривых, описывающихся примитивными функциями. Полученная в результате выполнения таких процедур совокупность математических описаний в дальнейшем позволяет осуществлять масштабирование контуров в обоих направлениях без потерь.

Но можно ли синтезировать подобные процедуры в отношении дискретного образа ситуации? Могут ли ситуации, представленные в виде знаковых моделей, построенных на основе текстов, быть описаны таким же образом? — Увы, нет — знаковые системы, используемые для описания ситуаций человеком (попросту — человеческая речь), устроены иначе, нежели числовой ряд, в котором между любыми двумя неравными числами, расположенными на числовой оси, если не налагаются особые ограничения, всегда может быть вставлено еще одно число. Любое слово или знак — это уже дискретный образ некоторого объекта, процесса или ситуации. Конечно, существуют способы параметризации отдельных терминов, но без введения строгой системы метризованных эталонов задачи сравнения решаются с очень низкой точностью (попробуйте определить размер «маленького румяного яблочка», описание которого встретилось в тексте, без знания того, что именно было взято в качестве эталона).

Но с другой стороны, мы уже рассматривали пример успешного снижения размерности задачи распознавания на примере метода А. Бертильона, продемонстрировавшего возможность идентификации лица по минимальному набору формальных признаков. Подобные методы могут быть использованы и в отношении ситуаций — задача состоит в том, чтобы синтезировать иерархическую систему признаков (терминов некоторого заданного уровня детализации), однозначно идентифицирующих ситуацию на заданном уровне иерархии описания (с заданной степенью точности). Создание такой системы позволяет успешно решать задачу классификации.

Исследование терминологической иерархии, лежащей в основе построения системы распознавания ситуации, позволяет выявить факт неполноты терминологии, неравной точности определений в соседних ветвях иерархии. При отсутствии терминов промежуточного уровня точности, требуемых для описания некоторой ситуации, в такой системе без порождения нового термина может быть синтезирован временный «терминологический портрет ситуации». Такой портрет представляет собой некоторую совокупность терминов, использование которых отличает данную разновидность ситуации от ей подобных. При накоплении статистики повторного появления терминологических портретов может быть выявлен факт устойчивой повторяемости таких терминологических портретов, чем может быть обоснована необходимость введения нового термина. Задачи такого типа часто встречаются в практике распознавания образов и носят название задач кластеризации. Таким образом, могут быть сформулированы достаточно строгие правила, регламентирующие момент и процедуру определения новых терминов. В принципе, совершенно необязательно, чтобы введенный термин был словом в общепринятом смысле — достаточно, чтобы существовала возможность его «декодирования» — такой подход легко может быть реализован в компьютерной системе распознавания. Другое дело, что таким же образом может быть установлен момент, когда возникает настоятельная потребность введения «полноценного» термина (удобопроизносимого и интуитивно понятного).

В качестве одного из алгоритмов построения текущего образа ситуации по материалам СМИ и иных источников информации, использующих для представления информации текстовые массивы, может быть использован статистический алгоритм анализа «повестки» дня, часа (а равно и любого другого временного интервала на протяжении которого оценивается частотноранговое распределение терминов в оперативных сообщениях — вспомним о Дж. Зипфе). При этом может фиксироваться как абсолютное значение «вектора», составленного из терминов равной частоты встречаемости, так и дифференциальный показатель, содержащий лишь изменения в составе вектора относительно взятого эталона. Подобные алгоритмы позволяют существенно усовершенствовать методы генерации словарей ключевых слов для фильтрации сообщений, релевантных текущей тематике сообщений, а при некотором их усовершенствовании могут быть использованы и для наглядного представления совокупности текстов, полученных за некоторый период.

Известно, что любое СМИ, пекущееся о своем рейтинге, осуществляет мониторинг сообщений открытых (и не только) источников информации в интересах выявления ситуаций, относящихся к важным «тематическим зонам». Пропуск важных для потребителя информационной продукции событий (а любое разумно построенное СМИ строит собственную модель потребителя) способен понизить рейтинг СМИ. Классическим подходом к решению этой задачи является подход, основанный на анализе поступающих сообщений с использованием перечня ключевых слов. Но ситуация меняется, а перечень ключевых слов всегда является неполным. Это вызвано хотя бы тем, что в оборот постоянно вводятся новые слова — например, в компьютерной области за месяц появляется в среднем порядка 300 новых терминов и устойчивых аббревиатур. Однако самой распространенной причиной пропуска информации из-за неполноты словаря является отсутствие возможности предусмотреть все возможные события, способные существенно повлиять на ситуацию.

Допустим, что некое СМИ отслеживает события, влияющие на финансовую ситуацию в США. Вполне вероятно, что, используя технологию отбора по ключевым словам, такое СМИ упустило бы из вида первые оперативные сообщения о террористической атаке на здания Всемирного Торгового Центра. Действительно, совершенно не очевидно, что слова «захват» и «авиалайнер» должны присутствовать в перечне ключевых слов автоматизированной системы отбора сообщений, релевантных финансовой тематике. Упоминания же о возможности наступления финансовых последствий для США (в которых наиболее вероятно появление «финансовой» терминологии) в связи с этими событиями появились значительно позже — в аналитических сообщениях. Используя же технологию пополнения словаря на основе анализа частотно-ранговых распределений слов и устойчивых словосочетаний, такое СМИ могло бы быстро отреагировать на изменение информационной обстановки (прежде, чем аналитик позаботится о внесении ключевого слова в словарь и снабдит его соответствующей интерпретантой).

Результат работы системы, использующей анализ потока сообщений для выявления повестки дня СМИ, может быть продемонстрирован на примере фрагмента карты семантических отношений для событий 11.09.2002.

Представленная на приводимом ниже рисунке карта семантических отношений получена с применением подхода, реализованного специалистами из Лаборатории по исследованию проблем организации, коммуникации и познания (LOCKS) при университете штата Аризона (Arizona State University, США). Подход получил наименование Centering Resonance Analysis (CRA), основан на применении статистического аппарата для анализа интенсивности откликов прессы. Он позволяет выделить термины, релевантные основной тематике сообщений, и семантические связи между ними на основе анализа частотно-рангового распределения как отдельных слов, так и их устойчивых сочетаний.

Степень актуальности той или иной темы определяется частотой упоминания терминов, описывающих ее, при этом может быть задано ядро семантической сети, вокруг которого в некотором диапазоне частот размещаются термины, связанные с ним и релевантные тематике сообщений.

Как видим, метод CRA позволяет выделить основные слова, служащие для обозначения основных объектов внимания прессы, отследить семантические связи между ними и степень устойчивости этих связей. А значит, локализовать ту предметную область, в которой происходят значимые или целенаправленно акцентируемые события, перенастроить словари, используемые для осуществления фильтрации сообщений.

Использование аналогичных методов на этапе формирования словаря позволяет придать словарям ключевых слов динамические свойства, обеспечить их релевантность текущей ситуации. Кроме того, могут быть активизированы именно те группы эталонов, которые могут попасть в рабочее подмножество в ходе дальнейшего развития ситуации. То есть, может быть сокращена размерность задачи перебора массива эталонных моделей и предварительно определен уровень детализации эталонных описаний, который, скорее всего, будет превышен в ходе дальнейшего освещения в источниках развития ситуации.

Заметим, что свое применение методы управления поисковыми и «ключевыми» словарями на основе анализа статистических распределений могут найти не только в секторе СМИ, служб мониторинга социально-политической, криминальной и военной обстановки, но и при проведении масштабных научных исследований, а также в бизнесе и финансово-экономической сфере. Одним из очевидных приложений является анализ эффективности рекламных кампаний и иные задачи, сопряженные с анализом больших массивов текстовой информации. Некоторые элементы такой технологии могут быть использованы при выработке направлений инновационной политики при проведении анкетирования сотрудников предприятия (как это делается на японских предприятиях, когда работникам предлагается в свободной форме высказывать предложения и пожелания по совершенствованию системы управления и технологического процесса).

Фиксация границ распознаваемых состояний

Казалось бы, дело сделано… После того, как сформированы эталонные модели и реализован алгоритм автоматического выделения текущих векторов признаков, задача распознавания ситуации решается относительно просто — методом сравнения текущей ситуации (вернее, ее вектора признаков) с эталоном. Однако и здесь есть проблема…

Поясним ее суть. Коль скоро мы ставим перед собой задачу распознавания ситуации, то мы вынуждены ее фиксировать на некоторый момент времени. В результате для системы распознавания она представляет собой состояние, характеризующееся некоторым набором признаков. Задача состоит в том, чтобы это состояние было привязано к существующей модели, в большинстве случаев предстающей в виде набора связанных функциональными и логическими отношениями дискретных состояний системы. То есть, вектор текущего состояния системы в результате поочередного сравнения с состояниями, помещенными в узлах модели (эталонами), должно быть классифицирован и отнесен к некоторой «окрестности» узла. Задача сложная, даже если представить себе, что анализу подвергается поток сообщений, релевантных тематике исследования.

Соответственно, границы каждого состояния, зафиксированного в модели, должны быть некоторым образом описаны, что крайне сложно сделать без четких критериев (особенно, если значения многих параметров описываются терминами естественного языка). Должны существовать критерии, которые позволили бы определить где в данном конкретном случае пролегает граница между «много» и «мало» и методы, с помощью которых эти слова приобретают свойства терминов, с заданной точностью описывающих значение параметра.

Почему мы все время вращаемся вокруг проблем, связанных с использованием естественного языка? — Это легко объяснить: аналитика практически никогда не имеет дела с чисто техническими феноменами (хотя там тоже следует выделять некие границы критических состояний). В результате многие сведения о системе представляются в виде лингвистических переменных — именно таких переменных, относительно значения которых существует лишь некая оценка, полученная либо в результате предварительно проведенного анализа значения представительной выборки сходных высказываний о феноменах, подобных рассматриваемому, либо в результате экспертного опроса ограниченной группы экспертов, чей опыт полагается гарантией точности. Соответственно, при появлении на входе системы анализа слова «несколько» можно с некоторой вероятностью утверждать, что это слово соответствует значению, лежащему в пределах диапазона от четырех до десяти (но этот пример достаточно прост, и поэтому он создает иллюзию легкости, с которой может быть определены квантитативные параметры для каждого слова естественного языка).

Это означает, что система не только должна располагать иерархически организованным тезаурусом, но и набором метрик, обеспечивающих возможность сравнения однотипных феноменов, описываемых различными наборами терминов. Существует два полярных подхода к введению границ значения — аналитический (о котором мы только что говорили) и директивный, когда аксиомы формулируются по произволу некоторого лица. Логическое обоснование этих аксиом невозможно, однако существует возможность логическими средствами определить целостность и непротиворечивость предложенной системы. Между этими полюсами лежит множество альтернативных подходов — от синтеза дискретных шкал, маркированных терминами, до адаптивных алгоритмов коррекции системы аксиоматических утверждений, на начальном этапе установленных по произволу, а далее — настраиваемой (обучаемой) тестовыми последовательностями.

А как быть в случае, когда осуществление метризации не представляется возможным, а потребность в фиксации факта смены состояния все-таки существует? — Одним из путей является переход от терминов, с той или иной точностью обозначающих качество или количество (а значит, обладающих некоторой метрикой и точностью), к терминам, которые могут принимать только значения «истина» или «ложь», к числу которых могут быть отнесены термины, выполняющие предикативные функции (отглагольные существительные, глаголы, причастия, деепричастия и соответствующие концепты, выражающие их сущность). Точность описания состояния снижается, однако вероятность пребывания системы в определяемом такими терминами состоянии оказывается значительно выше.

В результате ситуация будет описываться моделью, в которой будут присутствовать предикативные цепочки и идентификаторы объектов, либо классов объектов. Такая модель может быть приведена к наивысшей степени абстракции (концепты предикатов плюс идентификаторы классов) либо детализирована с тем, чтобы обеспечивалась необходимая точность распознавания. Проблема определения множества терминов, обладающих высокой информативностью (обеспечивающих высокую избирательность распознающей системы) зачастую решается эвристическими методами, хотя при условии частой повторяемости феномена словарь может быть сформирован с применением аппарата математической статистики (анализа тех же частотноранговых распределений, но уже для других классов терминов).

Один из вариантов реализации такого подхода — некоторое подобие CRA-карт (см. предыдущий пункт), но построенных в терминах более высокого уровня абстракции. Очевидным недостатком характерного для CRA-карт способа отображения является то, что он указывает лишь на наличие связи (по сути — предиката, выражающего некоторое отношение между идентификаторами объектов и классов объектов). Вероятно, над дугами следовало бы указывать тип отношения (предикат, его выражающий), однако число предикатов может оказаться достаточно большим для того, чтобы их можно было отобразить. Еще один, менее явный, недостаток заключается в том, что эти отношения не развернуты в пространстве-времени. Модель ситуации, отображаемая с помощью CRA-карты (и ее усовершенствованного аналога), не будет обладать избирательностью по отношению к временному аспекту существования системы, и вследствие этого будет иметь исключительно интегральный характер. Перечисленные недостатки не мешают применению таких методов для синтеза словарей, однако, при попытке перенести их на задачи распознавания ситуаций, эти недостатки становятся уже ощутимыми — ведь ситуация — это некоторое состояние, привязанное к «временным координатам».

Какие усовершенствования должны быть внесены в данный или подобный ему метод для того, чтобы он мог быть эффективно использован в системе распознавания ситуаций? Для начала уточним содержание понятия «состояние». С этой целью обратимся к методу аналогии. Рассмотрим простой физический опыт: пусть некая фотокамера на протяжении нескольких периодов колебания фиксирует движение шарика, раскачиваемого на нити. При выборе длительного времени экспозиции кадра на нем запечатлеется лишь трасса, по которой не возможно установить текущую координату шарика (интегральная картина — CRA карта), но позволяет сформулировать заключение о характере процесса и описать его термином «колебание». Если же фотокамера будет последовательно регистрировать положение раскачивающегося шарика на подряд следующих кадрах фотопленки, то мы получим зарегистрированную последовательность мгновенных состояний шарика, описываемых его положением в пространстве (здесь мы можем определить все параметры движения шарика). Но стоит разрезать пленку на кадры и перемешать их, как установить направление движения шарика становится невозможным (мгновенное состояние, вырванное из контекста).

Становится очевидным, что если рассматривать ситуацию, как нечто, что может быть распознано в результате сопоставления эталона с вырванным из контекста мгновенным состоянием системы, то серьезные ошибки распознавания при наличии повторяющихся фаз протекания процесса исключить не представляется возможным.

Что же может быть использовано для устранения отмеченных недостатков? Что связывает текущее состояние с контекстом или предшествующее состояние с последующим? Здесь следует выделить два базовых понятия: «процесс» и «событие».

Событие — это результат завершения процесса приведшего к смене состояния системы. То есть событие не имеет длительности (временной протяженности) — это лишь факт перехода системы из предшествующего состояния в состояние последующее. Событие характеризуется временем наступления, именами или идентификаторами предшествовавшего и результирующего состояний, и может быть отображено на значения «истина» и «ложь», т. е. обладает свойствами, делающими его удобным для использования в системах автоматического распознавания ситуаций. По существу, упоминавшиеся ранее фреймовые модели представления ситуаций строятся именно в терминах событий и состояний.

Использование событий в качестве элементов для построения (и описания правил) системы распознавания ситуаций позволяет связать события с учетом последовательности их наступления (придать модели свойства временной селективности). Такие модели и описания уже пригодны для формирования как интегральных, так и детализированных описаний.

Но сформировать вектор признаков, который мог бы быть использован в сочетании с такой моделью, применяя исключительно статистические методы, невозможно — требуется тщательный анализ системы отношений самого разного плана. Учету должны подлежать отношения переноса энергии, отношения предшествования и следования, пространственные отношения и отношения модальности — в противном случае будут утрачены существенные для интерпретации ситуации нюансы.

В некоторых ситуациях эти отношения могут быть вскрыты на основе формально-логического анализа синтаксических структур различного уровня, однако в большинстве случаев требуется привлечение семантики. В зависимости от характера решаемой задачи к анализу может привлекаться семантика ограниченного подмножества терминов, служащих для выражения специфических отношений, либо семантической атрибуции должен быть подвергнут каждый термин в массиве высказываний. Очевидно, что если при анализе текста не проводится разграничение между оттенками модальности или фазами завершенности действия, то намерение не может быть отличено от действия, возможное — от действительного, а свершившееся от происходящего… и так далее. Чем больше семантических атрибутов распознает система, тем точнее ее выводы.

Более 800 000 книг и аудиокниг! 📚

Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением

ПОЛУЧИТЬ ПОДАРОК