Патент на изобретение №2273878

Published by on




РОССИЙСКАЯ ФЕДЕРАЦИЯ



ФЕДЕРАЛЬНАЯ СЛУЖБА
ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ,
ПАТЕНТАМ И ТОВАРНЫМ ЗНАКАМ
(19) RU (11) 2273878 (13) C1
(51) МПК

G06F17/28 (2006.01)

(12) ОПИСАНИЕ ИЗОБРЕТЕНИЯ К ПАТЕНТУ

Статус: по данным на 12.01.2011 – прекратил действие

(21), (22) Заявка: 2004134329/09, 25.11.2004

(24) Дата начала отсчета срока действия патента:

25.11.2004

(45) Опубликовано: 10.04.2006

(56) Список документов, цитированных в отчете о
поиске:
RU 2166207 С2, 27.04.2001. RU 2214622 С2, 20.10.2003. JP 2002108917 А, 12.04.2002. US 6182098 А, 30.01.2001.

Адрес для переписки:

111250, Москва, ул. Авиамоторная, 53, ЗАО “Патентный Поверенный”, пат.пов. Г.Н.Андрущак

(72) Автор(ы):

Бурлюк Игорь Геннадьевич (RU),
Бурлюк Кирилл Геннадьевич (RU),
Столяров Лев Николаевич (RU)

(73) Патентообладатель(и):

Бурлюк Игорь Геннадьевич (RU),
Бурлюк Кирилл Геннадьевич (RU)

(54) СПОСОБ КОМПЬЮТЕРНОЙ ВИЗУАЛИЗАЦИИ РЕЗУЛЬТАТОВ СИТУАЦИОННОГО АНАЛИЗА НОВОСТНЫХ СОБЫТИЙ

(57) Реферат:

Изобретение относится к области вычислительной техники и предназначено для обработки информации, составленной по правилам контекстно-зависимой грамматики. Технический результат заключается в повышении информативности и точности анализа новостных событий путем выделения в процессе анализа семантического профиля текста. Способ заключается в том, что входящую информацию преобразуют в текстовом процессоре в семантические профили текста, которые затем поступают в ситуационный процессор, который формирует набор сценариев развития ситуаций, формирует семантический профиль для схемы аналитического отсчета, производит сравнение и определяет похожесть семантического профиля текста и семантического профиля схемы аналитического отсчета, определяет события-инициаторы изменения значений сущностей и вводит их в совокупность причинно-следственных графов, вычисляет новые значения сущностей, на основе которых формирует различные сценарии развития ситуаций, которые поступают в процессор визуализации, который формирует конечный набор данных для отображения отобранных данных. 7 ил.

Изобретение относится к области вычислительной техники и предназначено для обработки информации, составленной по правилам контекстно-зависимой грамматики, в целях ее стандартизации и унификации с последующим сравнением и автоматизированным анализом на основе преобразования текстового входного потока в объектную форму (автоматизированный объектный анализ неструктурированных текстовых данных).

Существующие системы автоматизированного анализа неформализованных текстов основываются на:

а) способах поиска данных по заданным пользователем поисковым контекстам с использованием логических связок между контекстами,

б) методах частотного анализа повторяемости слов,

в) методах грамматического анализа текстов, основанных на синтаксическом и семантическом разборе предложений.

Однако грамматический анализ текстов эффективен тогда, когда исходный текст составлен по правилам контекстно-свободных грамматик (КС-грамматик) или грамматик определенных правил (ОК-грамматик). В текстах, основанных на правилах контекстно-зависимых грамматик, каковыми являются подавляющее большинство реально используемых человеком документов, эти методы оказываются неэффективными. Методы частотного анализа дают возможность сделать интегральную оценку текста (дать представление, о чем идет речь), но не позволяют дать детальной картины структуры и взаимосвязей объектов. В текстах, основанных на правилах контекстно-зависимых грамматик, каковыми являются подавляющее большинство реально используемых человеком документов, эти методы оказываются неэффективными. Методы частотного анализа дают возможность сделать интегральную оценку текста (дать представление, о чем идет речь), но не позволяют дать детальной картины структуры и взаимосвязей объектов. Большей универсальностью обладают методы контекстного поиска, однако они, как правило, узкоспециализированы и каждый раз требуют настройки на конкретный поисковый образ (либо необходимо обеспечить хранение группы настроек). См JP 2002278962, G 06 F 17/27, 2002, RU 2166207 С2, G 06 F 17/20, 2001, US 6182098, G 06 F 17/21, 2001, RU 2214622 С2, G 06 F 17/42, 2003.

Недостатком известных способов являются относительно низкие их функциональные и технические характеристики, в том числе высокие значения достигаемых погрешностей преобразования.

Наиболее близким по технической сути с предложенному изобретению является способ обработки новостных событий (информации, отражающей новостные события), согласно JP 2002108917, G 06 F 17/28, 2002.

Однако в указанном техническом решении отсутствует визуализация ситуации с данной схемой аналитического отчета, а также последовательности изменения ситуации под действием новостных событий, что снижает общую информативность способа.

Технический результат изобретения заключается в повышении информативности и точности анализа новостных событий путем выделения в процессе анализа семантического профиля текста. Предлагаемый способ представляет собой результат совместной работы трех машин (см. Фиг.1), формально определенных как процессоры, выполняющие регламентированные последовательности действий:

а) новостной машины;

б) ситуационной машины;

в) визуализационной машины.

Машины могут быть реализованы аппаратно, программно или в виде специального пакета бумажных документов.

Новостная машина

Новостная машина представляет собой текстовый процессор (см. Фиг.2), который выделяет сущности новостного текста и их взаимосвязи (под сущностью понимается, то о чем говорится в тексте)

Входом текстового процессора является текст новостной ленты, состоящий из предложений.

Выходом текстового процессора является формула, составленная из знаков сущностей и знаков отношений между сущностями (семантический профиль текста) по известным математическим правилам:

а) [С=(C1·C2] – читается “Сущность С”, состоит из сущностей [C1 и С2], “,” задает операцию группировки сущностей как уточнения сущностей;

б) [С1:=С2] – читается “сущность C1,” имеет значение, заданное сущностью С2;

в) [C1->С2] – читается сущность С, является причинной сущности С;

(C1 определяет C2, C2 следует из C1).

Таким образом, семантический профиль текста представляет собой набор сущностей и отношений связи между ними (“состоит из”, “имеет значение”, “является причиной”).

Текстовый процессор выполняет следующие действия:

1) размечает слова текста на две категории:

а) слова-терминальные сущности, которые далее не могут быть уточнены;

б) служебные (вспомогательные) слова, которые служат грамматическими связками.

2) на основе грамматического анализа текста строит формулу семантической группировки в виде набора формул следующего вида:

а) сущность текста [состоит из]=(сущность предложения 1, сущность предложения 2, и т.д.)

б) сущность предложения [состоит из]=(сущность группы 1 сущность группы 2, и т.д.);

в) сущность группы [состоит из]=(терминальная сущность 1, терминальная сущность 2, и т.д.), где терминальная сущность является сущностью, которая далее не уточняется и представляется в тексте отдельным словом;

3) проводит возможные замены символа “,” на символы “:=(иметь значение)”,

“-> (быть причиной)”.

Все вышеперечисленные действия, связанные с идентификацией отношений “состоит из”, “имеет значения”, “быть причинной”, выполняется на основе известных грамматических правил взаимосвязи слов в русском языке.

Кроме текстового процессора, новостная машина содержит два тезауруса:

а) тезаурус синонимов, характеризующий выбранную предметную область (такие тезаурусы имеются в сети Internet в свободном доступе);

б) тезаурус семантического профиля текста, который состоит из двух списков – списка терминальных сущностей и списка сложных сущностей, представляющих собой скобочные формулы ир терминальны [сущностей (каждой сложной сущности присваивается уникальный номер или имя).

Ситуационная машина

Ситуационная машина представляет собой аппаратно или программно реализованный процессорам. (Фиг.3).

Входом процессора является информация двух видов:

а) семантические профили схем аналитических отчетов пользователей;

б) набор семантических профилей текстов за некоторый период времени, близких к семантическому профилю конкретной схемы аналитического отчета.

Схема аналитического отчета есть сеть с направленными дугами; каждой вершине соответствует сложная сущность, состоящая из терминальных: каждой направленной дуге соответствует отношение “быть причиной”.

Для построения схем аналитических отчетов используются т.н. семантические карты Ван-Хао или Сети Петри.

Выходом процессора является набор сценариев изменения ситуации, заданной схемой аналитического отчета.

Ситуацией называется схема аналитического отчета, в которой сущностям присвоены значения.

Сценарием называется схема аналитического отчета, в которой сущностям присвоены события, связанные с изменением их значений.

Ситуационный процессор выполняет следующие действия:

1) превращает схему аналитического отчета в совокупность причинно-следственных деревьев, где вершины помечены сущностями, а причинно-следственные связи задаются табличными или аналитическими функциями;

2) строит семантический профиль для схемы аналитического отчета;

3) определяет похожесть семантического профиля текста и семантического профиля схемы аналитического отчета по управляемому пользователем критерию подобия формул;

4) определяет события – инициаторы изменений значений сущностей и наносит их на древовидную схему аналитического отчета;

5) вычисляет новые значений сущностей и наносит их на древовидную схему аналитического отчета;

6) генерирует различные сценарии развития событий (ситуаций).

Визуализационная машина

Визуапизационная машина состоит из:

а) базы данных кластеров; каждый кластер определяется семантическим профилем заказанного пользователем аналитического отчета и множеством новостных текстов с семантическими профилями, похожими на профиль заказанной схемы отчета;

б) процессора визуализации(см. Фиг.4);

в) процессора редактирования.

Входом процессора визуализации является набор сценариев изменения ситуаций, заданной схемой аналитического отчета.

Выходом процессора визуализации является конечный набор отобранных данных для отображения на экране персонального компьютера, аппаратном табло, либо на специальных бумажных картах.

Процессор визуализации выполняет следующие процедуры отображения на экран компьютера:

1) формул семантических профилей;

2) причинно-следственных графов для схем аналитических отчетов;

3) сценарии развития событий на причинно-следственных графах схем аналитических отчетов;

4) сравнение сценариев и выделение изменений.

Процессор редактирования выполняет следующие процедуры визуального редактирования:

1) редактирование семантических формул;

2) редактирование причинно-следственных графов для схем аналитических отчетов;

3) редактирование сценариев развития событий на причинно-следственных графах схем аналитических отчетов.

Пример компьютерной визуализации результатов ситуационного анализа

1. Аналитический отчет на основе ситуационной модели Ван-Хао.

Аналитический отчет сформировании экспертами как входная модель для сравнения (см. Фиг.5.).

2. Исходная новость и семантический профиль текста.

“Объем торгов снизился из-за неопределенности с “ЮКОСом” и проблем банков, – считает Дивинская. – Индекс РТС начал снижение с уровня 580 пунктов”. Большинство новостей отыграно рынком, поэтому снижение может продлиться до прихода новой информации о “ЮКОСе” или о банковской системе, говорит Орлов.

Доллар продолжает расти. Котировки повышались до 29,145 руб./$, закрылся рынок на уровне 29,10-29,11. Начальник управления операций на финансовых рынках БИН-банка Михаил Парасенко связывает возросший спрос на валюту со стремлением игроков рынка сыграть на валютных операциях, что не могло не сказаться на уменьшении индекса РТС. Спекулятивную игру на повышение доллара с удовольствием поддержали многие участники рынка, отмечает Парасенко. По мнению Кабанова, в ближайшее время доллар вырастет до 29,2 руб./$.

2.1. Пример формирования семантического профиля:

Выделение сущностей:

Формирование семантического профиля:

Обозначения:

С – семантический профиль текста

, – уточнение

-> причинно-следственная связь

Семантический профиль предложения:

C=C1,C2->C3C4C5,C6,C7,C8,C9)

2.2 Тезаурус профиля:

Таблица
Тезаурус
Термины Синонимы
Акции Ценные бумаги
Торги Рынок
РТС Российский торговый индекс
Доллар Американская валюта
Юкос Самая крупная нефтяная компания России
Банк Финансовое учреждение
Дивинская Начальник аналитического отдела
Уровень Значение
Объем Уровень

3. Сравнение профилей аналитического отчета и текста в ситуационном процессоре (см. Фиг.6) – результат сравнения.

Визуалиция развития возможных событий (см. Фиг.7)

3.1. Отчет

Подтверждение схемы:

Схема практически полностью подтвердилась, за исключением добавления новой сущности.

Формула изобретения

Способ компьютерной визуализации результатов ситуационного анализа новостных событий, заключающийся в том, что входящую информацию, представленную в виде текста из последовательно следующих друг за другом предложений, подвергают преобразованию в текстовом процессоре, заключающемуся в формировании на основе информации семантических профилей текста, состоящих из сущностей и знаков отношения между сущностями, формируемыми на основании разделения слов текста на сущности, которые не могут быть далее уточнены, и слова, служащие грамматическими связками, построения на основе грамматического анализа формулы семантической группировки и замены неопределенных символов на определенные символы, при этом текстовый процессор использует тезаурус синонимов и тезаурус семантического профиля, далее семантические профили текста, а также набор семантических профилей текстов за заданный период времени поступают на ситуационный процессор, который формирует набор сценариев развития ситуаций на основании схемы аналитического отчета, при этом ситуационный процессор формирует совокупность причинно-следственных графов, в которых вершины являются сущностями, а причинно-следственные связи формируются табличными или аналитическими функциями на основе семантических карт Ван-Хао или Сети Петри, формирует семантический профиль для схемы аналитического отчета, производит сравнение и определяет похожесть семантического профиля текста и семантического профиля схемы аналитического отчета, определяет события-инициаторы изменения значений сущностей и вводит их в совокупность причинно-следственных графов, вычисляет новые значения сущностей, на основе которых формирует различные сценарии развития ситуаций, которые поступают в процессор визуализации, формирующий конечный набор данных для отображения отобранных данных, при этом процессор визуализации включает базы данных кластеров, в которых каждый кластер определяется профилем заказанного аналитического отчета и множеством новостных событий в виде текстов с семантическими профилями, формирователь видеоинформации и узел редактирования, позволяющий осуществлять редактирование семантических формул, причинно-следственных графов и сценариев развития.

РИСУНКИ


MM4A – Досрочное прекращение действия патента СССР или патента Российской Федерации на изобретение из-за неуплаты в установленный срок пошлины за поддержание патента в силе

Дата прекращения действия патента: 26.11.2006

Извещение опубликовано: 20.06.2008 БИ: 17/2008


Categories: BD_2273000-2273999