По лабиринтам информации


По мнению ученых, чтобы не сбиться с курса в бурном информационном потоке, человек сегодня должен ежедневно прочитывать по одной книге и две-три газеты или журнала. И это не считая других источников знаний. Однако человеческий мозг не способен усвоить и рассортировать всю информацию из окружающего мира. И тогда на помощь приходят машины. О новых компьютерных технологиях рассказывает директор Новосибирского филиала Российского НИИ искусственного интеллекта Юрий Загорулько:
Виртуальная канцелярия

Извлечение информации из больших массивов документов в ограниченной предметной области является одной из наиболее актуальных задач. В частности, мы работали с крупной инвестиционной компанией, связанной со строительством газопроводов. У нее большое количество деловых партнеров, тысячи объектов строительства. Поэтому ежедневно идет много писем и их необходимо вовремя обрабатывать, передавать нужным людям и контролировать ход исполнения. Без помощи машины, которая обладает знаниями всей этой «кухни», это сделать очень трудно. Для решения проблемы нами была разработана система InDOC, в основе которой лежат знания об организации, ее сотрудниках, деловых партнерах и области, в которой она работает.
Главная задача системы состоит в том, чтобы справляться с потоком входящих документов. Они сканируются, переводятся в электронный вид, вводятся в систему. В ней может храниться и оригинал (в виде картинки), и само содержание документа. Обычно в официальном письме значится «Генеральному директору» или «Главному инженеру». На самом деле это письмо должно быть передано человеку, к которому оно относится: «начальнику планового отдела», «начальнику службы снабжения»: Система определяет, кому адресован документ, ведь она обладает и знаниями о сотрудниках, об их личных предпочтениях, она знает, какую функцию они выполняют, какие вопросы решают. В зависимости от этого документ проходит через своеобразное «сито» — те сотрудники, которые имеют отношение к данному документу, получают его либо по электронной системе, либо через секретаря (пока система только входит в эксплуатацию).
Кроме этого, нужно еще понять, к каким видам работ и объектам относится документ, какова категория его важности. Происходит структурирование информации, и это все складывается в некоторую базу данных. Затем лица, принимающие ответственные решения, могут зайти и выбрать документы по времени их поступления, по отношению к объектам, по важности, по видам работ:
Если сравнивать эту систему с Интернетом, то там легко пойти по ссылке, чтобы найти нужную информацию. А в книге или в стопке документов трудно найти в контексте данные по слову, и система помогает это сделать. В Интернете человек сам должен набирать слово. В системе InDOC ничего не нужно набирать — просто выбрать из списков (ведь известно число объектов строительства, известны виды работ и т. д.).
Чтобы система могла понимать документ, нужно было вложить в нее большой набор тем, понятий. В глобальной сети мы пользуемся общеупотребительными словами, а названия объектов, организаций — сложные, многосоставные: одна организация или объект могут по-разному называться, и наша система должна все понимать. Словарь для нее составляли лингвисты. Это была очень трудоемкая работа с использованием Alex-технологии обработки текстов на основе лексических шаблонов. Так, пользователь Интернета ищет по заданному небольшому образцу слов (синтаксический подход) формально. А мы пытались главный упор сделать на семантику (семантически ориентированный подход), то есть предложение может быть написано с ошибками, неправильно сформулировано, но система все равно его понимает. Кроме того, она использует и синонимичные варианты. Именно содержание пектина делает этот продукт таким полезными и мармеладным.
Состав:
Пектин, сахар, патока крахмальная, лимонная кислота, натуральные красители Кармил, Хлорофил, Куркумин, Паприка. Ароматизаторы: инжир, клубника, малина, вишня, лайм, мандарин, банан, лимон, черешня, персик, абрикос, груша, красная смородина, черная смородина, ежевика.
У нас большие планы, но мы пока «застряли» на этапе внедрения системы в эксплуатацию, потому что, видимо, не всем выгодно, если будет прозрачность финансовой и производственной деятельности, тем более в больших организациях. Мои коллеги, которые занимаются внедрением обычных бухгалтерских систем, рассказали мне, что стоит установить такую систему в какой-нибудь даже небольшой фирме, и там выясняется, какое идет растранжиривание средств, вплоть до воровства. Миллионы уходят непонятно куда. А пока системы не было, все было нормально. Мы могли бы сделать свою систему интереснее и мощнее, но у заказчика было требование простоты и для операторов и для начальников.
Эти технологии могут использоваться в разных областях. В частности, выделение значимой лексики из текстов можно использовать для структурирования информации, которая поступила к человеку. Например, есть газеты, в которых печатаются объявления о найме на работу. Можно настроить систему так, чтобы она обрабатывала все объявления и в виде электронных таблиц подавала всю информацию. Затем можно выбрать 10-15 характеристик и по ним наводить статистику, к примеру по профессии: определить потребность в слесарях или программистах: Если дальше дело пойдет, можно будет сделать следующий шаг — разрабатывать какие-то интеллектуальные вещи, аналитику.
Электронные «сокровищницы»

Еще одно из направлений нашей деятельности — работа с информационными ресурсами. Сегодня знания становятся одним из главных компонентов жизнедеятельности человека — появился даже термин «управление знанием». Это очень важно в нашем динамичном мире. Предприятия развиваются — молодежь приходит, а старшее поколение уходит и уносит с собой свои знания. В программистском мире, например, ведут документацию, и с этим больших проблем нет. В остальных случаях, например на производстве, есть технологии, так называемые «ноу-хау», которые трудно передать — этим надо специально заниматься в течение нескольких лет, и в регламенте не зафиксировано, как их сохранить. У нас такой «человеческий фактор» не учитывается. Тот же врач увольняется или уходит из жизни, и все наработанное им пропадает.
Например, за рубежом тоже текучка большая, но там этот вопрос продуман. Во многих западных компаниях сегодня есть базы знаний. Они могут содержать определенный алгоритм решения какой-либо проблемы и полученный результат. Поэтому в случае решения каких-то вопросов обращаются к таким базам. А если знание не сохранено, то опять нужно искать решение и, возможно, тратить на это деньги.
Осуществить работу с представлениями знаний помогают экспертные системы — это такие программные системы, которые используют в своей работе опыт экспертов в некоторых областях, например, хирургии, терапевтике. Основной принцип — сохранение знаний, с помощью которых человек может решить те или иные задачи. Мы, программисты, создаем инструментарий для их построения, чтобы эксперт мог легко вводить туда свои знания.
Так, самая первая в мире медицинская система — MYCIN — была разработана в США в 70-80-х годах. Она проводила диагностику и лечение инфекционных заболеваний крови (их известно около 100). Надо было провести опрос пациента, ввести объективные данные анализа крови, показатели температуры, кардиограммы: Дальше система выводила данные — чем болен человек, на какой стадии заболевания находится, и, опираясь на его индивидуальные особенности, назначала пациенту лечение. Эта система работала на уровне врачей высшей квалификации — при проверке диагнозы, составленные врачом и машиной, совпадали.
А сейчас мы планируем делать систему «Диагностика и коррекция микроэлементного состава организма». Человек часто болеет, не зная причины своего состояния. Ученые выяснили, что, оказывается, ему не хватает каких-то микроэлементов, например, селена или фтора или, наоборот, в организме избыток стронция, свинца, и тогда надо их выводить. Все это, конечно, зависит от воды, пищи и от экологической ситуации в регионе.
Сегодня сетевые компании предлагают различные биодобавки. Но часто все складывается по принципу: «одно лечим, другое калечим». Чтобы не получилось так, что один элемент добавляем, а другой вымывается, надо все компоненты сбалансировать. Ведь всего жизненно важных для организма микроэлементов около 20, и они могут быть взаимными антагонистами, т. е. препятствовать усваиванию другого элемента организмом. К тому же между веществами существует сложная взаимозависимость: есть бинарные зависимости, тернарные: У нас есть специалисты, которые обладают этими знаниями. Мы пытаемся построить систему, которая бы все это учитывала и позволила поставить диагноз, а затем предложила решение, как поэтапно восстановить оптимальный баланс элементов организма. При этом важно учитывать, какой элемент является ключевым, какой вперед нужно принимать, а каким на первых этапах можно пренебречь. Наша система, имея большую базу данных, будет обладать информацией, которой не найдешь ни в одной книге.
Главное препятствие, с которым сталкиваешься в работе над экспертными системами — то, что многие специалисты не хотят предавать огласке свои знания. В таком случае их надо как-то стимулировать. Если на Западе к этому вопросу уже найдены своеобразные подходы, то у нас «кладези знаний» пока остаются закрытыми.
Ирина РИЖСКАЯ, «»

 

 

Comment section

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *