Knowledge Management Software - Системы управления знаниями KMSOFT: Управление знаниями, автоматизация документооборота Программные решения KMSOFT в сфере менеджмента знаний: Е-МАСТЕР: Управление знаниями, Е-МАСТЕР: Документооборот Copyright © KMSOFT, 2002-2010 info@kmsoft.ru WWW.KMSOFT.RU
KMSOFT - Системы управления знаниями KMSOFT: Менеджмент знаний, автоматизация документооборота, системы класса ECM (управление корпоративной информацией) Информация о продуктах и услугах в сфере менеджмента знаний »»»
««« Описание программных решений в сфере менеджмента знаний: Е-МАСТЕР: Управление знаниями, Е-МАСТЕР: Документооборот
Продукты и услуги
Продукты и услуги
Статьи
Статьи
Теория
Теория
Экстранет
Экстранет
Поддержка
Поддержка
О Фирме
О Фирме
Статьи
Расширенный поиск
Найти

Основные публикации по менеджменту знаний

Избранные статьи по менеджменту знаний

Антология статей по менеджменту знаний

Глоссарий

Библиотека статей
Главная  Статьи  Менеджмент знаний  Основные публикации по менеджменту знаний

Извлечение знаний: лингвистический аспект

Татьяна Гаврилова  

В предыдущей статье цикла (см. Т. Гаврилова «Извлечение знаний: психологический аспект» Enterprise Partner №8 (25)’2001) мы начали рассматривать проблемы, возникающие на до-машинном этапе разработки корпоративных информационных систем. При этом акцент делался на «белом пятне» современных информационных технологий — инженерии данных и знаний. Инженерия знаний — сердцевина достаточно молодой технологии «управления знаниями», или knowledge management (KM), в русле которой данная статья рассматривает работу аналитика с заказчиком. Традиционно в системах KM знания трактуются как информационный ресурс, базирующийся на практическом опыте специалистов и на данных, накопленных и используемых на конкретном предприятии.

Поскольку основная проблема инженерии знаний — процесс извлечения знаний, разработчикам систем KM и в первую очередь аналитикам необходимо четко понимать природу и особенности этого процесса. Мы выделили три основных аспекта процесса извлечения знаний: A = {A1, А2, А3} = {психологический, лингвистический, гносеологический}.

Три слоя лингвистических проблем

Лингвистический (А2) аспект касается исследований языковых проблем, поскольку язык — основное средство общения в процессе извлечения знаний. Аналитик, приступивший к процессу приобретения информации, сталкивается с тремя слоями лингвистических проблем:

  • S1 — формирование «общего кода»;
  • S2 — построение понятийной структуры;
  • S3 — создание словаря пользователя.

Общий код

Первоначально аналитик, даже если он предварительно знакомился с проблематикой моделируемой предметной области и спецификой предприятия, сталкивается в беседах с заказчиком с массой новых, зачастую малопонятных терминов. Эта проблема решается путем формирования «общего кода» как средства общения. Общий код S1 устраняет проблему языковых ножниц между профессиональной терминологией специалистов предприятия-заказчика и обыденной литературной речью аналитика. Он включает следующие компоненты:

S1 = {общенаучная терминология; специальные понятия из проблематики работы предприятия; элементы бытового языка; неологизмы, сформированные за время совместной работы; профессиональный жаргон и др.}.

Детализация схемы общения позволяет представить средства общения как два потока, в которых нас интересуют компоненты V1 и V2 — языки, на которых говорят аналитик и эксперт (V1', V2' — невербальные компоненты). Различия языков V1 и V2 и обусловливают «языковой барьер», или «языковые ножницы», в общении аналитика и специалистов-экспертов.

Эти два языка отражают «внутреннюю речь» специалиста и аналитика, поскольку большинство психологов и лингвистов считают, что язык — это основное средство мышления наряду с другими знаковыми системами «внутреннего пользования». При этом на внутреннюю речь влияет весь прошлый профессиональный опыт специалиста.

Язык аналитика V1 состоит из трех компонентов:

V1 состоит из трех компонентов:
  • s1_1 — общенаучная терминология из его «теоретического багажа»;
  • s1_2 — термины предметной области, которые он почерпнул из специальной литературы в период подготовки;
  • s1_3 — бытовой разговорный язык, которым пользуется аналитик.

Язык эксперта V2 включает такие компоненты:

V2 включает такие компоненты:
  • s1_1 — общенаучная терминология;
  • s1_2 — специальная терминология, принятая в данной отрасли;
  • s1_3 — бытовой язык;
  • s1_4 — неологизмы, созданные экспертом за время работы (его профессиональный жаргон).

Если считать, что бытовой и общенаучный язык у двух участников общения примерно совпадает (хотя реально объем последнего у эксперта существенно больше), то некоторый общий язык, или код, который необходимо выработать партнерам для успешного взаимодействия, будет складываться из общих потоков s1_1 и s1_3, потока s1_4 эксперта и потока s1_2 аналитика.

В дальнейшем этот общий код подвергается переосмыслению и структурированию, а затем аналитик на его основе формирует некоторую понятийную структуру, или сеть понятий.

Выработка общего кода начинается с выписывания аналитиком всех терминов, употребляемых экспертом, и уточнения их смысла — фактически это составление словаря предметной области. Затем следует группирование терминов и выбор синонимов. Разработка общего кода заканчивается составлением словаря терминов предметной области с предварительной группировкой их по смыслу, то есть по понятийной близости (это уже первый шаг структурирования знаний).

На этом этапе аналитик должен с большим вниманием отнестись ко всем специальным терминам, пытаясь максимально вникнуть в суть решаемых проблем, бизнес-процессов и технологий. Освоение аналитиком языка и терминологии предметной области — первый рубеж на подступах к созданию адекватной корпоративной информационной системы.

Интерпретация терминов двумя специалистами весьма неоднозначна. В семиотике, науке о знаковых системах, проблема интерпретации — одна из центральных. Интерпретация связывает между собой «знак» и «означаемый предмет». Только в интерпретации знак получает смысл. Так, слова «прибор X» для специалиста-эксперта означают некий абстрактный образ схемы, которая соответствует некоторому конкретному измерительному инструменту, а в голове начинающего аналитика слова «прибор X» вызывают пустой образ или некий черный ящик с ручками.

Внимание к лингвистическому аспекту проблемы извлечения знаний способствует сближению образа 1 с образом 2 и интерпретации I1 с интерпретацией I2, а слова «прибор X» переходят в действительно общий код.

Таким образом, лингвистический слой S1 включает изучение и управление процессом разработки специального промежуточного языка, необходимого для взаимодействия аналитика и специалиста предприятия заказчика.

Понятийная структура

Проблемы формирования понятийной структуры представляют следующий слой S2 лингвистического аспекта проблемы извлечения знаний. Эта проблема тесно связана с разделом психологии, который изучает процессы усвоения информации человеком и законы их обработки, — психологией познания, или когнитивной психологией. Один из ее постулатов — наличие установленной взаимосвязи понятий в памяти человека. Иными словами, в памяти любой объект существует не изолированно, а в связи с другими близкими по смыслу или ассоциации объектами и понятиями.

Особенности формирования понятийной структуры у специалистов обусловлены наличием в сознании так называемых семантических, или ассоциативных сетей, объединяющих отдельные термины во фрагменты, фрагменты в сценарии и т. д. В отличие от разрозненного хаоса понятий у новичков и дилетантов, у опытных специалистов эти сети упорядочены, в них можно обнаружить иерархические структуры, или «деревья», либо «пирамиды» понятий. При разработке баз знаний формирование так называемой пирамиды знаний — важнейшее звено этапа проектирования интеллектуальных систем.

Таким образом, при создании корпоративной информационной системы нужны не просто наборы понятий или словари, а «энциклопедии», в которой все термины объясняются со ссылками на другие термины.

Итак, лингвистическая работа аналитика в данном слое проблем заключается в построении таких связанных фрагментов с помощью «сшивания» терминов. Фактически это подготовка к этапу структурирования, где такое «шитье» приобретает некоторый законченный вид.

При тщательной работе аналитика и специалистов в понятийных структурах начинает просматриваться иерархия понятий. Такие структуры играют важную роль как системообразующий скелет понятий предметной области. В последнее время для таких структур используется специальный термин — онтологии. Следует заметить, что эта иерархическая организация хорошо согласуется с теоретическими основаниями когнитивной психологии, согласно которой при мышлении используются не языковые конструкции как таковые, а их коды в форме некоторых абстракций, которые образуют иерархические структуры.

Онтология, или иерархия абстракций — это глобальная схема, которая может быть положена в основу концептуального анализа структуры знаний любой отрасли экономики или производства. Лингвистический эквивалент иерархии — иерархия понятий, которую необходимо построить в онтологии, формируемой аналитиком (рис 5.). Построение онтологий имеет большое значение в системах KM для передачи накопленного корпоративного знания новичкам. Согласитесь, один взгляд на иерархическую схему, показывающую связь между подразделениями университета, даст его новому сотруднику больше, чем длинное и путаное объяснение структуры организации.

Следует подчеркнуть, что работа по составлению словаря и понятийной структуры требует от аналитика лингвистического «чутья», легкости манипулирования терминами и богатого словарного запаса, так как зачастую он вынужден самостоятельно разрабатывать фрагменты понятийной структуры. Чем богаче и выразительнее получается онтология, тем адекватнее система будет отражать и моделировать процессы, происходящие в данной организации.

Аналитик вынужден все время помнить о трудности передачи образов и представлений в вербальной (словесной) форме. Часто аналитику приходится подсказывать эксперту слова и выражения, и такие новые лексические конструкции оказываются полезными.

Способность к словесной интерпретации зависит и от пола аналитика (см. предыдущую статью в №8). Установлено, что обычно женщины придают большую значимость невербальным компонентам общения, а в вербальных имеют более обширный алфавит понятий и их признаков (словарный запас). Вообще говоря, половые различия в восприятии существуют не только в бытовой сфере, что очевидно, но и в профессиональной. Следовательно, у эксперта-мужчины и у эксперта-женщины могут быть существенно разные алфавиты для вербализации признаков моделируемых объектов. Таким образом, иногда женщине-аналитику легче провести лингвистическую часть работы с информацией, в то время как мужчины лучше справляются со знаковыми системами более высокого уровня абстракции (моделирование, программирование).

Словарь пользователя

Лингвистические результаты, соотнесенные к слоям общего кода и понятийной структуры, направлены на создание адекватного лингвистического базиса информационной системы. Однако часто профессиональный уровень конечного пользователя не позволяет ему понимать и применять специальный язык предметной области в полном объеме.

Неожиданными для начинающих разработчиков оказываются проблемы формирования отдельного словаря для создания дружественного интерфейса с пользователем информационной системы. Существуют специальные приемы, которые необходимо применять для увеличения «прозрачности» и доступности системы. К ним относится специальная адаптация пользовательского интерфейса, дополнительная доработка словаря общего кода с поправкой на уровень квалификации и образования пользователя, применение общепринятых пиктограмм и т.д.

Так, при разработке экспертной системы по профессиональной ориентации и психологической диагностики личности АВТАНТЕСТ автору пришлось разработать два словаря терминов — один для психологов-профессионалов, второй — для неспециалистов (испытуемых). Поскольку результат психодиагностического тестирования всегда интересен испытуемому, ему выдается листинг с психологическим заключением на общелитературном языке, без специальных терминов. Интересно, что при внедрении системы использовался в основном этот второй словарь; даже профессиональные психологи предпочитали получать тексты на обыденном языке.

К сожалению, краткое изложение лингвистических проблем при создании информационных систем на платформе КМ не отражает всей реальной сложности задач аналитика, которые встают перед ним при погружении в терминологическую «пучину» проблем любого большого предприятия. В частности, мы не затронули проблем работы с текстами документов, проблем стандартизации, исторической смены понятий и регламентов, проблем «модных» терминов, некорректных определений, неточных формулировок и многого другого. Хотелось бы только подчеркнуть, что пренебрежение или недостаточное внимание к данной проблематике — признак некомпетентности разработчиков, что в конечном счете приводит к серьезным недостаткам проектируемых систем.

Другие материалы по теме

  • Извлечение знаний: психологический аспект. Татьяна Гаврилова (Enterprise Partner)
    Как известно, в процессе человеческого общения воспринимается далеко не вся возможная информация. В связи с этим актуальна проблема увеличения информативности общения аналитика и специалистов предприятия за счет использования психологических знаний...
     
  • Извлечение знаний: "пассивные" методы. Татьяна Гаврилова (Enterprise Partner)
    Пассивные методы подразумевают, что ведущая роль в процедуре извлечения передается эксперту, а аналитик только протоколирует рассуждения эксперта во время его реальной работы по принятию решений или записывает то, что эксперт считает нужным самостоятельно рассказать в форме лекции...
     
  • Управление знаниями для инвестиционных компаний (PricewaterhouseCoopers)
    Несколько небольших статей, опубликованных в журнале Perspectives 1/2000, издаваемом компанией PricewaterhouseCoopers, дают определение понятию "управление знаниями" и рассказывают о том как измерять знания, использовать технологические средства, учитывать требования корпоративной культуры и клиентов, способствовать инновациям, а так же внедрять управление знаниями на примере компаний, занятых в сфере инвестиционного менеджмента.
Версия для печати  |  Пользовательское соглашение
Статьи
KMSOFT: Управление знаниями, автоматизация документооборота, управление корпоративной информацией
К началу страницы ...