Становление систем распознования речи


В Америке была опробована программа, уважительно названная «Сэр». С ее помощью от машины добились ответа на вопрос: «Сколько пальцев у Джона?» Много времени и сил было затрачено, чтобы получить ответ на такой простой вопрос.

У нас еще в 1963 году молодой ученый, заведующий отделом программирования Вычислительного центра Сибирского отделения АН РФ Андрей Ершов, ныне член-корреспондент Академии наук, крупнейший специалист в области системного программирования, предложил установить между человеком и машиной своего рода «динамический союз». Автор объясняет его так.

Предположим, что машина владеет некоторым входным языком, представляющим достаточно содержательную формализацию русского языка. Человек, не знающий этого входного языка, обращается к машине в привычной и удобной для себя форме. Электронная машина по заложенной в нее программе определяет, понятен ей заданный текст или нет. Если текст понятен, она начинает выполнять задание. Если непонятен, машина, выделив неясные места, задаст серию вопросов. Человек снова говорит в привычной для себя форме, которую сочтет в данный момент самой подходящей: объяснит машине неясные вопросы «другими словами». Машина, получив эти перефразировки, подставит их в текст и снова проанализирует.

Если ей опять что-то неясно, она задаст еще серию вопросов, и, таким образом, между человеком и машиной завяжется диалог. В результате этого диалога человек будет все больше и больше упрощать формулировку задания, пока оно не станет полностью понятным машине.

Такой разговор, пожалуй, можно сравнить с диалогом учителя и не очень понятливого ученика. Ученик никак не может понять, чего добивается от него учитель, и задает вопросы до тех пор, пока тот ему все «не разжует». Только в случае диалога человека с машиной все гораздо сложнее. Здесь человек приспосабливается к возможности машины, и человек и машина как бы привыкают друг к другу. Современные технологии распознования и синтезирования речи позволяют встраивать голосовые функции в любые сложно-технические устройства: будь то кофеварки или GPS навигаторы.

Но может случиться, что машина поймет задание не так, как человек?

Давайте посмотрим, как это происходит в обычной, «неговорящей» машине. Когда человек впервые подходит к ней с программой, у него нет полной уверенности, что программа соответствует поставленной задаче. Процесс отладки машинной программы – это, по существу, тот же диалог человека и машины, только в иной форме. Аварийные остановки машины – это сигналы о невосприятии задания. Исправления, вносимые в программу,- это перефразировки исходного текста, стремление к тому, чтобы машина все-таки восприняла наше задание.

Но вернемся к аналогии с учителем и учеником. Когда учитель передает ученику новое задание, он не жалеет слов, чтобы точно объяснить смысл задачи. Однако когда учитель повторно дает задание, он полагает, что ученик или совсем не задаст вопросов, или задаст такие, которые относятся только к отличию повторного материала от первого.

Во взаимоотношениях человека и машины надо добиться, чтобы машина с каждым заданием становилась все «понятливее», чтобы, получая аналогичные задания, она не задавала одних и тех же вопросов. Иначе говоря, надо, чтобы машина сохранила в своей электронной памяти «протоколы» бесед с человеком и свои новые знания употребляла в дальнейшей работе. Этот интересный метод нашего талантливого ученого не что иное, как обучение машины человеческому языку.

Надо сказать, Андрей Ершов с упорством и успехом трудится в весьма сложной области. Сегодня он, можно сказать, стал неким символом, живым воплощением идеи общения человека и машины. Им высказана интересная мысль о своеобразном диалоге «человек-машина» и сформулированы основные положения методологии построения диалоговых систем. Он впервые ставит вопрос об общении человека с машиной на естественном языке при использовании так называемого феномена деловой прозы, то есть средства общения между людьми в сфере производства.

Автор нового подхода утверждает, что деловая проза складывается в последнее время именно на основе машинного производства, автоматизации и средств массовой информации. Поэтому, считает он, и возникает необходимость научить машину полностью понимать и воспринимать деловую прозу. Он думает, что эффект деловой прозы позволит на каждом уровне выделить подходящие фрагменты языка, которые, не создавая искусственных ограничений человеку, в то же время ограничивали бы словарь, а через него – объем рекомендуемых смысловых отношений.

Для реализации идеи, считает Ершов, необходимо, чтобы вначале лингвисты изучили феномен деловой прозы и подготовили машинизированный фонд русского языка и тогда, возможно, появятся разговаривающие кофе-машины в каждом доме. Ну а в реальном виде, на практике есть «говорящие», «слушающие», «понимающие» машины; вступили ли они в прямое общение с человеком без посредников?

Появились специальные системы, воспринимающие информацию по телефону и после переработки выдающие ее по телефону. В одной из них машина распознавала до двухсот пятидесяти слов. Затем этот запас расширили до полутора тысяч слов. Как полагают, она найдет применение в торговле – оптовой и розничной, и приеме заказов, в банках, в страховании, управлении воздушными перевозками, справочной службе.

Спроектирована и опробована система, которая распознает до девяноста пяти процентов фраз, произносимых пятью различными лицами. Для составления фраз используется словарь из 1011 слов. Построена даже машина, словарь которой составляет шестьдесят тысяч слов! Она «понимает» и имитирует человеческий голос, воспроизводя тональность речи. Подобные технологии с успехом (относительным) используются в мире игровой индустрии: игровые приставки последних поколений.

Машина, голосом отдающая команду человеку, психологически – это не одно и то же, что машина, молча идущая от него каких-либо действий. В таких ситуациях инженерным психологам есть над чем задуматься. Мы до сего времени не можем привыкнуть к неживой электронной музыке. Каково же будет привыкать к разговору с неживой машиной?

Лишь люди владеют искусством речи. Они с ее помощью довели до совершенства степень взаимопонимания. Иной раз высокая степень понимания возникает между животными и человеком. Собака, например, часто гораздо лучше понимает человека, чем другую собаку. Теперь в этот мир взаимопонимания вступает и машина. Вступает не молча, а с первыми словами. Не надо забывать, однако, что научил ее произносить их человек.

Комментарии закрыты.