Хто говорить? Проблеми ідентифікації голосу

У меня зазвонил телефон.
— Кто говорит? — Слон.
— Откуда? — От верблюда!
   К. Чуковский

   Для криміналіста в цьому дитячому віршику є кілька задач — ідентифікація особистості (чи дійсно говорить хтось по імені (кличці) «Слон»), визначення номера телефону, з якого був зроблений дзвінок, ім'я власника телефону («Верблюд») та його адреси. Якби ця розмова документувалася реєстратором телефонних переговорів, наприклад, ArPhone-2x, оснащеним автоматичним визначником номера (АОН), то останні задачі б вирішувались досить просто. Черговий оператор, одержавши номер телефону абонента, що дзвонив, практично негайно одержав би і його адресу, наявність у власника телефону зареєстрованої зброї, автотранспорту, судимості і т.п. Система документування мови ArPhone-2x компанії «Інтел-Медіа Сервіс» передбачає інтеграцію програмного забезпечення робочого місця чергового оператора з відповідними базами даних.

   Набагато складніше справа обстоїть з першою задачею — проблемою ідентифікації особистості за голосом. На жаль, у повсякденній практиці українських служб забезпечення безпеки поки неможливо в режимі реального часу організувати пошук голосу абонента по архіві системи документування або по централізованій базі даних — «відбитків» голосів. Однак, є підстави вважати, що незабаром голосова ідентифікація стане звичною процедурою, такий же, як дактилоскопічна експертиза.

   Інтенсивний розвиток обчислювальних потужностей і вдосконалювання апаратних засобів обробки мови дозволяє сподіватися, що в недалекому майбутньому розпізнавання мови та автоматична ідентифікація особистості за голосом стануть рутинною процедурою. Тим більше, що інтерес до цієї області мовних технологій величезний. Як один з біометричних показників голос використовується для перевірки прав доступу до каналів зв'язку, базам даних, банківським рахункам, камерам схову, приміщенням і, нарешті, до звичайних персональних комп'ютерів. Парольний захист не є досить надійним. Окрім того, спроби підвищення надійності протидії несанкціонованому доступу за рахунок комбінації різних технічних рішень часто обходиться недешево. Пароль можна угадати, підглянути, украсти, підібрати чи передати. Ключі, якої складності б вони ні були, можна підробити, вкрасти або просто втратити. Голос же є універсальним ключем, який поки що не можна украсти, комусь передати, підробити чи зламати.

   Більшість існуючих систем ідентифікації особистості по голосу побудовані на основі однократної перевірки відповідності ключової фрази (слова) з еталонним записом, що зберігається в пам'яті контрольного пристрою. У режимі навчання системи користувач кілька разів вимовляє коротку фразу (слово), що використовуються для створення еталона-пароля. Найбільше часто еталоном служить вся ключова фраза (слово), за винятком пауз. Отриманий мовний сигнал може також стискуватися за допомогою алгоритмів, що не спотворюють індивідуальні параметри голосу. Можливе використання не усієї фрази (слова), а, так званих, опорних сегментів — найбільш інформативних ділянках мовного сигналу. Вибираються найбільше енергетично могутні звуки — голосні і дзвінкі згодні. У цих вокалізованих ділянках мови добре виявляються анатомічні особливості мовного тракту диктора.

   Індивідуальні особливості голосу будь-якої людини досить стабільні та у параметризованому виді можуть бути використані протягом тривалого часу. Набір параметрів голосу конкретної людини, що зберігається в системі контролю доступу, дає можливість точної ідентифікації особистості. Наприклад, якщо записати на телефонну магнітну карту такий «голосовий портрет», те цією картою не зможе скористатися ніхто інший.

   Сучасні системи верифікації голосу дозволяють ідентифікувати спроби введення голосових ключів з магнітних записів. Мікрофони і записуючі пристрої мають свої індивідуальні особливості, що можуть визначатися програмами верифікації голосу. Можна змусити людини вимовити пароль під погрозою насильства, але зроблена система верифікації не повинна надати право доступу до охоронюваного об'єкта, розпізнавши емоційні зміни в голосовому спектрі.

   Фахівцям відомо, що такі психологічні стани людини, як страх, тривога, провина, конфліктна заклопотаність неминуче викликають зміни процесів мозкової діяльності. Мимо волі людини, автоматично в процес саморегуляції включається вегетативна нервова система, що регулює, зокрема, зміст адреналіну в крові, шкірно-гальванічні реакції, пото- і тепловиділення і тембр голосу (частоти основного тону голосу). Ці реакції (за винятком голосових) традиційно використовуються в поліграфах — детекторах неправди. Якщо раніш такими пристроями володіли тільки спецслужби, то останнім часом з'явилися, якщо можна так назвати, «детектори неправди широкого вжитку» — трастери — голосові детектори неправди. Це малогабаритні, що уміщаються на долоні, пристрої можна носити в кишені чи підключати до телефону. Наприклад, портативний «Handy Truster» південнокорейської компанії 911Computer Co (розміри 52х83х17, вага 45м (з батареєю) дає можливість визначати дев'ять рівнів «правдивості» і дев'ять рівнів стресу. Вірогідність висновків, за твердженнями фірми — 76-82%, а збіжність з результатами на поліграфі — 100%. Подібні пристрої випускають ще кілька фірм, у тому числі і вмонтовані в телефон. Результати тестування трастером не можуть бути серйозним доказом, наприклад, при судових розглядах. Трастер можна розглядати як іграшку, творці якої, проте, використовували серйозні розробки і досягнення мовних технологій.

   Задача ідентифікації особистості по голосу тісно пов'язана з успіхами науки в області інших мовних технологій, у тому числі технології розпізнавання мови. Істотним фактором стримування застосування технологій розпізнавання мови та ідентифікації по голосі була неможливість автоматичної сегментації мовного сигналу — адекватного поділ їх на одиниці, що співвідносяться з елементами алфавіту. Деякі вчені й зараз упевнені в тім, не можна провести коректну автоматичну сегментацію мови. Проте, у даний час розроблені алгоритми автоматичної сегментації мови. І хоча проблем, схоже, менше не стало, результати вражають. Так, наприклад, інтелектуальний телефонний комутатор канадської компанії «Mitel» приймає дзвоники і відключає абонентів, чиї голоси занесені в «чорний список». Ця система спроектована спеціально для радіостанцій, що приймають дзвонки радіослухачів у прямому ефірі, що іноді приводить до неприємних ситуацій. Вбудована в комутатор програма ідентифікує голоси «провинених» радіослухачів, яких ні в якому разі не можна пускати в ефір. Голосова система набагато ефективніше систем аналогічного призначення, що фільтрують вхідні дзвоники за номером телефону.

   Є ще більш вражаючі приклади. Так, в Інтернеті є відомості про систему розпізнавання мови «Оазис» («Oasis»), що використовувалась ЦРУ для пошуку терористів. Система здатна проводити лексичну і голосову ідентифікацію особистості по радіо чи телевізійній трансляції і телефонним переговорам. Повідомляється, що система має механізм машинного перекладу і дозволяє проаналізувати півгодинну трансляцію протягом 10-90 хвилин.

   Аналіз тенденцій розвитку мовних технологій дає підстави думати, що системи розпізнавання мови й ідентифікації досить швидко можуть пройти стадію автоматизованих програмно-апаратних комплексів і перейти на рівень мікропристроїв — чипів, що вбудовуються в різні мовні термінали: телефони, персональні комп'ютери, банкомати, системи документування і системи безпеки. Цілком можливо, що засобу мовного керування, системи диктування, засобу ідентифікації по голосі, синтезатори мови стануть такими ж звичайними атрибутами ділового життя, як факс і комп'ютер.

Володимир Шмалько
генеральний директор фірми «ІНТЕЛ-МЕДІА СЕРВІС», к.т.н.

Україна, Харків, вул. Трінклера, 6, к. 41
Тел. +38 (057) 714-23-16, моб. 8 (067) 954-91-61
Веб-сайт: http://www.arphone.com.ua, e-mail: ims@ic.kharkov.ua