10 березня 2025, 15:49

Блиск і злидні Sive Base (фоноскопічна експертиза). Частина 4 — остання

(Україна — не Литва)

Семен Ханін
Семен Ханін «АМБЕР» керуючий партнер, адвокат, к.е.н., заслужений юрист України

За результатами фонетичної експертизи (дослідження диктора за фізичними параметрами усного мовлення, акустичних сигналів та середовищ) часто вирішується доля людини. На практиці ми маємо, на жаль, зневажливе ставлення до описової частини таких експертиз з боку суддів, та ще більш зневажливе ставлення з боку експертів. Наразі ми маємо справу з випадком, коли зазначене у висновку експерта викликає регіт, та судді все одно не бачать підстав для призначення повторної експертизи.


Маєте Телеграм? Два кліки - і ви не пропустите жодної важливої юридичної новини. Нічого зайвого, лише #самасуть. З турботою про ваш час!


Але якщо комусь з юристів все ж таки цікаво, то я спробую максимально зрозуміло пояснити чому, наприклад, виконання вказаної експертизи із застосуванням програмного комплексу Sive Base викликає багато запитань. (Для початку прошу прочитати першу частину «смак окремих інгредієнтів у супі», другу частину «поміряємо що завгодно, та що небудь порахуємо» та третю частину «для мене і ведмідь не прокурор, і хеш-сума не контрольна сума»).

У мене є стійке переконання, можливо помилкове, що справа з Sive Base розпочалася за наступним сценарієм. Є такий Шална Б. — старший спеціаліст відділу фоноскопічних експертиз Центру Судової експертизи Литви, доктор технічних наук. Він створив певну методику, скажімо з назвою Sive Base. Але після того, як до складу авторів приєдналися ще декілька громадян України, її стали активно купувати певні українськи експертні установи. Тому автори є, а методики немає.

Та хай би йому грець, але виникає важлива деталь: Україна — не Литва. Тобто (вірогідно) навчали коректно працювати цю модель на литовській мові, а використовують для української та російської мов. На скільки це суттєво? Дуже суттєво, так як створює дві невирішені проблеми — фоноскопічну та математичну.

Проблеми при використанні методики та програмного забезпечення (пз) для фоноскопічного аналізу литовської мови на українській та російській мовах

Якщо фоноскопічна система була навчена для литовської мови, але використовується для української та російської мов, це може викликати серйозні проблеми у точності аналізу. Основні проблеми пов’язані з фонетичними, артикуляційними, спектральними та мовними особливостями.

1. Відмінності у фонетиці та фонології

Фоноскопічний аналіз орієнтується на особливості мовлення, зокрема на тембр, артикуляцію, ритміку, форманти та спектр голосу.

Ключові проблеми:

- різний набір звуків.

Литовська мова містить довгі голосні, яких немає в українській чи російській мовах.

Українська має м'які «д», «т», «л», «н», що відсутні в литовській мові.

Російська має редукцію голосних, якої немає в литовській та українській;

- відмінності в наголосі та інтонації:

литовська мова має тональний наголос, що суттєво впливає на аналіз тембру та мелодики мовлення.

В українській та російській мовах наголос динамічний і змінний, що змінює довжину голосних та частотні характеристики;

- різна структура слів:

у литовській багато слів відкритої структури (голосний-приголосний-голосний), а в українській і російській багато закритих складів, що змінює темп і спектральні характеристики голосу.

Наслідки

Алгоритми можуть помилково ідентифікувати мовця, оскільки аналіз звуків базується на литовській моделі.

Помилки у порівнянні голосів через нерелевантні акустичні параметри.

2. Спотворення тембральних характеристик (Timbre & Formants).

- тембр голосу значною мірою залежить від формантних частот F1, F2, F3;

- в українській та російській мовах співвідношення між голосними зовсім інше, ніж у литовській;

- литовська мова має ширший частотний діапазон голосних, що може змінювати алгоритмічне розпізнавання голосу.

Наслідки

Якщо модель навчена на литовській, вона неправильно класифікуватиме форманти голосних в українській і російській мовах.

Тембр може здаватися іншим, що призведе до помилкового розпізнавання мовця.

3. Проблеми з порівнянням голосів у базах даних.

- якщо база для порівняння створена для литовських мовців, порівняння з українськими та російськими записами буде некоректним;

- блоки Pitch Histogram, Timbre, Max Harmonics, Voice Clarity будуть спотворені через невідповідність моделей;

- проблеми динамічного порівняння мовлення (Dynamic Time Warping, DTW) через різну довжину голосних і ритміку.

Наслідки

Голоси можуть не співпадати навіть якщо це одна й та сама людина.

Або, навпаки, дві різні особи можуть бути помилково ідентифіковані як одна.

4. Вплив на автоматичне розпізнавання мовлення (ASR, STT).

- якщо ПЗ має вбудоване автоматичне розпізнавання мовлення (ASR, Speech-to-Text), воно може неправильно транскрибувати українську та російську мови через невідповідність фонемної моделі;

- українська мова має більше дифтонгів та м’яких приголосних, ніж литовська;

- російська мова має звукову редукцію, яку литовська не використовує.

Наслідки:

Неправильне розпізнавання слів вплине на загальний фоноскопічний аналіз.

Це може спотворити аналіз швидкості мовлення, ритміки та пауз, які є важливими для ідентифікації голосу.

5. Відмінності у фонетичному спектрі шумів та артефактів запису.

- у литовській мові менше шумових приголосних, ніж в українській та російській;

- шиплячі звуки («ш», «ч», «ж», «щ») мають інший спектральний розподіл в різних мовах;

- алгоритми, які визначають шумові профілі, можуть некоректно впливати на спектральний аналіз голосу.

Наслідки

Шумоподавлення та спектральна фільтрація можуть працювати некоректно.

Голосові записи з шумами можуть ідентифікуватися по-різному в залежності від мови.

6. Відмінності в інтонації та просодії.

- литовська мова має тональну інтонацію, яку не мають українська та російська;

- українська мова мелодійніша за російську, а російська має монотонніший ритм.

Наслідки

Алгоритм може неправильно інтерпретувати інтонаційні особливості, що вплине на розпізнавання мовця.

Голосові спектрограми можуть давати хибні збіги або відмінності.

7. Технічні та методологічні проблеми.

- фоноскопічні бази для литовської мови не включають особливості української та російської;

- стандарти формування голосових зразків відрізняються (різний набір тестових слів, фраз для аналізу);

- помилки в статистичних методах порівняння, якщо модель побудована на неправильних вибірках.

Наслідки:

Може знадобитися повна переадаптація моделі під українську та російську мови.

Результати можуть бути некоректними або неправомірними в судовій експертизі.

Висновки та можливі рішення

Основні ризики:

- зниження точності ідентифікації мовця через мовні відмінності;

- хибні позитивні або негативні результати при порівнянні голосів;

- невідповідність статистичних та спектральних характеристик голосу;

- методологічні помилки через невідповідність моделі мові дослідження.

Математична проблема

Що юрист знає про теорію ймовірностей. Юрист знає про частотну теорію, яка каже, що якщо дуже довго підкидувати монету в гору, то кількість разів, коли випаде орел, та випаде решка буде практично однакова. І юрист знає, що можливо казати про вірогідність 50% випадіння орла. І для цієї статті ми не будемо розширювати ці знання.

Але, окрім частотного підходу, є ще Баєсова інтерпретація вірогідності, коли ймовірність відображає ступінь довіри до події.

Програмні комплекси, що працюють при ідентифікації по голосу та мовленню, працюють з Баєсовою інтерпретацією вірогідності, тобто дещо з іншою вірогідністю, незрозумілою та незвичною для юристів.

Хай у нас є мішок з шарами — червоними та білими. Але нам не відомо як про кількість шарів, так і про співвідношення червоних та білих шарів. Ми виймаємо шар з мішка, записуємо його колір, та кладемо назад. Робимо висновок відносно співвідношення білих та червоних шарів. Далі знов витягаємо шар! Але вже ми змінюємо свою гіпотезу з урахуванням попереднього результату. І так, поки не втомимося. Тобто ми змінюємо свою гіпотезу кожний раз з урахуванням попередніх досліджень, з кожним вимірюванням роблячи гіпотезу кращою. Між іншим, результат такого дослідження математики називають умовною вірогідністю. 

Маленьке зауваження. Ймовірність кожного разу витягнути червоний чи білий шар не залежить від попередніх спроб. Якщо, наприклад, червоних шарів — 40, а білих 60, то вірогідність кожний раз витягнути червоний шар – 40%. Але ми ж не знаємо як шари розфарбовані. І щоразу витягуючи шар, ми змінюємо свою гіпотезу про кількість червоних та білих шарів з урахування результату експерименту та попередніх результатів випробувань, відповідно змінюється умовна вірогідність. Але відображає вона дещо інше. На нашому прикладі, можливо уявити графік у вигляді дзвону, де вершина дзвону — буде максимальною вірогідністю події, що червоних шарів 40%, а сторони дзвону, що йдуть до низу, ймовірність іншого співвідношення.

Зображення3

Про неочевидні речі. Або як виграти справу про наркотики.

Кожний тест на наркотики не ідеальний.

У тесту є така властивість як чутливість, що означає вірогідність того, що людина, яка дійсно приймає наркотики буде виявлена тестом. Хай така чутливість — 97%.

У тесту є така властивість як специфічність, що означає, вірогідність того, що людина, яка не приймає наркотики буде відображена тестом як така що не приймає наркотики. Хай така специфічність — 95%.

Звертаю вашу увагу, що наслідками тесту може бути не 2, а 4 результати:

- людина приймає наркотики, та тест її виявив;

- людина приймає наркотики, та тест це не виявив;

- людина не приймає наркотики, але тест помилився, та показав що приймає;

- людина не приймає наркотики, та тест це підтвердив.

Ще дуже важливий показник, це показник раніше проведених досліджень (як з шарами). Наприклад, ми перевірили усю країну, та встановили, що 0.5% громадян приймають наркотики. Тобто, якщо б ми випадковим чином вибрали людину з усіх громадян країни, то з вірогідністю 0.5% вона наркоман.

Тоді, оцінюючи результати тесту, який дав відповідь про наркозалежність людини, ми повинні застосувати нові знання про умовну вірогідність, яка розраховується наступним чином:

0.97 x 0.005 / (0.97 x 0.005 + (1-0.95)x(1-0.005))=0.09, тобто справжня можливість бути наркоманом з позитивним результатом цього тесту становить лише 9%, а не 97% — як зазвичай у судовому засіданні псевдоексперт та дефектив скажуть судді!

Ось що таке Баєсова інтерпретація вірогідності, та її відмінність від частотної теорії.

Про фоноскопічну експертизу

Пошукайте у Google стосовно програмного комплексу Sive Base. Там побачите наступне:

«Програмний комплекс для ідентифікації людини по голосу та мовленню SIVE Base використовується для визначення та порівняння параметрів голосу мовця об`єктивним способом з метою відображення статистичного розподілу відповідних параметрів на діаграмах і розрахування коефіцієнту кореляції між цими діаграмами….Sive Voice — програмний комплекс для автоматичного пошуку досліджуваного голосу в заданому наборі файлів, що містять зразки голосів, на основі Баєсовської оцінки».

Ой, як цікаво!!!!!

Наскільки важливі результати попередніх досліджень для Баєсовської оцінки ми вже зрозуміли на прикладі тесту на наркотики. Тут така сама справа. Програмний комплекс навчають, та потім перевіряють це навчання, на певній групі осіб. Не потрібно бути лінгвістом, щоб зрозуміти наскільки ця група є визначальною. Хто ці люди, які навчали модель? Вони були англомовні? Вони були російськомовні? Вони розмовляли українською, але це не була їх рідна мова? Як ці люди відрізнялися за віком та статтю? Скільки було осіб у згаданій групі? Без відповіді на ці питання використання певного програмного комплексу є лише шарлатанством.

А це ще далеко не усі запитання. А як було записано експериментальний та контрольний зразки, однією технікою чи різною? Частота дискретизації? Розмір глибини бітів?

Тобто що відбулося. Простою мовою.

За допомогою перетворення Фур’є запис з голосом та мовленням Особи розкладають на прості гармоніки по частотам. (Це як у школі біле світло завдяки призмі розкладають на спектр). 

Далі за допомогою, наприклад, відстані Кульбака–Лейблера на основі тестової групи осіб навчають певну модель ідентифікувати Осіб по голосу та мовленню. (За допомогою лінійки вимірюють різницю у рості між людьми, та відбирають максимально схожих за ростом).

І це насправді наука — математика.

Потім йде певне шарлатанство на етапі створення програмного комплексу, а саме шарлатанство полягає у відсутності відповідей на раніше зазначені питання. Крім того, насправді, є ще дуже велика кількість запитань: технічні характеристики запису та їх вплив на чутливість та специфічність методу та інше. Все це добре розуміється математиками, але сумлінно приховується експертами, що використовують такі програмні комплекси. Та за допомогою цієї АБВГДейки вирішується доля людей та працює наше правосуддя.

Читайте також:

Блиск і злидні Sive Base частина 1 (смак окремих інгредієнтів у супі)

Блиск і злидні Sive Base Частина 2 (поміряємо що завгодно та щось порахуємо)

Блиск і злидні Sive Base (фоноскопічна експертиза). Частина 3

0
0

Додати коментар

Відмінити Опублікувати