06 березня 2025, 17:52

Блиск і злидні Sive Base Частина 2 (поміряємо що завгодно та щось порахуємо)

Семен Ханін
Семен Ханін «АМБЕР» керуючий партнер, адвокат, к.е.н., заслужений юрист України, член правління ААУ

За результатами фонетичної експертизи (дослідження диктора за фізичними параметрами усного мовлення, акустичних сигналів та середовищ) часто вирішується доля людини. На практиці ми маємо, на жаль, зневажливе ставлення до описової частини таких експертиз з боку суддів, та ще більш зневажливе ставлення з боку експертів. Наразі ми маємо справу з випадком, коли зазначене у висновку експерта викликає регіт, та судді все одно не бачать підстав для призначення повторної експертизи.


Маєте Телеграм? Два кліки - і ви не пропустите жодної важливої юридичної новини. Нічого зайвого, лише #самасуть. З турботою про ваш час!


Але якщо комусь з юристів усе-таки цікаво, то я спробую максимально зрозуміло пояснити чому, наприклад, виконання вказаної експертизи із застосуванням програмного комплексу Sive Base викликає багато запитань (для початку прошу прочитати першу частину «смак окремих інгредієнтів у супі»).

Зображення2

Я, як і усі, люблю посміхнутися. Але коли вирішується доля людини, сміятися мають усі, або ніхто.

Для визначення мовця, тобто для порівняння голосу та мовлення диктора на зразку 1 та зразку 2, за допомогою програмного комплексу Sive Base експерт проводить аналіз ідентифікаційних ознак фономатеріалу. У тому числі будує Voice clarity histograms.

Voice Clarity Histogram — це гістограма, яка використовується для аналізу та візуалізації якості голосового сигналу, зокрема його чіткості. Вона дозволяє оцінити, наскільки розбірливим і зрозумілим є голос у записі чи в реальному часі.

Обмеження Voice Clarity Histogram у порівнянні мовців:

1. Не дає унікального голосового «відбитку».

Вона показує лише розподіл рівня чіткості мовлення, а не унікальні голосові особливості (наприклад, тембр, форманти, спектрограми).

2. Чутливість до зовнішніх факторів.

Якщо якість запису різна (наприклад, один запис зроблено в шумному місці, а інший — у тиші), це може спотворити результати.

Мовець може говорити чіткіше або менш чітко залежно від обставин.

3. Не враховує інші біометричні параметри голосу

Для точної ідентифікації мовця зазвичай використовуються мел-кепстральні коефіцієнти (MFCC), голосові форманти, тональний аналіз (pitch analysis) та глибокі нейронні мережі.

На практиці вказані зразки завжди записані у різній якості. Як-от Зразок 1 зазвичай отримано унаслідок НСРД, наприклад завдяки диктофону «Москіт», та запис йде з великим зовнішнім шумом вулиці, чи звичайних шумів при спілкуванні у ресторані, то Зразок 2 зазвичай орган досудового розслідування отримує за наслідком судового засідання, наприклад обрання міри запобіжного заходу, де запис мовця йде на зовсім інше обладнання, в іншому форматі, з іншим кодеком, та практично без зовнішніх шумів. Навіть неспеціалісту зрозуміло, що якість звукового сигналу буде завжди відрізнятися суттєво, тобто яке значення вказаної гістограми для аналізу залишається незрозумілим.

Я пригадав анекдот із дитинства.

Василь гукає до Петра: «Прибор?»

Петро: «П’ять!»

Василь: «Що п’ять?»

Петро: «А що прибор?»

Тобто поміряємо що завгодно, та що небудь порахуємо.

Усім мабуть цікаво, а що та в яких одиницях виміряно. По осі Y на вказаних гістограмах взагалі нічого не зазначено, а по осі Х стоять якісь магічні цифри — 13.7, 210.5, 407.4, 604.3, 801.2, 998.0.

Що найбільш ймовірно?

Найімовірніше, що значення по осі X — це нормалізований індекс чіткості голосу у відносних одиницях (scaled clarity score, 0–1000).

  • Низькі значення (~13.7–100) можуть означати низьку чіткість (шум, погана дикція, ефекти реверберації).
  • Високі значення (~900-1000) можуть означати високу розбірливість.

Найймовірніше, що по осі Y — це кількість фрагментів мовлення (частота випадків), у яких зустрічається певний рівень Voice Clarity (X).

  • Низькі значення Y означають, що деякі рівні чіткості зустрічаються рідко.
  • Високі значення Y означають, що певний рівень чіткості спостерігається дуже часто.

Висновок

  • X (горизонтальна вісь) = рівень чіткості голосу (scaled clarity score, 0-1000).
  • Y (вертикальна вісь) = кількість сегментів мовлення (частота появи певного рівня clarity score).
  • Чим більше значення Y у високих X, тим якісніше мовлення у записі.

Далі в порівняльній гістограмі зазначені певні статистичні характеристики:

1. Мінімум

2. Максимум

3. Mean (середнє), яке перекладається як «математичне очікування»

Що означає Mean у нашій гістограмі?

  1. Mean = 201.40 (для Zrazok Sh.ton). Середня чіткість голосу у першому записі вища, ніж у другому.Це означає, що голос в середньому був більш розбірливий.
  2. Mean = 175.29 (для DFSh.ton) Чіткість голосу в цьому записі нижча, ніж у першому.Це може вказувати на більш глухе або менш чітке мовлення.

4. Deviation (відхилення) — означає, наскільки певні значення відрізняються від (mean)

Порівняння Deviation у нашій гістограмі

Zrazok Sh.ton → Deviation = 175.34

→ Чіткість голосу змінюється більш варіативно, можливі різкі переходи між дуже чіткими і менш чіткими сегментами.

DFSh.ton → Deviation = 92.27

→ Голос стабільніший за чіткістю, менше варіацій у вимові.

Висновок:

  • Якщо Deviation більше → голос нестабільний по чіткості.
  • Якщо Deviation менше → голос стабільний по чіткості.

5. Skewness (асиметрія) — це статистична міра, яка показує, наскільки розподіл даних відхиляється від симетричного (нормального) розподілу. Вона вказує на нахил або перекіс розподілу відносно середнього значення.

У нашій гістограмі:

Zrazok Sh.ton → Skewness = 1.93 → Правобічний перекіс (більшість значень низькі, але є довгий хвіст вправо).

DFSh.ton → Skewness = 0.63 → Майже симетричний розподіл (чіткість голосу розподілена більш рівномірно).

6. Curtosis — це коефіцієнт ексцесу, який описує, наскільки «гостроверхий» або «плоский» розподіл даних порівняно з нормальним розподілом.

Що означає Curtosis у нашому випадку?

  1. Zrazok Sh.ton (Curtosis = 7.16) → Розподіл дуже гостровершинний.
  2. → Голос має переважно стабільну чіткість, але зрідка трапляються дуже різкі коливання (дуже нечіткі або дуже чіткі моменти).
  3. 3.    DFSh.ton (Curtosis = 3.79)

 → Розподіл більш нормальний, менш гостровершинний.

→ Чіткість голосу розподілена рівномірніше, без різких змін.

Висновок:

  • Zrazok Sh.ton → Дуже різка концентрація чіткості мовлення біля певного значення, але іноді бувають екстремальні відхилення.
  • DFSh.ton → Голос більш рівномірний за чіткістю, без різких «стрибків» у крайніх значеннях.

7. Coincidence (співпадіння, коефіцієнт збігу) у нашій гістограмі означає ступінь подібності між двома розподілами чіткості голосу (Voice Clarity Score) для Zrazok Sh.ton та DFSh.ton.

Як інтерпретувати Coincidence?

Коефіцієнт Coincidence = 0.6608 зазвичай має значення від 0 до 1:

Якщо Coincidence = 1, це означає, що обидва розподіли ідентичні (чіткість голосу розподілена однаково для обох мовців / записів).

Якщо Coincidence = 0, це означає, що немає жодного збігу між двома розподілами.

Якщо Coincidence = 0.6608, це означає, що ці розподіли мають середню подібність (вони не ідентичні, але мають значну схожість).

Що означає значення 0.6608 у нашому випадку?

  1. Розподіл чіткості голосу між двома записами має схожі характеристики, але не є повністю однаковим.
  2. Деякі діапазони чіткості голосу (X) мають схожі частоти (Y), але є відмінності у крайніх значеннях або загальному розподілі.

Висновок:

  • Якщо аналізується один і той же мовець, це може свідчити про різну якість запису або зміну мовлення в різних умовах.
  • Якщо аналізуються різні мовці, то вони мають певну подібність у чіткості мовлення, але їх голоси не ідентичні.

8. Correlation (кореляція) — це статистична міра, яка показує ступінь зв’язку між двома розподілами чіткості голосу (Voice Clarity Score) у записах Zrazok Sh.ton та DFSh.ton.

9. Відстань Кульбака-Лейблера (KL-Divergence, KL-відстань) — це міра відмінності між двома розподілами. Вона показує, наскільки інформація в одному розподілі відрізняється від іншого.

Як інтерпретувати KL-Divergence?

  • Якщо KL = 0, це означає, що обидва розподіли ідентичні.
  • Чим більше значення KL, тим сильніше розподіли відрізняються.
  • Значення 0.8032 означає, що розподіли мають суттєві відмінності, хоча вони не абсолютно різні.

10. Common Coefficient  (загальний коефіцієнт) — це узагальнена міра подібності.

У математичній статистиці немає єдиного стандартного методу обчислення Common Coefficient, оскільки він залежить від контексту.

Найчастіше використовуються 5–7 підходів, але можна створити й більше, комбінуючи різні міри подібності. Тут ми нічого без методики не вгадаємо.

Які суперечності в нашій гістограмі?

Висока кореляція (0.9164) при середньому збігу (0.6608).

Що це означає?

  1. Кореляція 0.9164 означає, що обидва голоси змінюються схожим чином.
  2. Але Coincidence 0.6608 означає, що вони не ідеально збігаються у частотному розподілі.
  3. Це означає, що голоси можуть мати схожий патерн змін, але різні піки або варіативність.

Чому це може бути суперечливим?

Якщо кореляція дуже висока, ми очікували б, що збіг (Coincidence) буде ще вищим (~0.85+).

Ймовірно, є різниця у частоті появи певних значень чіткості голосу.

Це може свідчити про стилістичні або технічні відмінності між записами (наприклад, один голос більш рівномірний, інший має сплески в чіткості).

Висока асиметрія (Skewness = 1.93 для Zrazok Sh.ton) при високій чіткості голосу (Mean = 201.40).

Що це означає?

  1. Висока асиметрія (1.93) означає, що більшість значень знаходиться в нижній частині шкали, а є рідкісні дуже високі значення.
  2. Але Mean = 201.40 означає, що в середньому голос досить чіткий.

Чому це може бути суперечливим?

Якщо голос у середньому чіткий, ми очікували б меншу асиметрію, тобто рівномірний розподіл значень.

Але висока асиметрія означає, що в записі є дуже багато низьких значень чіткості та поодинокі дуже високі значення.

Це може означати неоднорідний запис (деякі частини дуже розбірливі, деякі — ні) або наявність шуму.

Високий ексцес для Zrazok Sh.ton (Curtosis = 7.16) при нестабільному голосі (Deviation = 175.34).

Що це означає?

  1. Curtosis = 7.16 означає дуже гостровершинний розподіл → більшість значень скупчені в одному місці, але є рідкісні екстремальні значення.
  2. Deviation = 175.34 означає, що чіткість голосу сильно змінюється в записі.

Чому це може бути суперечливим?

Якщо Curtosis високий, це означає, що розподіл вузький, тобто більшість значень повинні бути близькі один до одного.

Але якщо Deviation також високе, це означає, що є багато розкиданих значень.

Це може означати нестабільний голос, де більшість часу голос стабільний, але є окремі моменти дуже сильних змін (наприклад, шум, перепади гучності, перешкоди в записі).

KL-Divergence (0.8032) при високій кореляції (0.9164).

Що це означає?

  1. Висока кореляція (0.9164) означає, що два голоси змінюються однаково.
  2. Але KL-Divergence = 0.8032 означає, що розподіли містять значну кількість унікальних особливостей.

Чому це може бути суперечливим?

Якщо два голоси корелюють майже на 1, ми очікували б дуже малу KL-відстань (~0.2–0.3).

Але KL = 0.8032 показує, що є істотна різниця у розподілах.

Це може означати, що голоси змінюються схожим чином (кореляція), але мають різну варіативність та унікальні особливості (наприклад, один голос більш рівномірний, інший має сильні сплески).

Тобто, аналізуючи вказану порівняльну гістограму, за умови запису голосу та мовлення в однакових умовах, експерт мав би прийти к висновку, що це два різних мовця.

У нашому випадку, коли DFSh.ton отримано унаслідок НСРД, наприклад, завдяки диктофону «Москіт», а Zrazok Sh.ton орган досудового розслідування отримав за наслідком судового засідання, де запис мовця йшов на зовсім інше обладнання, в іншому форматі, з іншим кодеком, згадане порівняння взагалі безглузде.

Але експерт ще прийшов до висновку, що голос та мовлення на обох записах належать одному мовцю. З таким успіхом по згаданим записам експерт міг ще оцінити колір волосся.

Як то кажуть, чекаємо у наступних експертизах!

Читайте також: «Блиск і злидні Sive Base частина 1 (смак окремих інгредієнтів у супі)».

0
0

Додати коментар

Відмінити Опублікувати