Не за горами той день, коли приватні виконавці почнуть працювати в Україні. Міністерство юстиції вже встигло протестувати та видати свідоцтва першій хвилі охочих опанувати нову професію. Однак у тих, хто склав іспит, а також у тих, хто не склав його, залишилося чимало питань щодо кваліфіспиту, який складався з трьох етапів – тестування, ситуаційного та практичного завдання.
![]() |
Маєте Телеграм? Два кліки - і ви не пропустите жодної важливої юридичної новини. Нічого зайвого, лише #самасуть. З турботою про ваш час! |
«Юридична Газета» вирішила дізнатися про специфіку оцінювання кандидатів з позиції тестології. Отже, про тонкощі тестування нам розповів президент МГО «Універсальна екзаменаційна мережа» (далі – УЕМ) Сергій Мудрук.
- Пане Сергію, як давно УЕМ займається розробкою освітніх тестів? Як вам працюється на українському ринку?
- Команда УЕМ існує вже 15 років і наші тести проводяться в 11 країнах. З державними установами співпрацюємо у 4-х країнах. В Україні перші наші контакти з держрегуляторами припали на 2007-2008 рр. Працюючи з Мін’юстом, я мало не вперше мав справу з ситуацією, коли чиновники справді були готові слухати фахівців, як правильно будувати систему кваліфікаційного фільтру. В Україні це найкращий прецедент. Його неможливо порівнювати з іншими доборами (наприклад, нотаріусів, прокурорів тощо). На мою думку, створення нової професії приватного виконавця, з позиції тестології та кваліфікаційної частини конкурсу, є хрестоматійним, позитивним прикладом старту. Якщо належним чином буде сформовано органи самоврядування, то від цього залежатиме, наскільки успішним стане впровадження інституту приватного виконання.
- На Вашу думку, це серйозно може вплинути на формування інституту приватного виконання?
- Ми проводимо сертифікаційні, ліцензійні іспити для певної кількості самоорганізованих професійних спільнот, тому можемо спостерігати впродовж багатьох років за долею різних професій та сценаріїв (як позитивних, так і негативних) їх розвитку. Ми споглядали за тим, що відбувається, коли особи, які є обраними представниками професії, починають іноді правильно, а іноді неправильно здійснювати саморегуляцію. Повторюся, що наразі старт дуже вдалий, але наскільки правильно буде запущена робота професійної асоціації, наскільки правильно вона почне регулювати власну професію – це можна буде побачити через рік або два.
- Багатьом кандидатам був не зовсім зрозумілий критерій оцінювання. Наприклад, показник успішності вирішення практичного завдання визначається Кваліфкомісією відповідно до 5-ти критеріїв, кожен з яких оцінюється у 5 балів. Таким чином, виходить або 5, або 0 балів. При цьому оцінки Комісією виставлялися з десятими долями балів. Наскільки такий підхід правильний? Чим він обґрунтований?
- Не потрібно так примітивно сприймати ситуацію. Що стосується десятих долей, то тут все просто. Відкриваємо нормативний документ Мін’юсту і розуміємо, якщо зібралися 7 членів Кваліфікаційної комісії, припустимо, що кожен з них виставляє оцінку або 0, або 5 за певний критерій. Саме припустимо, тому що все може бути іншим чином. Це питання інтерпретації пунктів нормативного документа.
Отже, наприклад, 5 із 7 членів Кваліфкомісії поставили оцінку 5, а 2 із 7 поставили оцінку 0. В нормативному документі зазначено, що кожен член комісії діє самостійно і виставляє власну оцінку, а в результаті кандидат отримує середньоарифметичний бал. Рахуємо: 5 оцінок по 5 (два нулі не рахуються) це 25 балів. Ділимо їх на 7 членів комісії – отримуємо 3,57 бала за цей конкретний критерій, а їх усього 5. Тобто ми вже бачимо, що тут є і десяті, і соті долі. Якщо скласти всі 5 критеріїв з такими долями, то не часто вийде отримати ціле число. До того ж, наскільки я розумію, програмне забезпечення округлює значення до десятих долей, тому соті й тисячні долі ми не бачимо.
Стосовно того, що це має бути або 0, або 5. Я не правник, але як тестолог просто не бачу обґрунтованості саме цієї інтерпретації. Для мене те, що написано в нормативному документі Міністерства – це просто діапазон балів від 0 до 5. Якщо оцінювати за критерієм грамотності, якщо людина припустилася кількох зовсім непринципових помилок, це не є причиною ставити 0 балів. У такому випадку можна поставити, приміром, 4 чи 4,5 балів. Власне кажучи, щодо цього я маю певну позицію.
Водночас я бачу, що особи, які відповідають за цю реформу, роблять висновки з досвіду, прислухаються до фахівців. Я вважаю, щоб уникнути таких інтерпретацій (або 0, або 5), необхідно прописати в нормативному документі чорним по білому, що це шкала від 0 до 5. При цьому не потрібно деталізувати, що 1 – це погано, а 3 – задовільно. Оскільки ці деталі належать більше до інструменту, який у тестологів називається формуляром оцінювання. Ці формуляри не можуть бути зовсім універсальними, тому що існують різні практичні завдання. Є практичні завдання, що вимагають написати два процесуальних документи, а є такі, коли потрібно написати один документ. Тобто закріпити єдиний, абсолютно жорсткий спосіб оцінювання, не враховуючи природу завдання, неправильно.
Міністерство юстиції отримало рекомендації від експертів проекту ЄС “Підтримка реформ у сфері юстиції в України” стосовно типового формуляра оцінювання. Наскільки мені відомо, члени кваліфкомісії використовують аналітичний, а не холістичний підхід. Тобто не той підхід, коли прийшов, побачив і сказав: «Мені здається (без пояснень), що за це кандидат має отримати 2,73 бала». Застосовується підхід, коли бал складається компонентно, тобто оцінка практичного завдання, складається з 5 критеріїв, кожен з яких складається з кількох обґрунтованих елементів. Це і називається аналітичним підходом.
- Чи може процесуальний документ, складений під час виконання практичного завдання, бути обґрунтованим, але незаконним. Чи може кандидат, який неправильно вирішив практичне завдання, отримати по 5 балів за «дотримання правил правопису» та «дотримання загальних правил українського ділового мовлення».
- На першу частину питання відповідь – може. На другу – так само, може. Критерії, прописані в нормативному документі Мін’юсту, і є формально незалежними. Було б погано і неправильно, якби оцінку за стилістику української мови та оцінку за грамотність члени Кваліфкомісії виставляли з урахуванням правничих аспектів того, що написала людина. Це було б прямим порушенням методології підходів до оцінювання. Тобто критерії мають бути незалежні, оцінки за різні критерії – також незалежні. Якби оцінки за різні критерії залежали одна від одної, це були б подвійні стандарти. А це означало б , що критерії не виписані належним чином.
- Досвід, на підставі якого розроблена методологія, алгоритм оцінювання та база тестових запитань – це український винахід чи напрацювання практик інших країн?
- Це кращий запозичений досвід у сфері тестології. Однак це не 100% європейський досвід, хоча в Європі він досить вагомий, а розробка тестів активно підтримувалась Координатором проектів ОБСЄ в Україні. Загалом, рівень такого досвіду найвищий у країнах, які інвестували багато коштів впродовж останнього століття в різні тестологічні дослідження. Насамперед, це США. В Європі дуже різні підходи, оскільки там існують різні системи освіти. Є континентальна (не плутати з континентальною системою права), є так звана трансатлантична система освіти. Приміром, у Британії головним чином покладаються на експертні, неаналітичні підходи до оцінювання, а об’єктивність забезпечують механізми підтримки репутації, стримувань і противаг. Однак це можливо лише в суспільстві зі століттями успішного прецедентного досвіду, з найглибшою повагою до прецеденту і до власної і чужої репутації. У країнах з бурхливим розвитком ринків і нових професійних систем це не працює, тому застосовуються більш аналітичні методи. Отже, запозичувати (наприклад, Британський досвід) для України принципово неможливо, тому що у суспільства немає довіри до авторитетів. Люди довіряють лише фактам. У нас в усіх сферах майже немає безапеляційних, абсолютних авторитетів, тобто авторитет у нас не працює. У нас працюють докази, аналітичні підходи.
- Вже завершилися іспити кандидатів у приватні виконавці. Чи виявилися якісь недоліки, які потрібно усунути в майбутніх тестуваннях?
- Так, є певні недоліки. Я також маю деякі рекомендації щодо покращення тестування. По-перше, якщо ми говоримо про практичне завдання, то потрібно більш чітко прописати критерії, щоб не допускати нерозумних трактувань «або 0, або 5». Необхідно зазначити, що це шкала саме від 0 до 5. Хоча юристи кажуть, що так, як написано зараз, саме те і значить.
По-друге, розподіл балів 5 критеріїв виписаний дуже грубо. 5 критеріїв по 5 балів. Якщо при цьому ми беремо мовний компонент, то він складає 10 балів із 25 балів, тобто 40%. У кваліфоцінюванні представника однієї з юридичних професій – це забагато. Я пропоную обов’язково переглянути пропорції між цими компонентами.
По-третє, потрібно встановити якийсь окремий прохідний бар’єр у практичному завданні. Наприклад, існує 3 компоненти кваліфікаційного іспиту. Перший – тест, в якому є мінімальний бал. Якщо кандидат його не набирає, то вибуває з конкурсу. Другий – ситуаційні завдання, де також є мінімальний бал. Третій – практичне завдання. Саме на цей завершальний етап, мінімального балу немає як такого, працює мінімальний загальний бал на загальну суму. Тобто загалом ця схема працює, але як на мене, ключовим елементом кваліфікаційного оцінювання будь-якої професії має бути той елемент, який оцінює практично значущі професійні навички.
Тест – вимірює знання в галузі права. В ситуативних завданнях вже йдеться про правозастосування, перевіряються певні елементи професійних компетенцій. А квінтесенція професійних компетенцій перевіряється саме на практичному завданні. На мою думку, це вкрай важливий компонент кваліфоцінювання. В межах так званого компенсаторного методу формування загальної оцінки допустити недооцінку останнього компонента є ідеологічно не дуже правильним. Що означає компенсаторний метод? Існують 3 компоненти оцінювання, а загальна оцінка є їх математичною сумою. Тобто недоліки результату з одного компоненту можна компенсувати блискучими результатами з іншого.
- А чи не може це призвести до зловживань, наприклад, щоб «підтягнути» того чи іншого кандидата?
- Знаєте, слово «зловживання» має певні складові, а саме: планування, умисел тощо. Це не стосується тестологічної схеми. Це стосується імплементації, оскільки вона не захищена від внутрішнього агента. Тема зловживань – це окрема тема. Компенсаторний метод не є фокальною точкою розгляду саме зловживань, а скоріше – валідності. Тобто чи насправді загальний бал демонструє те, що збиралися вимірювати. Може виявитися, що людина має блискучі знання в галузі права, або, наприклад, завдяки тому, що Мін’юст опублікував питання, а у кандидатів було кілька місяців на підготовку, через що оцінка з першого компонента (знання в галузі права) почала відображати більше формальну сторону знань, пам’ять кандидата. Тобто людина може добре пам’ятати й добре знати норму права, але не мати глибокого розуміння та не бути готовою до правозастосування.
Наприклад, кандидат має блискучий результат з формальних знань права і хороший результат із ситуативних завдань, в основі яких є елементи правозастосування. А на практичному завданні, де кандидат потрапляє в реалістичну «виробничу» ситуацію, він отримує низький бал. Однак в сумі виходить бал, який дозволяє подолати загальний бар’єр. Моя рекомендація полягає в тому, щоб встановити хоча б якийсь мінімальний бал на 3-й компонент кваліфікаційного іспиту. Тобто щоб 3-й компонент (практичне завдання) працював за тією ж схемою, як і перші два (тест та ситуативне завдання), коли кандидат, не набравши мінімального балу, вибуває з конкурсу.
Отже, мінімальні вимоги мають бути встановлені в кожному з 3-х компонентів, але поки що останній компонент випадає. Проте загалом схема працює, оскільки люди, які отримали вкрай низький чи нульовий бал за практичне завдання, майже не мають шансів подолати бар’єр загального мінімального балу. Однак були прецеденти, коли за тест та ситуативне завдання «блискучі» кандидати отримували настільки високий бал, що було вже байдуже, що вони отримають на практичному завданні. Як текстолог, я вважаю, що це є небажаним.
Окрім того, безперечно, потрібно продовжувати працювати над базою тестів, враховуючи те, що ті тести, які були опубліковані, вже обсмоктані кандидатською спільнотою з усіх боків. Ми спостерігали певні ефекти і в системі вищої освіти, і в деяких видах сертифікаційних екзаменів, якщо тести публікуються і не оновлюються, то рано чи пізно процес тестування перетворюється на оцінювання обсягу зусиль людини із запам’ятовування. Це є загрозою валідності тестування, оскільки валідне тестування оцінює те, що було задекларовано, певну професійну компетенцію, а не пам’ять кандидата.
Якщо ми збираємося оцінювати наполегливість людини та її пам'ять – це жодним чином не стосується правничої професії. Звичайно, є важливим певний компонент пам’яті щодо нормативних документів, але він не ключовий. Тому маю ще одну рекомендацію, яка можливо не сподобається Мін’юсту – активно продовжувати оновлення тестової бази, але не публікувати оновлення. Це підвищить об’єктивність і валідність оцінювання. Ще у 2016 р. я стримано не рекомендував Мін’юсту робити публікацію повної бази.
У світі є загальновживаною практикою, коли обов’язково публікується лише приклад тесту. Це необхідно для кандидатів у процесі їхньої підготовки, щоб вони розуміли, на що очікувати. Однак цей ексгібіціонізм – публікація кожного питання – в довгостроковій перспективі містить загрозу, що це тестування перетвориться на тестування пам’яті.
Зрозуміло, що це був запуск абсолютно нової професії. Зрозуміло, що ніхто не знав, чого чекати. Свою позитивну історичну роль публікація цієї бази вже зіграла. Далі не потрібно це продовжувати. Ми бачимо, з точністю обчислюємо, наскільки балів факт публікації повної бази піднімає результат середньостатистичного кандидата. Тобто згодом такі бали будуть високими, але вони відображатимуть зовсім інші дані.
- Повернемося до питання щодо маніпуляції балами. Наскільки це можливо?
- Знаєте, я не був присутнім під час оцінювання практичних завдань членами кваліфкомісії, але судячи з тих запитів на консультації, які я отримував як експерт Координатора проектів ОБСЄ в Україні від Мін’юсту, вони намагаються працювати правильно. Що стосується першого і другого етапу, тобто тесту і ситуативних завдань, я вважаю, що тут втручання є малоймовірним.
- Якщо пам’ятаєте, коли ВККСУ ще у старому складі почала тестування (здається, це був перший добір у 2011 р.), їм почали закидати, що вони втручаються в систему, накручують бали потрібним кандидатам… Ніхто цього не довів, але залишилась певна недовіра до електронних систем.
- Існує таке поняття як нормальний розподіл (розподіл Ґауса). Так от, правильне тестування, яке відбулося без втручання на статистично складеній аудиторії (тобто без тенденційного попереднього відбору канидатів), результат завжди має нормальний розподіл. Відхилення від нормального розполіду балів є одним з показників, який не доводить, а вказує на потенційне втручання. Тобто у випадку з ВККСУ, коли ми аналізували результати тестування 2011 р., мав би бути один розподіл, а насправді цифри були іншими. Були виявлені дві статистичні аномалії результатів, близьких до 75 і 90 балів. При кількості кандидатів понад 3 тисячі, людей з умовно статистично аномальними результатами було приблизно 250-300, тобто це кандидати з доданими балами. Ми помітили, що між моментом тестування і моментом публікації результатів минуло близько тиждня. Можливо висловлювати припущення, що працювали дві групи, незалежно одна від одної. Можливо хтось втручався у базу, а хтось інший працював з первинними паперовими носіями, тобто з бланками для відповідей. Одна група робила абсолютних відмінників, а інша, коли були очікування прохідного балу в 75 балів, накручували кандидатам 75 балів +.
- Можливо, у зв’язку з ймовірністю таких ризиків, в обов’язковому порядку потрібно ввести перевірку тестів щодо всіх подібних процедур, в тому числі стосовно приватних виконавців, аби виявити статистичні аномалії?
- Аномалії – це нюанси, хоч і достойні уваги. З позиції тестології, є більш грубі моменти. Проте для нашого суспільства це ще не є важливим і цікавим. Існують міжнародні стандарти в галузі оцінювання компетенцій. Вони стосуються різних аспектів, але є досить вживаними. Їх базові вимоги твердять, що не допускається використання результатів оцінювання без того, щоб перед фінальним, затверджувальним рішенням не була б оцінена валідність, надійність і точність результату. Це об’єктивні показники, з яких точність та надійність обчислюється тестологами, а валідність – спільно з представниками професії. В розвинених країнах, якщо публікуються результати якогось масового публічного оцінювання, яке робиться за кошти платників податків, то обов’язково прописується, що надійність така-то, валідність підтверджена, точність така-то. Це відбувається на автоматичному рівні, як абсолютна потреба. На жаль, цієї культури у нас ще немає.