Як захистити контент від несанкціонованого використання та навчання ШІ: практичні кроки

У цифрову епоху проблема захисту інтелектуальної власності стає критичною. Особливо актуальним є питання використання контенту для навчання штучного інтелекту (ШІ) без згоди власників.

Маєте Телеграм? Два кліки - і ви не пропустите жодної важливої юридичної новини. Нічого зайвого, лише #самасуть. З турботою про ваш час!

Розвиток генеративного ШІ, як-от OpenAI GPT, Google Gemini та інших, викликав юридичні дискусії щодо правомірності навчання на авторському контенті. Законодавство багатьох країн досі не містить однозначних положень щодо правових меж використання контенту для навчання ШІ, однак існують правові механізми, які допоможуть авторам захистити свої матеріали. Тож давайте розглянемо ці приклади більш змістовно.

1. Використання правових способів захисту авторських прав

Авторське право є основним правовим механізмом захисту контенту. Відповідно до Бернської конвенції про охорону літературних і художніх творів (1886), авторське право виникає автоматично після створення твору та не потребує спеціальної реєстрації. Реєстрація авторських прав є юридичним підтвердженням вашого права на контент, що забезпечує додаткові можливості для його захисту.

У більшості країн авторське право виникає автоматично після створення твору. Однак реєстрація в офіційному реєстрі (наприклад, Copyright Office у США або Укрпатент в Україні) може спростити процес захисту прав у суді. У США реєстрація дозволяє отримати додатковий захист, включаючи право на стягнення компенсації та відшкодування судових витрат.

На YouTube контент захищається автоматично, але реєстрація прав може допомогти у швидкому вирішенні спорів через систему Content ID. Content ID — система, метою якої є виявлення на платформі YouTube скопійованого контенту. Кожна особа, яка бажає стати користувачем Content ID, повинна надати цифрові відбитки (копії) опублікованого контенту. Саме за допомогою таких відбитків система буде здійснювати пошук копій публікацій та накладати на них одну з трьох опцій: монетизацію, відстеження або блокування. Так само користувач Content ID, чий контент був скопійований, має право самостійно обрати конкретну з перерахованих опцій.

Умови використання та ліцензування

Якщо ваш контент розміщується на окремому вебсайті або платформі, важливо передбачити в умовах використання вашого сайту або платформи застереження про заборону на збір даних і навчання ШІ без вашого дозволу. Це створює юридичні підстави для майбутніх вимог до правопорушників:

● Додавайте положення про заборону використання контенту вебсайту для навчання ШІ без письмової згоди у Terms of Service, розміщені на сайті.

● Встановіть обмеження на комерційне використання контенту без наявності ліцензії на таке використання, додавши відповідне застереження до Terms of Service.

● Вказуйте способи захисту та наслідки порушення (блокування доступу, захист у судовому процесі тощо).

2. Використовуйте ліцензії Creative Commons

Ліцензії Creative Commons (CC) –— це правовий інструмент, який дозволяє авторам визначати умови використання контенту та встановлювати обмеження щодо використання їхніх матеріалів. Вони діють у межах авторського права і можуть містити заборони на комерційне використання та модифікацію контенту. Ліцензії за своєю суттю є типовими і враховують міжнародні норми в контексті авторського права. Перевагою таких ліцензій є те, що авторові контенту для надання дозволу на використання матеріалів не потрібно укладати окремі договори з приводу цього питання або здійснювати додатковий юридичний супровід — достатньо вибрати відповідний вид ліцензії. Загалом виділяють декілька видів ліцензій Creative Commons (CC):

● атрибуція (від англ. attribution — визнання авторства) (CC BY);

● атрибуція зі збереженням умов (CC BY-SA);

● атрибуція без похідних творів (CC BY-ND);

● атрибуція та некомерційне використання (CC BY-NC);

● атрибуція та некомерційне використання зі збереженням умов (CC BY-NC-SA);

● атрибуція та некомерційне використання без створення похідних творів (CC BY-NC-ND).

Вибір ліцензії, яка забороняє використання для навчання ШІ, може бути ефективним юридичним бар’єром.

Ліцензії Creative Commons дозволяють авторам контролювати, як їхні матеріали можуть бути використані:

● Наприклад, CC BY-NC-ND забороняє комерційне використання та модифікацію контенту без дозволу автора, що може стати ефективним бар’єром для використання матеріалів у навчанні ШІ.

● Важливо чітко вказувати ліцензійні обмеження на своїх платформах. Включайте в ліцензію положення про заборону використання контенту для навчання ШІ.

● Розміщуйте ліцензійні умови на видимому місці для користувачів.

3. Відмова від використання контенту для навчання ШІ

Багато цифрових платформ сьогодні автоматично включають контент у свої набори даних для навчання їх моделей. Наприклад, Reddit та LinkedIn дозволяють ШІ аналізувати контент без попереднього дозволу користувачів.

Зокрема, Reddit дозволяє ШІ аналізувати контент користувачів без її попередньої згоди, що підтверджується п. 2.4 Умов API даних: «За винятком випадків, прямо передбачених цим розділом, жодні інші права або ліцензії не надаються і не маються на увазі, включаючи будь-які права на використання Користувацького контенту для інших цілей, наприклад, для навчання моделі машинного навчання або ШІ, без прямого дозволу правовласників відповідного Користувацького контенту». [1]

LinkedIn також може використовувати дані користувачів для роботи зі штучним інтелектом. Це зазначено в Політиці конфіденційності: «Спосіб використання ваших персональних даних залежатиме від того, якими Послугами ви користуєтеся та як, а також від вибраних вами налаштувань. Ми можемо використовувати ваші персональні дані, щоб удосконалювати, розробляти й надавати продукти й Послуги, проєктувати й навчати моделі штучного інтелекту (ШІ), створювати, надавати й персоналізувати наші Послуги, а також отримувати статистику за допомогою ШІ, автоматизованих систем і припущень, щоб зробити наші Послуги релевантними й кориснішими для вас й інших користувачів». [2]

Для того, щоб відмовитись від використання вашого контенту для цілей навчання ШІ, можна скористатись наступними порадами:

● Перевірте користувацькі політики платформ: деякі компанії дозволяють користувачам відмовитися від участі в навчанні ШІ. Найчастіше це відображається в Політиці конфіденційності (Privacy Policy), рідше у Політиці користувача (Terms of Service або Terms and Conditions). Наприклад, LinkedIn передбачив опцію збору і аналізу інформації як автоматичну для всіх користувачів, але її відключення передбачено в розділі «Конфіденційність даних». При цьому можливість відключення автоматичного аналізу інформації для використання системами ШІ прямо не прописана в Політиці конфіденційності. Reddit конкретної опції для відмови від використання інформації для навчання ШІ не передбачив. Щонайменше, інформація про можливість такої відмови не надається в Політиці конфіденційності та Умовах API даних.

● Законодавство деяких країн визнає право власника контенту на відмову від участі в таких процесах (opt-out). Варто перевіряти налаштування конфіденційності та використання контенту, а також вимагати опцію відмови (opt-out). У ЄС діє режим добровільної згоди, який і включає в себе право opt-out, завдяки Регламенту Європейського Союзу про захист персональних даних (GDPR). Крім того, обов’язковою добровільна згода є в таких країнах як Бразилія, Канада, Чилі, Колумбія, Індія, Марокко, Малайзія, Південна Африка, Південна Корея, Японія, Тайвань та Велика Британія.

● Використовуйте robots.txt: файл може обмежити доступ ботів до вашого сайту. Файл robots.txt є стандартним текстовим файлом, який розміщується в кореневій директорії вебсайту і виконує роль інструкції для вебкраулерів щодо дозволених або заборонених ділянок ресурсу. У контексті запобігання несанкціонованому збору даних для тренування моделей штучного інтелекту, належна конфігурація robots.txt може слугувати першим рівнем захисту. Зокрема, шляхом явної заборони доступу до певних розділів або всього сайту для автоматизованих агентів, включаючи ті, які асоціюються з відомими компаніями-розробниками ШІ, власник ресурсу може таким чином захиститись від використання його контенту в навчальних або інших автоматизованих цілях.

4. Використовуйте технічні засоби захисту цифрового контенту

Цифрове маркування контенту є технічним засобом ідентифікації джерела матеріалу. У випадку несанкціонованого використання це може слугувати доказом авторства в суді. Цифрове маркування контенту ускладнює його несанкціоноване використання, тож використання наступних технічних засобів має стати в нагоді:

● Для відео та зображень можна застосовувати водяні знаки або цифрові підписи, які вбудовуються в файл і можуть бути виявлені навіть після модифікації. Технології водяних та цифрових знаків мають на меті забезпечити ідентифікацію контенту та ускладнити його фальсифікацію, навіть у разі спроб модифікації.

● Водяні знаки — це графічні або текстові елементи, які вставляються в зображення чи відео з метою позначити авторство або власність. Вони можуть бути явними або невидимими. Водяні знаки мають кілька важливих характеристик: вони зберігаються навіть після редагування контенту, такого як обрізка чи зміна розміру, що робить їх ефективним способом захисту. Проте їх можна намагатися видалити або змінити, що обмежує їхню повну безпеку.

● Цифрові підписи — це спеціальні коди, які застосовуються до електронного контенту і використовують криптографічні методи для забезпечення автентичності. На відміну від водяних знаків, цифрові підписи не змінюють візуальний вигляд медіафайлу, а вбудовуються в метадані або в саму структуру файлу. Ці підписи дозволяють забезпечити доказ прав власності та ідентичність джерела контенту, а також здійснити перевірку на предмет змін у файлі. Якщо контент був змінений після підписання, цифровий підпис стає недійсним, що дозволяє виявити несанкціоноване редагування.

● Реєструйте контент у системах цифрового маркування, наприклад, Adobe Content Credentials. Adobe Content Credentials додає метадані до файлів, що робить складнішим їх незаконне використання. Adobe Content Credentials є однією з найвідоміших і поширених систем цифрового маркування, що надає можливість інтегрувати метадані прямо в самі файли. Ці метадані можуть включати інформацію про те, хто створив контент, який тип ліцензії застосовується до файлу, а також записи про будь-які зміни, що були внесені в контент після його первісного створення. Завдяки цим даним, користувачі можуть легко перевірити легітимність файлів та уникнути використання контенту, що порушує авторські права. Технологія цифрового маркування також є важливим елементом для захисту від навчання штучного інтелекту на несанкціонованому контенті. Завдяки системам на зразок Adobe Content Credentials, власники контенту можуть зберігати контроль над тим, як і де їх матеріал використовується в тренувальних даних, що зменшує ризики використання авторських матеріалів без відповідного дозволу для створення нових ШІ-моделей.

● Використання стеганографії (непомітних водяних знаків) допомагає ідентифікувати витік контенту. Стеганографія — це метод прихованого впровадження інформації у цифровий контент, який дозволяє маркувати файли без візуального або функціонального спотворення. Стеганографічні водяні знаки є невидимими цифровими маркерами, які вбудовуються у структуру файлу таким чином, щоб бути нечутливими до звичайного користувача, але залишатися відстежуваними за допомогою спеціалізованого програмного забезпечення. Ці знаки можуть містити унікальні ідентифікатори власника, часові мітки або інші криптографічні дані, що слугують для верифікації джерела та цілісності даних. Їх використання дозволяє ідентифікувати витік контенту — наприклад, коли оригінальний файл стає тренувальним матеріалом у моделі ШІ.

5. Використовуйте автоматичні сервіси моніторингу

Виявлення порушень є ключовим аспектом захисту. Застосування у цьому розрізі ШІ може мати позитивне пристосування для креаторів. Зокрема, використання ШІ для аналізу контенту дозволяє оперативно знаходити копії матеріалів, виявляючи таким чином правопорушення. Автоматизовані сервіси можуть допомогти відслідковувати та виявляти несанкціоноване використання вашого контенту. Зокрема, можна скористатись наступними сервісами:

● PimEyes — дозволяє здійснювати пошук зображень у відкритому доступі. знаходить зображення, навіть якщо вони змінені або відредаговані.

● Copyleaks та PlagiarismCheck — аналізують текстовий контент на предмет копіювання матеріалів.

● Google Alerts — сервіс, який автоматично сповіщує авторів про появу їх контенту в мережі.

6. Використовуйте цифрові міжнародні механізми захисту від правопорушень (DMCA та інші)

Digital Millennium Copyright Act (DMCA) дозволяє власникам контенту вимагати видалення матеріалів, які використовуються без дозволу. Положеннями DMCA забороняється несанкціоноване копіювання, розповсюдження або модифікацію захищених авторським правом творів у цифровому форматі. Основним способом реалізації положень DMCA є скарга. Скарга DMCA стосується захисту прав автора контенту в разі незаконного використання творів та порушень авторського права. Скарга DMCA дозволяє видалити контент, який був скопійований, незаконно опублікований на тих платформах, які підпадають під юрисдикцію США. Важливо зазначити, що власник твору самостійно відстежує наявність факту порушення. Якщо порушення його авторських прав було виявлено, то скарга подається до хостинг-провайдера або вебсайту, де мало місце незаконне розміщення матеріалу.

Подача онлайн-скарг на платформи, де розміщений контент, зазвичай є швидшим способом захисту, ніж судові позови. Механізм Notice & Takedown є частиною DMCA, який полягає у вимозі про видалення контенту. Більшість платформ (YouTube, Google, Facebook), за умови належного подання скарги, визнають вимоги за DMCA та видаляють порушення.

Ще одним альтернативним способом вирішення спорів щодо порушень авторських прав може бути подача скарги у Центр ВОІВ (з англ. WIPO center) як альтернативний орган для вирішення спорів, що виникають у зв’язку з авторським правом, патентами, торговельними марками, комерційними таємницями, а також конфліктами щодо реєстрації доменних імен. Процедура подачі скарги до Центру ВОІВ відбувається у форматі онлайн через спеціалізований електронний портал WIPO eADR. Сторона, що подає скаргу, має представити заповнену форму скарги з викладенням суті спору, обґрунтуванням правової позиції, додатковими доказами. Обов’язок сплатити адміністративний збір також покладається на скаржника. До способів реагувань на порушення через WIPO center входить медіація, арбітраж, прискорений арбітраж або експертна оцінка.

7. Захист від вебскрапінгу та збору даних

Ще однією поширеною формою зловживань з боку правопорушників є вебскрапінг — автоматизоване отримання інформації з сайтів, відповідно до заданих параметрів. На практиці для реалізації такого способу отримання даних використовуються спеціальні програми, які аналізують весь наявний матеріал на сайті шляхом його сканування, копіюють і систематизують отримані матеріали. Вебскрапінг може порушувати умови використання сайту. Нерідко вебскрапінг використовується для швидкого отримання даних, які потім застосовуються в процесі навчання систем ШІ. Наприклад, у такій судовій справі як eBay Inc. v. Bidder’s Edge Inc. (США, 2000 р.), Окружний суд Північного округу Каліфорнії розглядав правомірність несанкціонованого використання вебботів для збору даних з комерційного вебсайту. Bidder’s Edge використовувала автоматизовані засоби, щоб сканувати сайт eBay та витягати інформацію про поточні торги, попри заперечення з боку eBay. Компанія eBay, посилаючись на порушення умов користування та втручання у володіння серверними ресурсами, звернулась до суду із вимогою припинити ці дії. Суд постановив, що дії Bidder’s Edge створюють значне навантаження на сервери eBay та порушують її права власності на комп’ютерні ресурси. Незважаючи на те, що інформація, яку збирала компанія, була публічно доступною, суд ухвалив, що технічний доступ до неї без дозволу, з використанням ботів, є неправомірним. Як наслідок, суд видав тимчасову заборону (preliminary injunction) на подальше сканування сайту Bidder’s Edge [3].

У справі Ryanair Ltd v PR Aviation BV (ЄС, 2015 р.) компанія PR Aviation BV автоматизовано отримувала інформацію шляхом вебскрапінгу про рейси з вебсайту Ryanair і публікувала її на власному ресурсі, що дозволяв користувачам бронювати квитки. Ryanair обмежувала такий доступ у своїх умовах користування, зокрема забороняючи автоматизовану обробку даних із сайту. PR Aviation стверджувала, що бази даних Ryanair не підпадають під охорону Директиви 96/9, а отже, їх використання є допустимим. Суд ЄС постановив, що у випадках, коли база даних не охороняється відповідно до Директиви 96/9/ЄС (тобто не є ані оригінальною, ані результатом значних інвестицій), власник ресурсу має право встановлювати договірні обмеження щодо її використання.

Отже, навіть якщо вебдані не охороняються авторським чи sui generis правом, особа, яка користується ресурсом, зобов’язана дотримуватися умов користування, з якими вона погодилася [4].

Для ефективної боротьби з вебскрапінгом, рекомендуються наступні кроки:

● Налаштуйте robots.txt для заборони скрапінгу та індексації контенту ШІ-ботами. Файл robots.txt містить інформацію про дозволені або заборонені ділянки сайту для сканування. Фактично, це означає, що robots.txt повідомляє автоматизованим агентам про те, яка інформація підлягає скануванню, а яка — ні.

● Використовуйте CAPTCHA для обмеження ботів. Впровадження CAPTCHA ускладнює масове завантаження контенту. Системи CAPTCHA є технологією, розробленою для розрізнення дій, здійснених людиною, від тих, що виконуються програмним забезпеченням. CAPTCHA відрізняє автоматизованих агентів від «живих» користувачів через вимогу до користувача виконати конкретне завдання. Отже, CAPTCHA захищає сайт від ботів та програм, які можуть здійснювати вебскрапінг.

● Такі сервіси, як Cloudflare, Distil Networks можуть блокувати автоматизовані запити, що імітують поведінку користувачів. Cloudflare та Distil Networks — це сервіси, які допомагають реалізувати більш надійний захист від вебскрапінгу. Механізм роботи полягає в аналізу трафіку вхідних запитів на сайті в реальному часі. У разі виявлення ознак автоматизованої активності, запит може бути або заблокований, або перенаправлений на додаткову перевірку.

● Застосовуйте юридичні застереження про заборону вебскрапінгу у Terms of Service / Terms and Conditions на сайтах.

8. Судовий захист: колективні позови

Якщо ваш контент використовується незаконно і приносить прибуток третім особам, можна розглянути можливість судового захисту:

● Власники авторських прав вже активно подають колективні позови (з англ. class action lawsuits) проти OpenAI, Google та інших компаній за несанкціоноване навчання їхніх моделей. Тому участь у колективних позовах проти платформ, що порушують права авторів, може стати гарним способом боротьби. Колективні судові позови стають популярним інструментом протидії несанкціонованому використанню контенту. В Україні такий спосіб захисту недоступний, проте резиденти України можуть приєднатися до колективних позовів, ініційованих відповідно до законодавства США у американських судах.

● Наприклад, New York Times подала позов проти OpenAI, оскільки їхні статті використовувалися для навчання GPT [5]. Також Ніколас Басбейнс і Ніколас Гейдж подали до суду позов на компанії OpenAI та Microsoft у 2024 році. Позивачі стверджують, що їх твори незаконно використовувалися OpenAI для навчання ШІ. Проте судовий розгляд ще триває [6].

● Крім того, у квітні 2024 року Alden Global Capital, який володіє низкою американських газет, подав позов до суду проти Microsoft та OpenAI. Звинувачення ґрунтуються на тому, що компанії незаконно використовували матеріали видань з метою навчання мовних моделей Chat GPT та Copilot [7].

● Судові рішення можуть забезпечити компенсацію збитків або накласти обмеження на використання контенту в майбутньому.

Висновки

У сучасному цифровому середовищі, яке характеризується високою швидкістю обміну інформацією, анонімністю користувачів та легкістю копіювання й розповсюдження контенту, класичних правових механізмів захисту авторського права вже недостатньо. Юридичні інструменти, зокрема звернення до суду, реєстрація прав чи вимоги про припинення порушення, залишаються важливими, однак часто виявляються надто повільними або малоефективними в умовах стрімких порушень у мережі.

Тому сьогодні ефективний захист авторського права потребує комплексного підходу, що поєднує юридичні засоби із технічними інструментами захисту: цифровими водяними знаками, системами розпізнавання контенту (наприклад, Content ID), алгоритмами трекінгу використання творів, шифруванням доступу тощо.

Лише завдяки системному і проактивному захисту автори можуть ефективно реагувати на порушення, запобігати масовому нелегальному використанню своїх творів та водночас створювати позитивну правозастосовчу практику, яка надалі формуватиме дійсно дієві й сучасні правові підходи. Така стратегія не лише підсилює інструменти захисту прав у короткостроковій перспективі, а й сприяє розбудові цифрової культури поваги до інтелектуальної власності у довгостроковій.

Джерела:

Reddit Data API Terms: https://redditinc.com/policies/data-api-terms.
Політика конфіденційності LinkedIn: https://ua.linkedin.com/legal/privacy-policy?fromEmail=true#use.
eBay, Inc. v. Bidder’s Edge, Inc. Citation. Ebay, Inc. v. Bidder’s Edge, Inc., 100 F. Supp. 2d 1058, 54 U.S.P.Q.2D (BNA) 1798 (N.D. Cal. May 23, 2000): https://www.casebriefs.com/blog/law/intellectual-property-law/intellectual-property-keyed-to-merges/state-intellectual-property-law-and-federal-preemption/ebay-inc-v-bidders-edge-inc/.
Judgment of the Court (Second Chamber) of 15 January 2015. Ryanair Ltd v PR Aviation BV.: https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=celex:62014CJ0030.
New York Times sues OpenAI, Microsoft for using articles to train AI: https://www.washingtonpost.com/technology/2023/12/27/new-york-times-sues-openai-chatgpt/.
Class action complaint by Nicholas a. Basbanes and Nicholas Ngagoyeanes against Microsoft Corporation, OpenAi, Inc., OpenAi GP, L.L.C., OpenAI Holdings, LLC, OAI Corporation, LLC, OpenAi Global, LLC, OpenAI, L.L.C., and OpenAI OPCO, LLC: https://fingfx.thomsonreuters.com/gfx/legaldocs/klvydkdklpg/OPENAI%20COPYRIGHT%20LAWSUIT%20basbanescomplaint.pdf.
Вісім американських видань подали до суду на OpenAI і Microsoft за порушення авторських прав: https://incrypted.com/ua/visim-amerykanskyh-vydan-podaly-v-sud-na-openai-i-microsoft-za-porushennja-avtorskyh-prav/.

Як захистити контент від несанкціонованого використання та навчання ШІ: практичні кроки

Додати коментар