Някъде около 10 петабайта или 10 000 терабайта. 250 милиарда уеб страници. Толкова е всичката свободно достъпна и подлежаща на архивиране информация в интернет. Знаем това, защото всичките тези данни са част от свободния и поддържан от неправителствена организация масив Common Crawl.
Той е с огромна значимост за развитието на генеративния изкуствен интелект. Именно със съдържанието на Common Crawl е "трениран" например GPT-3, от който тръгна ChatGPT. Почти две генерации AI модели по-късно е ясно, че водещите от тях са "минали" през всичкото човешко познание, което има писмена или аудио-визуална среда.
Едно от възможните решения за по-качествени AI модели е свързано с използването на т.нар синтетични данни. Те имат всички характеристики на реалните, но без съдържанието им да отговаря на реалността. Голямата възможност е и голям риск - ако със синтетичните данни не се работи внимателно, те могат буквално да сринат възможностите на изкуствения интелект.
За какво точно говорим?
Синтетичните данни не са съвсем нова и непроучена област. Преди около 10 години Калян Веерамачанени, главен изследовател в Колежа по изчислителна техника "Шварцман" на MIT, заедно с екипа си работи по проект, който включва анализ на голямо количество данни на учащи. В началото започват с истинска информация... и се сблъскват с куп проблеми.
Тя трябва да стои само на една машина и да се криптира - поради регулаторни причини. Това забавя много работата. Решават да направят масив с произволно генерирано съдържание, но той не работи за целите им, тъй като няма нищо общо с първоначалните данни.
Така създават модел на машинно обучение, който на база на реална информация генерира такава със същите характеристики, но без да носи нейното съдържание.
Именно това са синтетичните данни. "Взимаш телефонен номер. Разбиваш го и синтезираш нов - напълно произволен, несъществуващ. Въпреки това, правиш нужното, за да притежава характеристиките, които са ти необходими, например да е точно 10-цифрен и даже да има определен код", обяснява Веерамачанени в публикация на портала на MIT.
Синтетичните данни могат да се разглеждат като стъпка отвъд анонимизирането на масиви с чувствителна информация, но и като начин за тестване на специфични и трудни за репродуциране сценарии или за допълване на архиви, които са непълни, неточни или по друга причина неизползваеми.
През миналата година Gartner прогнозираха, че през 2024-а 60 на сто от данните, използвани за AI и аналитични проекти ще е изкуствено генерирана. Действително, един от водещите модели - Anthropic Claude, вече е трениран и с помощта на такъв тип съдържание.
"Гледам на синтетичните данни като на моторното масло пълна синтетика. Всеки кара кола с такова масло. Знаем, че е като минералното, но е изцяло създадено в заводски условия и има гарантирани качества, които на свой ред обезпечават плавната работа на двигателя", коментира пред Quartz съоснователят и технически директор на компанията Gretel Джон Майъс. Той и колегите му предлагат на бизнеса именно възможно най-правдоподобни масиви от синтетични данни.
Това е индустрия, която има огромен потенциал за развитие. Според BCC Research през 2028 г. ще говорим за бизнес за 2,1 млрд. долара - със съставна норма на годишен растеж от 33,1% в периода 2023-2028 г.
Голяма възможност с голям риск
На пръв поглед е логично AI да може по-бързо и по-ефективно да учи друг AI, но никога не е толкова просто. Ако даденият модел стъпва прекалено много на готовата синтетична информация, несъвършенствата на "учителя" ще се затвърдят и задълбочат.
Някои учени правят паралел с гротескния понякога външен вид на членовете на благородническите фамилии, в които традиционно е имало кръвосмешения. Те също така са доказали, че само 5 генерации са достатъчни за пълен колапс на AI модела.
Има и хипотези, че новите версии на водещите играчи като OpenAI имат проблеми с качеството именно защото са били повлияни от генерирано от друг изкуствен интелект съдържание. А последното е твърде възможно при положение, че все по-голям процент от написаното, нарисуваното и изсвиреното онлайн е дело на ботове.
Как да избегнем катастрофален спад в способностите на изкуствения интелект? Опитът на OpenAI и Anthropic показва важността на система от два модела - единият генерира синтетичните данни, а другият ги валидира спрямо критериите, които се очаква да покриват.
След това идва самата употреба. Синтетичните данни могат да покажат на AI какви биха могли да бъдат форматите на телефонните номера, но само реалното съдържание е в състояние да му помогне да отговори на конкретен въпрос, свързан с данните за контакт на даден служител.
Така измислената информация помага за "обучаването" на модела, но приложението му изисква здрава връзка с легитимния контекст. Тук помагат технологии като RAG (Retrieval-augmented generation), които позволяват на AI да търси и открива отговори в различни масиви от данни без нужда от допълнително обучение.
Все още темата с прецизността на изкуствения интелект остава висяща, но и изпълнена с обещания за големи пробиви през следващите месеци. Ако те се случат и бъде демонстриран начин за надеждно разделяне на "тренировъчния" от "работния" източник на информация за AI, това ще разгърне потенциала на синтетичните данни - защото чрез тях наистина моделите ще бъдат подготвени за всякакви даже наглед невъзможни ситуации.
Ако обаче "халюцинациите" останат нерешен проблем, хвърлянето на още и още реалистична, но невярна информация само ще ги направи още по-коварни. А от това няма да спечели никой.