Datasaur пуска инструмент LLM за обучение на персонализирани модели на ChatGPT
Платформата за етикетиране на данни Datasaur днес представи нова функция, която дава възможност на потребителите да етикетират данни и да обучават свой собствен персонализиран модел ChatGPT. Този най-нов инструмент предлага удобен за потребителя интерфейс, който позволява на технически и нетехнически лица да оценяват и класифицират отговорите на езиковия модел, които по-нататък се превръщат в полезни прозрения.
С президента на OpenAI Грег Брокман, който е ранен инвеститор, компанията обяви, че новото й предложение е в пряк отговор на ескалиращото значение на обработката на естествен език (NLP), по-специално ChatGPT и големите езикови модели (LLM).
Datasaur заяви, че професионалистите в различни индустрии са нетърпеливи да използват тази технология ефективно. Необходимостта от повече яснота и стандартизирани подходи за изграждане и обучение на персонализирани модели обаче поставя постоянни предизвикателства. Много лица срещат трудности при фината настройка и подобряването на работата на многобройните налични модели с отворен код.
В отговор на този развиващ се пейзаж, компанията има за цел да осигури цялостна подкрепа за потребителите при събирането на техните данни за обучение.
Оценка на качеството на отговорите на LLM
Datasaur твърди, че най-новите му допълнения, Evaluation и Ranking, са най-удобните за потребителя инструменти за обучение на модели, които понастоящем се предлагат на пазара.
С помощта на Evaluation (Оценка) човешките анотатори могат да оценят качеството на резултатите на LLM и да установят дали отговорите отговарят на конкретни критерии за качество.
Ранжирането улеснява процеса на усилено обучение от човешка обратна връзка (УОЧВ).
В допълнение към новите си функции, платформата въвежда режим на рецензент, който позволява на учените, занимаващи се с данни, да назначават множество анотатори, като по този начин свеждат до минимум субективните пристрастия. Този режим улеснява идентифицирането и разрешаването на несъответствията между анотаторите, когато става въпрос за конкретни въпроси, като позволява на учените, занимаващи се с данни, да направят окончателната преценка.
Функцията на платформата „Споразумение между анотаторите“ (IAA) използва статистически изчисления, за да оцени нивото на съгласие или несъгласие между анотаторите. Този инструмент помага на специалистите по данни да идентифицират анотатори, които може да се нуждаят от допълнително обучение, и да разпознават тези, които демонстрират естествена способност за този вид работа.
Освен това платформата представя оригиналния документ, от който МЛНЗ се е снабдил с информация. Това служи за две цели: да се предотвратят всякакви потенциални погрешни тълкувания и да се осигури прозрачност при демонстриране на процеса, използван от LLM.
Оптимизиране на по-широкото приемане на големи езикови модели
Лий от Datasaur заяви, че професионалистите от индустрията може да не разглеждат моделите на OpenAI като жизнеспособни опции поради фактори като съответствие, поверителност на данните или стратегически съображения. Лий също така изтъкна, че сегашният фокус на моделите за владеене на английски език ограничава потребителите по целия свят да се възползват напълно от тези технологични постижения.
„През последното десетилетие NLP постигна много успехи и една от важните ни цели в Datasaur е да помогнем за автоматизирането на възможно най-голяма част от ръчната работа“, каза Лий. „Мисията на Datasaur е да демократизира достъпа до NLP, като даде възможност на потребителите да работят с всеки език, независимо дали е френски, корейски или арабски. Искаме това предложение да помогне на всеки по-лесно да обучава и разработва НЛП за своите цели.“
Компанията твърди, че нейната платформа има потенциала да намали времето и разходите, свързани с етикетирането на данни, с 30% до 80%.
За да автоматизира етикетирането на данни, платформата използва редица техники. Тя използва утвърдени модели с отворен код като spaCy и NLTK за идентифициране на общи същности. Освен това тя използва метода на слабия надзор за програмиране на данни, което дава възможност на инженерите да създават прости функции, които автоматично маркират специфични типове същности. Например, ако даден текст съдържа ключови думи като „пица“ или „бургер“, платформата прилага класификацията „храна“.
Освен това платформата включва вграден API на OpenAI, който позволява на клиентите да поискат от ChatGPT да етикетира документите им от тяхно име. Компанията твърди, че този подход може да постигне високи нива на успех в зависимост от сложността на задачата, като същевременно открива нови възможности за автоматизация.
Според Лий функцията RLHF на платформата стои като един от най-ефективните методи за повишаване на възможностите за обучение на LLM. Този подход, каза той, позволява на потребителите бързо и без усилие да оценят набор от изходни данни на модела и да определят по-добрите от тях, като елиминират ръчната намеса.
„Нашата платформа позволява на потребителя да покаже различни варианти и да ги подрежда от най-добрия до най-лошия. Интерфейсът за лесно влачене и пускане е лесен за работа за нетехнически потребител, а полученият резултат включва всяка пермутация на предпочитанията за класиране (напр. 1 е по-добър от 2, 1 е по-добър от 3, 2 е по-добър от 3), за да може да се използва лесно от техническия специалист по данни и модела за възнаграждение“, обясни Лий.
Бъдеще на възможностите в НЛП
Лий отбеляза, че инвестициите в NLP на пазара процъфтяват, и очаква бърза еволюция на продуктите, базирани на LLM.
Той твърди, че през следващите години ще има рязък скок в разработването на приложения, които дават приоритет на технологията LLM.
„Предстоящите интерфейси няма да бъдат чатбокс, а ще бъдат вградени директно в приложенията, които използваме ежедневно, като Gmail, Word и т.н.“, каза той. „Точно както се научихме да оптимизираме заявките си за търсене в Google (напр. „Работно време на Starbucks в събота“), масовата публика ще се чувства удобно да взаимодейства с приложенията чрез този интерфейс на естествен език. Datasaur има за цел да бъде готова да даде възможност на организациите и да ги подкрепи в изграждането на такива модели и работни потоци от данни.“