Fayntuning code of the original CLIP into Russian
О чем репозиторий
В этом репозитории представлен способ файтюнить оригинальный CLIP на новый язык
Почему модель не видит женщину и откуда на картинке с текстом слон?
Основные особенности:
- Используются оригинальные картиночные и текстовые трансформеры;
- Поэтому есть возможность использовать оригинальные эмбединги картинок, а тексты обучать или дообучать на требуемый язык.
Что ожидалось?
- Для обучения трансформера русскому языку будет достаточно 3.7 млн пар картинка-текст;
- Будет использована вся сила исходных картиночных эмбедингов, обученных на сотнях миллионов пар картинка-текст;
- Сохранится скорость и качество работы алгоритма.
Что не получилось?
- Модель выучила русский, но не так хорошо, как