🔴 Наш новый метод сжатия больших языковых моделей позволяет уменьшить их размер до восьми раз. Сжатая модель сохраняет в среднем 95% точности исходной модели. Новый метод тестировали на моделях LLama 2, LLama 3 и Mistral.
↗️ Код совместного проекта исследователей из Yandex Research и IST Austria опубликован на GitHub. Статья про новый метод сжатия включена в программу ICML 2024, конференции по машинному обучению.
Над новым методом работал аспирант «Сколтеха» и резидент нашего научного отдела Yandex Research Денис Кузнеделев. Мы поговорили с ним о том, чем исследователи и учёные занимаются в больших технологических компаниях.
Подписывайтесь ✨ @yandex