Если мы с вами ходим в школу, чтобы узнать о мире больше, то у языковой модели YaLM есть для этого интернет. Осилить русский ей помогло несколько терабайтов текстов (это очень много).
Читайте, с какими трудностями столкнулись разработчики и сколько видеокарт нужно одной модели для обучения.
Словаря Даля не хватит