Китайская исследовательская лаборатория DeepSeek опубликовала в открытом доступе новый фреймворк DSpark, который радикально ускоряет вывод (inference) больших языковых моделей.
По данным независимых тестов, DSpark позволяет получить ускорение в 8-12 раз при запуске существующих моделей без какого-либо дополнительного обучения или изменения весов. При этом качество ответов практически не снижается — расхождение составляет менее 0,5% по стандартным бенчмаркам.
Ключевая технология фреймворка — адаптивная система кэширования внимания (Adaptive KV-Cache), которая интеллектуально определяет, какие части контекста наиболее важны для текущего запроса. Это позволяет существенно сократить объём вычислений при длинных контекстах.
Второй важный компонент — SparkCompress, метод динамического сжатия токенов. Алгоритм анализирует смысловую нагрузку каждого токена в реальном времени и объединяет менее значимые в группы, обрабатывая их вместе.
DSpark уже протестирован на нескольких популярных моделях: Llama 3.1 70B, Mistral Large, Qwen 72B и самих моделях DeepSeek. Во всех случаях ускорение оказалось значительным.
Инструмент доступен на GitHub под лицензией Apache 2.0. DeepSeek также предоставила готовые Docker-образы для быстрого развёртывания и подробную документацию.
В сообществе разработчиков DSpark уже вызвал большой интерес — в первые 48 часов репозиторий набрал более 15 тысяч звёзд на GitHub. Многие разработчики отмечают, что фреймворк значительно снижает стоимость запуска мощных ИИ-моделей на обычном оборудовании.
DeepSeek заявила, что DSpark — это часть более широкой инициативы по демократизации доступа к высокопроизводительным языковым моделям.


