DeepSeek V4 Flash는 2026년 4월 24일에 공개된 V4 시리즈의 소형·저지연 모델로, 총 파라미터 284B(활성 13B)를 갖추고 장문 컨텍스트 추론 능력을 유지하면서도 비용 효율적인 추론을 목표로 설계되었습니다. V4 Pro와 동일한 압축 희소 어텐션(CSA)과 고도 압축 어텐션(HCA) 구조를 공유하며, 100만 토큰 컨텍스트 윈도우 전체에서 'Thinking'과 'Non-Thinking' 듀얼 모드를 지원합니다. 크기는 훨씬 작지만, V4 Flash 베이스 모델은 대부분의 벤치마크, 특히 장문 컨텍스트 작업에서 훨씬 큰 V3.2 베이스 모델을 능가합니다. 입력 100만 토큰당 $0.14, 출력 $0.28의 프론티어급 최저 수준 가격으로, 고처리량 에이전트 작업과 문서 처리 워크로드에 이상적입니다.
DeepSeek V4 Flash는 2026년 4월 24일에 공개된 V4 시리즈의 소형·저지연 모델로, 총 파라미터 284B(활성 13B)를 갖추고 장문 컨텍스트 추론 능력을 유지하면서도 비용 효율적인 추론을 목표로 설계되었습니다. V4 Pro와 동일한 압축 희소 어텐션(CSA)과 고도 압축 어텐션(HCA) 구조를 공유하며, 100만 토큰 컨텍스트 윈도우 전체에서 'Thinking'과 'Non-Thinking' 듀얼 모드를 지원합니다. 크기는 훨씬 작지만, V4 Flash 베이스 모델은 대부분의 벤치마크, 특히 장문 컨텍스트 작업에서 훨씬 큰 V3.2 베이스 모델을 능가합니다. 입력 100만 토큰당 $0.14, 출력 $0.28의 프론티어급 최저 수준 가격으로, 고처리량 에이전트 작업과 문서 처리 워크로드에 이상적입니다.