Skip to content

llama.cpp问题修复 #19

@hipudding

Description

@hipudding
  • 310p 多卡精度问题
  • 910b开启NZ转换后多卡精度问题
  • 异步提交+aclgraph精度问题
  • 310p CI未通过
  • CI建设
  • RWKV 910b精度错误
  • 310b?
  • ffn做融合
  • profill和decode的阶段FA做区分,更新FA算子
  • 多模态支持
  • MOE
  • openai/gpt-oss
  • Qwen3-next
  • Qwen3-vl
  • Qwen3-omini
  • #14435
  • #15091
  • swiglu替换
  • ffn融合算子
  • dup,cpy支持dst不连续
  • conv_transpose_1d 错误
  • batch 除了第一个seq,后续精度不对
  • soft_max 添加 mask ne1 > src ne1的用例
  • rope 支持 mrope
  • matmul id优化
  • moe + fa精度错误
  • rope不支持deepseek
  • matmul id 量化优化
  • fa + kv_unified 超过2并发精度错误
  • fp16 310p 精度错误
  • fp16 rms_norm gamma应该是fp16
  • fp16 qwen3 910b crash
  • 多图缓存导致的matmul fa精度问题
  • 310p llama-parallel qwen7b 8并发报错 mat_mul_v3 dim num 错误,NZ有问题,ND没问题. fp32没问题,fp16不行,算子的问题 FILE:matmul_v3_base_tiling.cc

Metadata

Metadata

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions