Skip to content

昇腾 NPU上运行问题 #16

@zjllll6688

Description

@zjllll6688

这里有个问题就是目前是能跑起来的,但是无论复用比低还是高(设置了很多宽松度值),纯生成时间都基本没啥太大的变化(或者减少的时间不多)。我在vllm端测了一下他得到的确实是需要继续生成后缀的一部分batch,但是就是没效果。然后我把宽松度设为极大值,等于说是所有response全都复用,这个时候它不用启动vllm继续生成后缀,纯生成开销消耗的时间才将近为0。也就是说除非所有batch 100%复用才没有生成消耗,就算是99%复用只有1%需要生成,所消耗的生成时间也和完全没有复用的一样。

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions