目前已有许多关于数据流中基数估计算法的研究, 然而这些算法通常只利用估计器的最终状态和概率的方法得到近似估计值, 其最终的估计误差较大因而难以满足高精度场景的要求。 针对现有基数估计算法的精度较差问题,本文提出了一种基于Markov过程的基数估计算法, 核心想法是充分利用估计器状态变化序列的所有信息来提高估计精度。
为了评估MPC的性能,本文对比了两个经典估计算法LogLog和Hyperloglog
我们在Data文件夹中给了一个简单的测试数据集。读者可以依照以下的命令,非常方便的测试。
cd demo
make clean
make
./main.out