snappy算法解析

2023-10-05 10:48:57

1. 获取原始数据大小N，将N存储到输出结果开头位置，占用1-5个字节不等：

N < (1 << 7)时，占1个字节

out[0] = N
N < (1 << 14)时，占2个字节

out[0] = N | 128; out[1] = N >> 7;
N < (1 << 21)时，占3个字节

out[0] = N | 128; out[1] = (N >> 7) | 128; out[2] = N >> 14;
N < (1 << 28)时，占4个字节

out[0] = N | 128; out[1] = (N >> 7) | 128; out[2] = (N >> 14) | 128; out[3] = N >> 21;
other
out[0] = N | 128; out[1] = (N >> 7) | 128; out[2] = (N >> 14) | 128; out[3] = (N >> 21) | 128; out[4] = N >> 28;

2. 将数据切分为65536字节的块，循环处理各个块

（1）维护一张类型为uint16的hash表，初始化为0，hash表中保存滑动窗口中所有不同字符串的偏移值，hash表的索引为字符串前4个字节的hash值，hash表的大小如下公式计算：

uint32_t CalculateTableSize(uint32_t input_size) {// input_size为原始数据大小// kMaxHashTableSize = 1 << 14;if (input_size > kMaxHashTableSize) {return kMaxHashTableSize;}// kMinHashTableSize = 1 << 8if (input_size < kMinHashTableSize) {return kMinHashTableSize;}// This is equivalent to Log2Ceiling(input_size), assuming input_size > 1.// 2 << Log2Floor(x - 1) is equivalent to 1 << (1 + Log2Floor(x - 1)).return 2u << Bits::Log2Floor(input_size - 1);
}inline int Bits::Log2Floor(uint32_t n) {return (n == 0) ? -1 : Bits::Log2FloorNonZero(n);
}inline int Bits::Log2FloorNonZero(uint32_t n) {assert(n != 0);// (31 ^ x) is equivalent to (31 - x) for x in [0, 31]. An easy proof// represents subtraction in base 2 and observes that there's no carry.//// GCC and Clang represent __builtin_clz on x86 as 31 ^ _bit_scan_reverse(x).// Using "31 ^" here instead of "31 -" allows the optimizer to strip the// function body down to _bit_scan_reverse(x).// __builtin_clz(n)是获取n的二进制前端（高位）有多少个0return 31 ^ __builtin_cl

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Hadoop添加snappy压缩支持
下一篇 > Hadoop源码剖析06-Snappy压缩算法

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

snappy算法解析

1. 获取原始数据大小N，将N存储到输出结果开头位置，占用1-5个字节不等：

2. 将数据切分为65536字节的块，循环处理各个块

相关文章