C++性能优化系列——矩阵转置(五)Intrinsic函数详解

待我称王封你为后i 2023-03-02 04:59 4阅读 0赞

Intrinsic函数是编译器提供的函数接口，调用Intrinsic函数可以达到代替汇编的作用。本篇详细介绍矩阵转置功能需要使用的Intrinsic函数的具体含义。

函数解释来自Intel Intrinsics Guide  
https://software.intel.com/sites/landingpage/IntrinsicsGuide/\#

## 洗牌指令 ##

### \_\_m128i \_mm\_unpacklo\_epi8 (\_\_m128i a, \_\_m128i b) ###

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center]

### \_\_m128i \_mm\_blend\_epi16 (\_\_m128i a, \_\_m128i b, const int imm8) ###

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center 1]

### \_\_m128d \_mm\_permute\_pd (\_\_m128d a, int imm8) ###

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center 2]

## 缓存控制指令 ##

### void \_mm\_prefetch (char const\* p, int i) ###

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center 3]

**解释**：从地址P处预取尺寸为cache line大小的数据缓存，参数i指示预取方式  
（\_MM\_HINT\_T0, \_MM\_HINT\_T1, \_MM\_HINT\_T2, \_MM\_HINT\_NTA，分别表示不同的预取方式）  
T0 预取数据到所有级别的缓存，包括L0。  
T1 预取数据到除L0外所有级别的缓存。  
T2 预取数据到除L0和L1外所有级别的缓存。  
NTA 预取数据到非临时缓冲结构中，可以最小化对缓存的污染。  
如果在CPU操作数据之前，我们就已经将数据主动加载到缓存中，那么就减少了由于缓存不命中，需要从内存取数的情况，这样就可以加速操作，获得性能上提升。使用主动缓存技术来优化内存拷贝。 注 意，CPU对数据操作拥有绝对自由！使用预取指令只是按我们自己的想法对CPU的数据操作进行补充，有可能CPU当前并不需要我们加载到缓存的数据，这 样，我们的预取指令可能会带来相反的结果，比如对于多任务系统，有可能我们冲掉了有用的缓存。不过，在多任务系统上，由于线程或进程的切换所花费的时间相 对于预取操作来说太长了, 所以可以忽略线程或进程切换对缓存预取的影响。

### void \_mm\_clflush (void const\* p) ###

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center 4]

### void \_mm\_stream\_si128 (\_\_m128i\* mem\_addr, \_\_m128i a) ###

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center 5]

[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center]: /images/20230208/1e7dcff6cb504ca78a5d233ea26716fb.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center 1]: /images/20230208/98213f0f2572400b8695b218cdd51033.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center 2]: /images/20230208/1a46f73630d84903a64bee403b277049.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center 3]: /images/20230208/38561aed58644507bf996dd9857fa9b4.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center 4]: /images/20230208/fe8ec16fcc67495289c8273b870ab84a.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lhbjMxNDE1_size_16_color_FFFFFF_t_70_pic_center 5]: /images/20230208/89d0a9744ecd4b52a33a9488bee5010e.png