Сложение с помощью инструкций SSE/AVX

Последнее обновление: 03.07.2023

Для сложения соответствующих элементов векторов применяются следующие инструкции:

  • paddb: сложение байтов в 16 дорожках

  • vpaddb: сложение байтов в 16 дорожках (для 128-битной версии) и в 32 дорожках (для 256-битной версии)

  • paddw: сложение слов (значений word) в 8 дорожках

  • vpaddw: сложение слов в 8 дорожках (для 128-битной версии) и в 16 дорожках (для 256-битной версии)

  • paddd: сложение двойных слов (значений dword) в 4 дорожках

  • vpaddd: сложение двойных слов в 4 дорожках (для 128-битной версии) и в 8 дорожках (для 256-битной версии)

  • paddq: сложение четверных слов (тип qword) в 2 дорожках

  • vpaddq: сложение четверных слов в 2 дорожках (128-битной версии) и в 4 дорожках (для 256-битной версии)

Синтаксис инструкций:

paddb xmmdest, xmmsrc/mem128 
vpaddb xmmdest, xmmsrc1, xmmsrc2/mem128 
vpaddb ymmdest, ymmsrc1, ymmsrc2/mem256

paddw xmmdest, xmmsrc/mem128
vpaddw xmmdest, xmmsrc1, xmmsrc2/mem128
vpaddw ymmdest, ymmsrc1, ymmsrc2/mem256

paddd xmmdest, xmmsrc/mem128
vpaddd xmmdest, xmmsrc1, xmmsrc2/mem128
vpaddd ymmdest, ymmsrc1, ymmsrc2/mem256

paddq xmmdest, xmmsrc/mem128
vpaddq xmmdest, xmmsrc1, xmmsrc2/mem128
vpaddq ymmdest, ymmsrc1, ymmsrc2/mem256

Инструкции с двумя операндами складывают соответствующие дорожки двух операндов и результат помещают в первый операнд. Инструкции с тремя операндами складывают второй и третий операнды и результат помещают в первый. Пример сложения:

.data
    nums0 dword 1, 2, 4, 8
    nums1 dword 2, 3, 5, 9
.code
main proc 
    movaps xmm0, nums0 
    movaps xmm1, nums1
    paddd xmm0, xmm1       ; XMM0 = XMM0 + XMM1 
    ret
main endp
end

В данном случае в регистре XMM0 окажется вектор, элементы которого представляют сумму соответствующих дорожек двух регистров, то есть вектор 3, 5, 9, 17

Эти инструкции не влияют ни на какие флаги и, таким образом, не указывают, когда во время выполнения этих инструкций происходит переполнение (со знаком или без знака). Если перенос происходит во время добавления, перенос теряется. Это может привести к неправильным результатм при рассчетах, например:

.data
    nums0 sword -32768, ..........
    nums1 sword -10, ...........
.code
main proc 
    movdqa xmm0, oword ptr nums0 
    movdqa xmm1, oword ptr nums1
    paddw xmm0, xmm1       ; XMM0 = XMM0 + XMM1 

Первый элемент вектора nums0 (-32768) складывается с первым элементом вектора nums1 (-10), результатом будет число 32758. Определенно это не тот результат, который мы бы хотели видеть. Программа сама должна проверять, что складываемые операнды находятся в соответствующем диапазоне. Но дополнительно SSE/AVX предоставляют инструкции, которые используют так называемую "арифметику насыщения" (saturation arithmetic). Арифметика насыщения хорошо работает для обработки мультимедиа - аудио, видео, изображений. Это следующие инструкции:

  • paddsb: сложение байтов со знаком в 16 дорожках

  • vpaddsb: сложение байтов со знаком в 16 дорожках

  • vpaddsb: сложение байтов со знаком в 32 дорожках

  • paddsw: сложение слов со знаком в 8 дорожках

  • vpaddsw: сложение слов со знаком в 8 дорожках

  • vpaddsw: сложение слов со знаком в 16 дорожках

  • paddusb: сложение беззнаковых байтов в 16 дорожках

  • vpaddusb: сложение беззнаковых байтов в 16 дорожках

  • vpaddusb: сложение беззнаковых байтов в 32 дорожках

  • paddusw: сложение беззнаковых слов в 8 дорожках

  • vpaddusw: сложение беззнаковых слов в 8 дорожках

  • vpaddusw: сложение беззнаковых слов в 16 дорожках

Синтаксис инструкций:

paddsb xmmdest, xmmsrc/mem128
vpaddsb xmmdest, xmmsrc1, xmmsrc2/mem128
vpaddsb ymmdest, ymmsrc1, ymmsrc2/mem256

paddsw xmmdest, xmmsrc/mem128
vpaddsw xmmdest, xmmsrc1, xmmsrc2/mem128
vpaddsw ymmdest, ymmsrc1, ymmsrc2/mem256

paddusb xmmdest, xmmsrc/mem128
vpaddusb xmmdest, xmmsrc1, xmmsrc2/mem128
vpaddusb ymmdest, ymmsrc1, ymmsrc2/mem256

paddusw xmmdest, xmmsrc/mem128
vpaddusw xmmdest, xmmsrc1, xmmsrc2/mem128
vpaddusw ymmdest, ymmsrc1, ymmsrc2/mem256

Для сложения без знака переполнение усекается до максимально возможного значения, которое может выдержать размер инструкции. Например, если сложение двух байтовых значений превышает 0FFh, арифметика насыщения дает 0FFh — максимально возможное 8-битное значение без знака. Аналогично, если при вычитании произойдет потеря значимости (underflow), то результат округляется до 0. Для арифметики насыщения со знаком отсечение происходит при наибольшем положительном и наименьшем отрицательном значениях (например, для чисел размером с 1 байт это 7Fh/+127 для положительных значений и 80h/–128 для отрицательных значений). Пример использования:

.data
    nums0 sword -32768, 2, -4, 8, -16, 32, -64, 128
    nums1 sword -10, -3, 5, -9, 15, -31, 55, -112
.code
main proc 
    movdqa xmm0, oword ptr nums0 
    movdqa xmm1, oword ptr nums1
    paddsw xmm0, xmm1       ; XMM0 = XMM0 + XMM1 
    ; XMM0 = -32768, -1, 1, -1, -1, 1, -9, 16
    ret
main endp
end

В данном случае результат сложения первых элементов векторов - -32768 + -10 выходит за минимальные границы диапазона типа sword, но теперь минимальное значение - -32768, что, возможно, в каких ситуациях может быть приемлимым результатом.

Горизонтальное сложение

Расширения e SSE/AVX также предоставляют инструкции для так называемого "горизонтального сложения":

  • (v)phaddw: сложение 16-битных чисел

  • (v)phaddd: сложение 32-битных чисел

  • (v)phaddsw: сложение 16-битных чисел с насыщением

Они имеют аналогичный синтаксис:

phaddw xmmdest, xmmsrc/mem128
vphaddw xmmdest, xmmsrc1, xmmsrc2/mem128
vphaddw ymmdest, ymmsrc1, ymmsrc2/mem256

phaddd xmmdest, xmmsrc/mem128
vphaddd xmmdest, xmmsrc1, xmmsrc2/mem128
vphaddd ymmdest, ymmsrc1, ymmsrc2/mem256

phaddsw xmmdest, xmmsrc/mem128
vphaddsw xmmdest, xmmsrc1, xmmsrc2/mem128
vphaddsw ymmdest, ymmsrc1, ymmsrc2/mem256

Инструкции горизонтального сложения складывают соседние слова или двойные слова обоих операндов и сохраняют сумму в дорожке регистра из первого операнда. В случае с инструкцией phaddw сложение будет выполняться следующим образом:

temp[0-15] = xmmdest[0-15] + xmmdest[16-31]
temp[16-31] = xmmdest[32-47] + xmmdest[48-63]
temp[32-47] = xmmdest[64-79] + xmmdest[80-95]
temp[48-63] = xmmdest[96-111] + xmmdest[112-127]
temp[64-79] = xmmsrc/mem128[0-15] + xmmsrc/mem128[16-31]
temp[80-95] = xmmsrc/mem128[32-47] + xmmsrc/mem128[48-63]
temp[96-111] = xmmsrc/mem128[64-79] + xmmsrc/mem128[80-95]
temp[112-127] = xmmsrc/mem128[96-111] + xmmsrc/mem128[112-127]
xmmdest = temp

4 слова из младших 64 битов результата являются суммой соседних слов первого операнда, а 4 слова из старших 64 бит результата - сумма соседних слов из второго операнда. Инструкция phaddw не затрагивает старшие 128 бит перекрывающего регистра YMM.

Инструкция vphaddw складывает слова из второго и третьего операнда и результат помещает в первый. При этом старшие 128 бит перекрывающего регистра YMM заполняются нулями:

xmmdest[0-15] = xmmsrc1[0-15] + xmmsrc1[16-31]
xmmdest[16-31] = xmmsrc1[32-47] + xmmsrc1[48-63]
xmmdest[32-47] = xmmsrc1[64-79] + xmmsrc1[80-95]
xmmdest[48-63] = xmmsrc1[96-111] + xmmsrc1[112-127]
xmmdest[64-79] = xmmsrc2/mem128[0-15] + xmmsrc2/mem128[16-31]
xmmdest[80-95] = xmmsrc2/mem128[32-47] + xmmsrc2/mem128[48-63]
xmmdest[96-111] = xmmsrc2/mem128[64-79] + xmmsrc2/mem128[80-95]
xmmdest[111-127] = xmmsrc2/mem128[96-111] + xmmsrc2/mem128[112-127]

256-разрядная версия инструкции vphaddw выполняет вычисления следующим образом:

ymmdest[0-15] = ymmsrc1[16-31] + ymmsrc1[0-15]
ymmdest[16-31] = ymmsrc1[48-63] + ymmsrc1[32-47]
ymmdest[32-47] = ymmsrc1[80-95] + ymmsrc1[64-79]
ymmdest[48-63] = ymmsrc1[112-127] + ymmsrc1[96-111]
ymmdest[64-79] = ymmsrc2[16-31] + ymmsrc2[0-15]
ymmdest[80-95] = ymmsrc2[48-63] + ymmsrc2[32-47]
ymmdest[96-111] = ymmsrc2[80-95] + ymmsrc2[64-79]
ymmdest[112-127] = ymmsrc2[112-127] + ymmsrc2[96-111]
ymmdest[128-143] = ymmsrc1[144-159] + ymmsrc1[128-143]
ymmdest[144-159] = ymmsrc1[176-191] + ymmsrc1[160-175]
ymmdest[160-175] = ymmsrc1[208-223] + ymmsrc1[192-207]
ymmdest[176-191] = ymmsrc1[240-255] + ymmsrc1[224-239]
ymmdest[192-207] = ymmsrc2[144-159] + ymmsrc2[128-143]
ymmdest[208-223] = ymmsrc2[176-191] + ymmsrc2[160-175]
ymmdest[224-239] = ymmsrc2[208-223] + ymmsrc2[192-207]
ymmdest[240-255] = ymmsrc2[240-255] + ymmsrc2[224-239]

Горизонтальное сложение двойных слов с помощью инструкции phaddd:

temp[0-31] = xmmdest[0-31] + xmmdest[32-63]
temp[32-63] = xmmdest[64-95] + xmmdest[96-127]
temp[64-95] = xmmsrc/mem128[0-31] + xmmsrc/mem128[32-63]
temp[96-127] = xmmsrc/mem128[64-95] + xmmsrc/mem128[96-127]
xmmdest = temp

Сложение с помощью 128-битной инструкции vphaddd

xmmdest[0-31] = xmmsrc1[0-31] + xmmsrc1[32-63]
xmmdest[32-63] = xmmsrc1[64-95] + xmmsrc1[96-127]
xmmdest[64-95] = xmmsrc2/mem128[0-31] + xmmsrc2/mem128[32-63]
xmmdest[96-127] = xmmsrc2/mem128[64-95] + xmmsrc2/mem128[96-127]
(ymmdest[128-255] = 0)

Сложение с помощью 256-битной инструкции vphaddd

ymmdest[0-31] = ymmsrc1[32-63] + ymmsrc1[0-31]
ymmdest[32-63] = ymmsrc1[96-127] + ymmsrc1[64-95]
ymmdest[64-95] = ymmsrc2/mem128[32-63] + ymmsrc2/mem128[0-31]
ymmdest[96-127] = ymmsrc2/mem128[96-127] + ymmsrc2/mem128[64-95]
ymmdest[128-159] = ymmsrc1[160-191] + ymmsrc1[128-159]
ymmdest[160-191] = ymmsrc1[224-255] + ymmsrc1[192-223]
ymmdest[192-223] = ymmsrc2/mem128[160-191] + ymmsrc2/mem128[128-159]
ymmdest[224-255] = ymmsrc2/mem128[224-255] + ymmsrc2/mem128[192-223]

Если при горизонтальном сложеним с помощью инструкций (v)phaddw и (v)phaddd происходит переполнение, то оно просто игнорируется. При горизонтальном сложении с насыщением с помощью phaddsw любое (положительное) переполнение приводит к значению 7FFFh, независимо от фактического результата. Аналогично, любое отрицательное значение потери значимости приводит к значению 8000h.

Помощь сайту
Юмани:
410011174743222
Перевод на карту
Номер карты:
4048415020898850