Ассемблер GAS для Intel x86-64 | Вычитание с помощью инструкций SSE/AVX

Вычитание с помощью инструкций SSE/AVX

Последнее обновление: 03.10.2023

Для вычитания соответствующих элементов векторов применяются следующие инструкции:

psubb: вычитание байтов в 16 дорожках
vpsubb: вычитание байтов в 16 дорожках (для 128-битной версии) и в 32 дорожках (для 256-битной версии)
psubw: вычитание слов (значений .short/.word) в 8 дорожках
vpsubw: вычитание слов в 8 дорожках (для 128-битной версии) и в 16 дорожках (для 256-битной версии)
psubd: вычитание двойных слов (значений .long) в 4 дорожках
vpsubd: вычитание двойных слов в 4 дорожках (для 128-битной версии) и в 8 дорожках (для 256-битной версии)
psubq: вычитание четверных слов (тип .quad) в 2 дорожках
vpsubq: вычитание четверных слов в 2 дорожках (128-битной версии) и в 4 дорожках (для 256-битной версии)

Синтаксис инструкций:

psubb xmmsrc/mem128, xmmdest 
vpsubb xmmsrc2/mem128, xmmsrc1, xmmdest 
vpsubb ymmsrc2/mem256, ymmsrc1, ymmdest

psubw xmmsrc/mem128, xmmdest
vpsubw xmmsrc2/mem128, xmmsrc1, xmmdest
vpsubw ymmsrc2/mem256, ymmsrc1, ymmdest

psubd xmmsrc/mem128, xmmdest
vpsubd xmmsrc2/mem128, xmmsrc1, xmmdest
vpsubd ymmsrc2/mem256, ymmsrc1, ymmdest

psubq xmmsrc/mem128, xmmdest
vpsubq xmmsrc2/mem128, xmmsrc1, xmmdest
vpsubq ymmsrc2/mem256, ymmsrc1, ymmdest

Инструкции с двумя операндами вычитают из второго операнда соответствующие дорожки первого операнда и результат помещают во второй операнд. Инструкции с тремя операндами вычитают из второго соответствующие дорожки первого операнда и результат помещают в третий. Пример вычитания:

.globl main

.data
nums0: .long 1, 4, 3, 9
nums1: .long 2, 3, 5, 6
       
format_str: .asciz "%d, %d, %d, %d\n"
.text
main: 
    subq $8, %rsp
    movaps nums0, %xmm0
    movaps nums1, %xmm1
    psubd %xmm1, %xmm0       # XMM0 = XMM0 - XMM1 
    # XMM0 = -1, 1, -2, 3

    # выводим данные на консоль
    movd %xmm0, %esi
    psrldq $4, %xmm0
    movd %xmm0, %edx
    psrldq $4, %xmm0
    movd %xmm0, %ecx
    psrldq $4, %xmm0
    movd %xmm0, %r8d

    movq $format_str, %rdi
    call printf

    addq $8, %rsp
    ret

Результат работы программы:

root@Eugene:~/asm# gcc -static hello.s -o hello
root@Eugene:~/asm# ./hello
-1, 1, -2, 3
root@Eugene:~/asm#

Инструкции вычитания не влияют ни на какие флаги, и любая информация о переносе, заимствовании, переполнении или недостатке будет потеряна.

И аналогично сложению расширения SSE/AVX предоставляют инструкции для вычитания с насыщением:

psubsb: вычитание байтов со знаком в 16 дорожках
vpsubsb: вычитание байтов со знаком в 16 дорожках
vpsubsb: вычитание байтов со знаком в 32 дорожках
psubsw: вычитание слов со знаком в 8 дорожках
vpsubsw: вычитание слов со знаком в 8 дорожках
vpsubsw: вычитание слов со знаком в 16 дорожках
psubusb: вычитание беззнаковых байтов в 16 дорожках
vpsubusb: вычитание беззнаковых байтов в 16 дорожках
vpsubusb: вычитание беззнаковых байтов в 32 дорожках
psubusw: вычитание беззнаковых слов в 8 дорожках
vpsubusw: вычитание беззнаковых слов в 8 дорожках
vpsubusw: вычитание беззнаковых слов в 16 дорожках

Синтаксис инструкций:

psubsb xmmsrc/mem128, xmmdest
vpsubsb xmmsrc2/mem128, xmmsrc1, xmmdest
vpsubsb ymmsrc2/mem256, ymmsrc1, ymmdest

psubsw xmmsrc/mem128, xmmdest
vpsubsw xmmsrc2/mem128, xmmsrc1, xmmdest
vpsubsw ymmsrc2/mem256, ymmsrc1, ymmdest

psubusb xmmsrc/mem128, xmmdest
vpsubusb xmmsrc2/mem128, xmmsrc1, xmmdest
vpsubusb ymmsrc2/mem256, ymmsrc1, ymmdest

psubusw xmmsrc/mem128, xmmdest
vpsubusw xmmsrc2/mem128, xmmsrc1, xmmdest
vpsubusw ymmsrc2/mem256, ymmsrc1, ymmdest

Инструкций для вычитания однобайтовых чисел со знаком насыщают положительное переполнение до 0x7F (+127) и отрицательное переполнение до 0x80 (-128). Инструкции для вычитания 2-байтных чисел (слов) насыщаются до 0x7FFF (+32 767) и до 0x8000 (-32 768) соответственно. Инструкции насыщения без знака насыщают до 0xFFFF (+65 535) и 0 соответственно.

Посмотрим, как насыщение может изменить результат. Сначала выполним вычитание без насыщения:

.globl main

.data
nums0: .short -32768, 0, 0, 0, 0, 0, 0, 0
nums1: .short 10, 0, 0, 0, 0, 0, 0, 0
       
format_str: .asciz "%d\n"
.text
main: 
    subq $8, %rsp
    movaps nums0, %xmm0
    movaps nums1, %xmm1
    psubw %xmm1, %xmm0       # XMM0 = XMM0 - XMM1

    # выводим данные на консоль
    movd %xmm0, %esi
    
    movsx %si, %esi         # расширение знаком 16-рарядного числа до 32 разрядов
    movq $format_str, %rdi
    call printf

    addq $8, %rsp
    ret

Здесь вычитаются векторы 16-разрядных целых чисел. Для демонстрации нас интересуют только первые дорожки векторов. В частности, мы имеем операцию -32768 - 10. Математически результат был бы -32778, но этот результат выходит за пределы диапазона чисел для типа .short. Посмотрим, что нам покажет вывод программы

root@Eugene:~/asm# gcc -static hello.s -o hello
root@Eugene:~/asm# ./hello
32758
root@Eugene:~/asm#

Число 32758 - определенно это не правильный результат. Теперь применим операцию вычитания чисел с насыщением:

.globl main

.data
nums0: .short -32768, 0, 0, 0, 0, 0, 0, 0
nums1: .short 10, 0, 0, 0, 0, 0, 0, 0
       
format_str: .asciz "%d\n"
.text
main: 
    subq $8, %rsp
    movaps nums0, %xmm0
    movaps nums1, %xmm1
    psubsw %xmm1, %xmm0       # Вычитание с насыщением

    # выводим данные на консоль
    movd %xmm0, %esi
    
    movsx %si, %esi         # расширение знаком 16-рарядного числа до 32 разрядов
    movq $format_str, %rdi
    call printf

    addq $8, %rsp
    ret

Вывод программы

root@Eugene:~/asm# gcc -static hello.s -o hello
root@Eugene:~/asm# ./hello
-32768
root@Eugene:~/asm#

Число -32768 с математической точки зрения также не является правильным результатом, но этот результат ближе к желательному и укладывается в диапазон чисел типа .short. И в ряде сценариев такой результат может быть допустимым.

Назад Содержание Вперед

Глава 1. Введение в ассемблер GAS для Intel x86-64
Глава 2. Основы ассемблера GAS для Intel x86-64
Глава 3. Работа с данными и памятью
Глава 4. Строки
Глава 5. Функции
Глава 6. Системные вызовы
- Системные вызовы в Linux и инструкция syscall
Глава 7. Взаимодействие кода ассемблера и C/C++
Глава 8. Разделяемые библиотеки
Глава 9. SIMD
Глава 10. Объектно-ориентированное программирование
Глава 11. GNU ассемблер AS под Windows
Глава 12. GNU ассемблер под MacOS Intel x86-64
- Первая программа на MacOS
Глава 13. Дополнительные статьи
- Введение в отладку с помощью GDB
- Стек и окружение программы

Помощь сайту

Юмани:

410011174743222

Перевод на карту

Номер карты:

4048415020898850