Optimizacija za dodavanje jedan

[ Branimir Maksimovic @ 06.08.2017. 02:27 ] @

Za sledeci code snippet:

Code:

    cmp r9,1
    je .one
    add rdi,r9
    sub rdx,r9
    jmp .L0
.one:
    inc rdi
    dec rdx
    jmp .L0

Da li se ovakva optimizacija isplati? Po nekom merenju ako je rezultat 1 daje znacajno ubrzanje na haswell-u . Sta mislite o ovome?
Po nekoj logici branch bi trebao da kosta ali kod mene dolazi do ubrzanja i to ne malog a cak nije nimalo sporiji od varijante bez brancha.