doxygen/3.0/me__cmp__alpha_8c_source.html

 /*

  * Alpha optimized DSP utils

  * Copyright (c) 2002 Falk Hueffner <falk@debian.org>

  *

  * This file is part of FFmpeg.

  *

  * FFmpeg is free software; you can redistribute it and/or

  * modify it under the terms of the GNU Lesser General Public

  * License as published by the Free Software Foundation; either

  * version 2.1 of the License, or (at your option) any later version.

  *

  * FFmpeg is distributed in the hope that it will be useful,

  * but WITHOUT ANY WARRANTY; without even the implied warranty of

  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU

  * Lesser General Public License for more details.

  *

  * You should have received a copy of the GNU Lesser General Public

  * License along with FFmpeg; if not, write to the Free Software

  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA

  */


 #include "libavutil/attributes.h"

 #include "libavcodec/me_cmp.h"

 #include "asm.h"


 int pix_abs16x16_mvi_asm(void *v, uint8_t *pix1, uint8_t *pix2, int line_size, int h);


 static inline uint64_t avg2(uint64_t a, uint64_t b)

 {

     return (a | b) - (((a ^ b) & BYTE_VEC(0xfe)) >> 1);

 }


 static inline uint64_t avg4(uint64_t l1, uint64_t l2, uint64_t l3, uint64_t l4)

 {

     uint64_t r1 = ((l1 & ~BYTE_VEC(0x03)) >> 2)

                 + ((l2 & ~BYTE_VEC(0x03)) >> 2)

                 + ((l3 & ~BYTE_VEC(0x03)) >> 2)

                 + ((l4 & ~BYTE_VEC(0x03)) >> 2);

     uint64_t r2 = ((  (l1 & BYTE_VEC(0x03))

                     + (l2 & BYTE_VEC(0x03))

                     + (l3 & BYTE_VEC(0x03))

                     + (l4 & BYTE_VEC(0x03))

                     + BYTE_VEC(0x02)) >> 2) & BYTE_VEC(0x03);

     return r1 + r2;

 }


 static int pix_abs8x8_mvi(void *v, uint8_t *pix1, uint8_t *pix2, int line_size, int h)

 {

     int result = 0;


     if ((size_t) pix2 & 0x7) {

         /* works only when pix2 is actually unaligned */

         do {                    /* do 8 pixel a time */

             uint64_t p1, p2;


             p1  = ldq(pix1);

             p2  = uldq(pix2);

             result += perr(p1, p2);


             pix1 += line_size;

             pix2 += line_size;

         } while (--h);

     } else {

         do {

             uint64_t p1, p2;


             p1 = ldq(pix1);

             p2 = ldq(pix2);

             result += perr(p1, p2);


             pix1 += line_size;

             pix2 += line_size;

         } while (--h);

     }


     return result;

 }


 #if 0                           /* now done in assembly */

 int pix_abs16x16_mvi(uint8_t *pix1, uint8_t *pix2, int line_size)

 {

     int result = 0;

     int h = 16;


     if ((size_t) pix2 & 0x7) {

         /* works only when pix2 is actually unaligned */

         do {                    /* do 16 pixel a time */

             uint64_t p1_l, p1_r, p2_l, p2_r;

             uint64_t t;


             p1_l  = ldq(pix1);

             p1_r  = ldq(pix1 + 8);

             t     = ldq_u(pix2 + 8);

             p2_l  = extql(ldq_u(pix2), pix2) | extqh(t, pix2);

             p2_r  = extql(t, pix2) | extqh(ldq_u(pix2 + 16), pix2);

             pix1 += line_size;

             pix2 += line_size;


             result += perr(p1_l, p2_l)

                     + perr(p1_r, p2_r);

         } while (--h);

     } else {

         do {

             uint64_t p1_l, p1_r, p2_l, p2_r;


             p1_l = ldq(pix1);

             p1_r = ldq(pix1 + 8);

             p2_l = ldq(pix2);

             p2_r = ldq(pix2 + 8);

             pix1 += line_size;

             pix2 += line_size;


             result += perr(p1_l, p2_l)

                     + perr(p1_r, p2_r);

         } while (--h);

     }


     return result;

 }

 #endif


 static int pix_abs16x16_x2_mvi(void *v, uint8_t *pix1, uint8_t *pix2, int line_size, int h)

 {

     int result = 0;

     uint64_t disalign = (size_t) pix2 & 0x7;


     switch (disalign) {

     case 0:

         do {

             uint64_t p1_l, p1_r, p2_l, p2_r;

             uint64_t l, r;


             p1_l = ldq(pix1);

             p1_r = ldq(pix1 + 8);

             l    = ldq(pix2);

             r    = ldq(pix2 + 8);

             p2_l = avg2(l, (l >> 8) | ((uint64_t) r << 56));

             p2_r = avg2(r, (r >> 8) | ((uint64_t) pix2[16] << 56));

             pix1 += line_size;

             pix2 += line_size;


             result += perr(p1_l, p2_l)

                     + perr(p1_r, p2_r);

         } while (--h);

         break;

     case 7:

         /* |.......l|lllllllr|rrrrrrr*|

            This case is special because disalign1 would be 8, which

            gets treated as 0 by extqh.  At least it is a bit faster

            that way :)  */

         do {

             uint64_t p1_l, p1_r, p2_l, p2_r;

             uint64_t l, m, r;


             p1_l = ldq(pix1);

             p1_r = ldq(pix1 + 8);

             l     = ldq_u(pix2);

             m     = ldq_u(pix2 + 8);

             r     = ldq_u(pix2 + 16);

             p2_l  = avg2(extql(l, disalign) | extqh(m, disalign), m);

             p2_r  = avg2(extql(m, disalign) | extqh(r, disalign), r);

             pix1 += line_size;

             pix2 += line_size;


             result += perr(p1_l, p2_l)

                     + perr(p1_r, p2_r);

         } while (--h);

         break;

     default:

         do {

             uint64_t disalign1 = disalign + 1;

             uint64_t p1_l, p1_r, p2_l, p2_r;

             uint64_t l, m, r;


             p1_l  = ldq(pix1);

             p1_r  = ldq(pix1 + 8);

             l     = ldq_u(pix2);

             m     = ldq_u(pix2 + 8);

             r     = ldq_u(pix2 + 16);

             p2_l  = avg2(extql(l, disalign) | extqh(m, disalign),

                          extql(l, disalign1) | extqh(m, disalign1));

             p2_r  = avg2(extql(m, disalign) | extqh(r, disalign),

                          extql(m, disalign1) | extqh(r, disalign1));

             pix1 += line_size;

             pix2 += line_size;


             result += perr(p1_l, p2_l)

                     + perr(p1_r, p2_r);

         } while (--h);

         break;

     }

     return result;

 }


 static int pix_abs16x16_y2_mvi(void *v, uint8_t *pix1, uint8_t *pix2, int line_size, int h)

 {

     int result = 0;


     if ((size_t) pix2 & 0x7) {

         uint64_t t, p2_l, p2_r;

         t     = ldq_u(pix2 + 8);

         p2_l  = extql(ldq_u(pix2), pix2) | extqh(t, pix2);

         p2_r  = extql(t, pix2) | extqh(ldq_u(pix2 + 16), pix2);


         do {

             uint64_t p1_l, p1_r, np2_l, np2_r;

             uint64_t t;


             p1_l  = ldq(pix1);

             p1_r  = ldq(pix1 + 8);

             pix2 += line_size;

             t     = ldq_u(pix2 + 8);

             np2_l = extql(ldq_u(pix2), pix2) | extqh(t, pix2);

             np2_r = extql(t, pix2) | extqh(ldq_u(pix2 + 16), pix2);


             result += perr(p1_l, avg2(p2_l, np2_l))

                     + perr(p1_r, avg2(p2_r, np2_r));


             pix1 += line_size;

             p2_l  = np2_l;

             p2_r  = np2_r;


         } while (--h);

     } else {

         uint64_t p2_l, p2_r;

         p2_l = ldq(pix2);

         p2_r = ldq(pix2 + 8);

         do {

             uint64_t p1_l, p1_r, np2_l, np2_r;


             p1_l = ldq(pix1);

             p1_r = ldq(pix1 + 8);

             pix2 += line_size;

             np2_l = ldq(pix2);

             np2_r = ldq(pix2 + 8);


             result += perr(p1_l, avg2(p2_l, np2_l))

                     + perr(p1_r, avg2(p2_r, np2_r));


             pix1 += line_size;

             p2_l  = np2_l;

             p2_r  = np2_r;

         } while (--h);

     }

     return result;

 }


 static int pix_abs16x16_xy2_mvi(void *v, uint8_t *pix1, uint8_t *pix2, int line_size, int h)

 {

     int result = 0;


     uint64_t p1_l, p1_r;

     uint64_t p2_l, p2_r, p2_x;


     p1_l = ldq(pix1);

     p1_r = ldq(pix1 + 8);


     if ((size_t) pix2 & 0x7) { /* could be optimized a lot */

         p2_l = uldq(pix2);

         p2_r = uldq(pix2 + 8);

         p2_x = (uint64_t) pix2[16] << 56;

     } else {

         p2_l = ldq(pix2);

         p2_r = ldq(pix2 + 8);

         p2_x = ldq(pix2 + 16) << 56;

     }


     do {

         uint64_t np1_l, np1_r;

         uint64_t np2_l, np2_r, np2_x;


         pix1 += line_size;

         pix2 += line_size;


         np1_l = ldq(pix1);

         np1_r = ldq(pix1 + 8);


         if ((size_t) pix2 & 0x7) { /* could be optimized a lot */

             np2_l = uldq(pix2);

             np2_r = uldq(pix2 + 8);

             np2_x = (uint64_t) pix2[16] << 56;

         } else {

             np2_l = ldq(pix2);

             np2_r = ldq(pix2 + 8);

             np2_x = ldq(pix2 + 16) << 56;

         }


         result += perr(p1_l,

                        avg4( p2_l, ( p2_l >> 8) | ((uint64_t)  p2_r << 56),

                             np2_l, (np2_l >> 8) | ((uint64_t) np2_r << 56)))

                 + perr(p1_r,

                        avg4( p2_r, ( p2_r >> 8) | ((uint64_t)  p2_x),

                             np2_r, (np2_r >> 8) | ((uint64_t) np2_x)));


         p1_l = np1_l;

         p1_r = np1_r;

         p2_l = np2_l;

         p2_r = np2_r;

         p2_x = np2_x;

     } while (--h);


     return result;

 }


 av_cold void ff_me_cmp_init_alpha(MECmpContext *c, AVCodecContext *avctx)

 {

     /* amask clears all bits that correspond to present features.  */

     if (amask(AMASK_MVI) == 0) {

         c->sad[0]           = pix_abs16x16_mvi_asm;

         c->sad[1]           = pix_abs8x8_mvi;

         c->pix_abs[0][0]    = pix_abs16x16_mvi_asm;

         c->pix_abs[1][0]    = pix_abs8x8_mvi;

         c->pix_abs[0][1]    = pix_abs16x16_x2_mvi;

         c->pix_abs[0][2]    = pix_abs16x16_y2_mvi;

         c->pix_abs[0][3]    = pix_abs16x16_xy2_mvi;

     }

 }

pix_abs16x16_xy2_mvi
static int pix_abs16x16_xy2_mvi(void *v, uint8_t *pix1, uint8_t *pix2, int line_size, int h)
Definition: me_cmp_alpha.c:248

pix_abs16x16_y2_mvi
static int pix_abs16x16_y2_mvi(void *v, uint8_t *pix1, uint8_t *pix2, int line_size, int h)
Definition: me_cmp_alpha.c:195

h
h
Definition: vp9dsp_template.c:2093

perr
#define perr(a, b)
Definition: asm.h:142

pix_abs8x8_mvi
static int pix_abs8x8_mvi(void *v, uint8_t *pix1, uint8_t *pix2, int line_size, int h)
Definition: me_cmp_alpha.c:47

b
const char * b
Definition: vf_curves.c:109

ldq
#define ldq(p)
Definition: asm.h:59

attributes.h
Macro definitions for various function/variable attributes.

extql
#define extql(a, b)
Definition: asm.h:94

uint8_t
uint8_t
Definition: audio_convert.c:194

av_cold
#define av_cold
Definition: attributes.h:82

AMASK_MVI
#define AMASK_MVI
Definition: asm.h:40

m
unsigned m
Definition: audioconvert.c:187

extqh
#define extqh(a, b)
Definition: asm.h:96

amask
#define amask
Definition: asm.h:99

uldq
#define uldq(a)
Definition: asm.h:85

r
const char * r
Definition: vf_curves.c:107

pix_abs16x16_x2_mvi
static int pix_abs16x16_x2_mvi(void *v, uint8_t *pix1, uint8_t *pix2, int line_size, int h)
Definition: me_cmp_alpha.c:122

pix_abs16x16_mvi_asm
int pix_abs16x16_mvi_asm(void *v, uint8_t *pix1, uint8_t *pix2, int line_size, int h)

avg2
static uint64_t avg2(uint64_t a, uint64_t b)
Definition: me_cmp_alpha.c:28

MECmpContext::pix_abs
me_cmp_func pix_abs[2][4]
Definition: me_cmp.h:78

ff_me_cmp_init_alpha
av_cold void ff_me_cmp_init_alpha(MECmpContext *c, AVCodecContext *avctx)
Definition: me_cmp_alpha.c:305

me_cmp.h

ldq_u
#define ldq_u(p)
Definition: asm.h:84

AVCodecContext
main external API structure.
Definition: avcodec.h:1532

MECmpContext::sad
me_cmp_func sad[6]
Definition: me_cmp.h:56

c
static double c[64]
Definition: vsrc_mptestsrc.c:87

BYTE_VEC
static uint64_t BYTE_VEC(uint64_t x)
Definition: asm.h:42

avg4
static uint64_t avg4(uint64_t l1, uint64_t l2, uint64_t l3, uint64_t l4)
Definition: me_cmp_alpha.c:33

asm.h

MECmpContext
Definition: me_cmp.h:53

a
a
Definition: h264pred_template.c:468