FFmpeg: libavcodec/x86/dsputil

00001 /*
00002  * MMX optimized DSP utils
00003  * Copyright (c) 2000, 2001 Fabrice Bellard
00004  * Copyright (c) 2002-2004 Michael Niedermayer <michaelni@gmx.at>
00005  *
00006  * This file is part of FFmpeg.
00007  *
00008  * FFmpeg is free software; you can redistribute it and/or
00009  * modify it under the terms of the GNU Lesser General Public
00010  * License as published by the Free Software Foundation; either
00011  * version 2.1 of the License, or (at your option) any later version.
00012  *
00013  * FFmpeg is distributed in the hope that it will be useful,
00014  * but WITHOUT ANY WARRANTY; without even the implied warranty of
00015  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
00016  * Lesser General Public License for more details.
00017  *
00018  * You should have received a copy of the GNU Lesser General Public
00019  * License along with FFmpeg; if not, write to the Free Software
00020  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
00021  *
00022  * MMX optimization by Nick Kurshev <nickols_k@mail.ru>
00023  */
00024 
00025 #include "libavutil/cpu.h"
00026 #include "libavutil/x86_cpu.h"
00027 #include "libavcodec/dsputil.h"
00028 #include "libavcodec/h264dsp.h"
00029 #include "libavcodec/mpegvideo.h"
00030 #include "libavcodec/simple_idct.h"
00031 #include "libavcodec/ac3dec.h"
00032 #include "dsputil_mmx.h"
00033 #include "idct_xvid.h"
00034 #include "diracdsp_mmx.h"
00035 
00036 //#undef NDEBUG
00037 //#include <assert.h>
00038 
00039 /* pixel operations */
00040 DECLARE_ALIGNED(8,  const uint64_t, ff_bone) = 0x0101010101010101ULL;
00041 DECLARE_ALIGNED(8,  const uint64_t, ff_wtwo) = 0x0002000200020002ULL;
00042 
00043 DECLARE_ALIGNED(16, const uint64_t, ff_pdw_80000000)[2] =
00044     { 0x8000000080000000ULL, 0x8000000080000000ULL };
00045 
00046 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_1)    = { 0x0001000100010001ULL, 0x0001000100010001ULL };
00047 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_2)    = { 0x0002000200020002ULL, 0x0002000200020002ULL };
00048 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_3)    = { 0x0003000300030003ULL, 0x0003000300030003ULL };
00049 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_4)    = { 0x0004000400040004ULL, 0x0004000400040004ULL };
00050 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_5)    = { 0x0005000500050005ULL, 0x0005000500050005ULL };
00051 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_8)    = { 0x0008000800080008ULL, 0x0008000800080008ULL };
00052 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_9)    = { 0x0009000900090009ULL, 0x0009000900090009ULL };
00053 DECLARE_ALIGNED(8,  const uint64_t, ff_pw_15)   =   0x000F000F000F000FULL;
00054 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_16)   = { 0x0010001000100010ULL, 0x0010001000100010ULL };
00055 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_17)   = { 0x0011001100110011ULL, 0x0011001100110011ULL };
00056 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_18)   = { 0x0012001200120012ULL, 0x0012001200120012ULL };
00057 DECLARE_ALIGNED(8,  const uint64_t, ff_pw_20)   =   0x0014001400140014ULL;
00058 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_27)   = { 0x001B001B001B001BULL, 0x001B001B001B001BULL };
00059 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_28)   = { 0x001C001C001C001CULL, 0x001C001C001C001CULL };
00060 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_32)   = { 0x0020002000200020ULL, 0x0020002000200020ULL };
00061 DECLARE_ALIGNED(8,  const uint64_t, ff_pw_42)   =   0x002A002A002A002AULL;
00062 DECLARE_ALIGNED(8,  const uint64_t, ff_pw_53)   =   0x0035003500350035ULL;
00063 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_63)   = { 0x003F003F003F003FULL, 0x003F003F003F003FULL };
00064 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_64)   = { 0x0040004000400040ULL, 0x0040004000400040ULL };
00065 DECLARE_ALIGNED(8,  const uint64_t, ff_pw_96)   =   0x0060006000600060ULL;
00066 DECLARE_ALIGNED(8,  const uint64_t, ff_pw_128)  =   0x0080008000800080ULL;
00067 DECLARE_ALIGNED(8,  const uint64_t, ff_pw_255)  =   0x00ff00ff00ff00ffULL;
00068 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_512)  = { 0x0200020002000200ULL, 0x0200020002000200ULL };
00069 DECLARE_ALIGNED(16, const xmm_reg,  ff_pw_1019) = { 0x03FB03FB03FB03FBULL, 0x03FB03FB03FB03FBULL };
00070 
00071 DECLARE_ALIGNED(16, const xmm_reg,  ff_pb_0)    = { 0x0000000000000000ULL, 0x0000000000000000ULL };
00072 DECLARE_ALIGNED(16, const xmm_reg,  ff_pb_1)    = { 0x0101010101010101ULL, 0x0101010101010101ULL };
00073 DECLARE_ALIGNED(16, const xmm_reg,  ff_pb_3)    = { 0x0303030303030303ULL, 0x0303030303030303ULL };
00074 DECLARE_ALIGNED(16, const xmm_reg,  ff_pb_4)    = { 0x0404040404040404ULL, 0x0404040404040404ULL };
00075 DECLARE_ALIGNED(8,  const uint64_t, ff_pb_7)    =   0x0707070707070707ULL;
00076 DECLARE_ALIGNED(8,  const uint64_t, ff_pb_1F)   =   0x1F1F1F1F1F1F1F1FULL;
00077 DECLARE_ALIGNED(8,  const uint64_t, ff_pb_3F)   =   0x3F3F3F3F3F3F3F3FULL;
00078 DECLARE_ALIGNED(16, const xmm_reg,  ff_pb_80)   = { 0x8080808080808080ULL, 0x8080808080808080ULL };
00079 DECLARE_ALIGNED(8,  const uint64_t, ff_pb_81)   =   0x8181818181818181ULL;
00080 DECLARE_ALIGNED(16, const xmm_reg,  ff_pb_A1)   = { 0xA1A1A1A1A1A1A1A1ULL, 0xA1A1A1A1A1A1A1A1ULL };
00081 DECLARE_ALIGNED(16, const xmm_reg,  ff_pb_F8)   = { 0xF8F8F8F8F8F8F8F8ULL, 0xF8F8F8F8F8F8F8F8ULL };
00082 DECLARE_ALIGNED(8,  const uint64_t, ff_pb_FC)   =   0xFCFCFCFCFCFCFCFCULL;
00083 DECLARE_ALIGNED(16, const xmm_reg,  ff_pb_FE)   = { 0xFEFEFEFEFEFEFEFEULL, 0xFEFEFEFEFEFEFEFEULL };
00084 
00085 DECLARE_ALIGNED(16, const double, ff_pd_1)[2] = { 1.0, 1.0 };
00086 DECLARE_ALIGNED(16, const double, ff_pd_2)[2] = { 2.0, 2.0 };
00087 
00088 #define JUMPALIGN()     __asm__ volatile (".p2align 3"::)
00089 #define MOVQ_ZERO(regd) __asm__ volatile ("pxor %%"#regd", %%"#regd ::)
00090 
00091 #define MOVQ_BFE(regd)                                  \
00092     __asm__ volatile (                                  \
00093         "pcmpeqd %%"#regd", %%"#regd"   \n\t"           \
00094         "paddb   %%"#regd", %%"#regd"   \n\t" ::)
00095 
00096 #ifndef PIC
00097 #define MOVQ_BONE(regd) __asm__ volatile ("movq %0, %%"#regd" \n\t" :: "m"(ff_bone))
00098 #define MOVQ_WTWO(regd) __asm__ volatile ("movq %0, %%"#regd" \n\t" :: "m"(ff_wtwo))
00099 #else
00100 // for shared library it's better to use this way for accessing constants
00101 // pcmpeqd -> -1
00102 #define MOVQ_BONE(regd)                                 \
00103     __asm__ volatile (                                  \
00104         "pcmpeqd  %%"#regd", %%"#regd"  \n\t"           \
00105         "psrlw          $15, %%"#regd"  \n\t"           \
00106         "packuswb %%"#regd", %%"#regd"  \n\t" ::)
00107 
00108 #define MOVQ_WTWO(regd)                                 \
00109     __asm__ volatile (                                  \
00110         "pcmpeqd %%"#regd", %%"#regd"   \n\t"           \
00111         "psrlw         $15, %%"#regd"   \n\t"           \
00112         "psllw          $1, %%"#regd"   \n\t"::)
00113 
00114 #endif
00115 
00116 // using regr as temporary and for the output result
00117 // first argument is unmodifed and second is trashed
00118 // regfe is supposed to contain 0xfefefefefefefefe
00119 #define PAVGB_MMX_NO_RND(rega, regb, regr, regfe)                \
00120     "movq   "#rega", "#regr"            \n\t"                    \
00121     "pand   "#regb", "#regr"            \n\t"                    \
00122     "pxor   "#rega", "#regb"            \n\t"                    \
00123     "pand  "#regfe", "#regb"            \n\t"                    \
00124     "psrlq       $1, "#regb"            \n\t"                    \
00125     "paddb  "#regb", "#regr"            \n\t"
00126 
00127 #define PAVGB_MMX(rega, regb, regr, regfe)                       \
00128     "movq   "#rega", "#regr"            \n\t"                    \
00129     "por    "#regb", "#regr"            \n\t"                    \
00130     "pxor   "#rega", "#regb"            \n\t"                    \
00131     "pand  "#regfe", "#regb"            \n\t"                    \
00132     "psrlq       $1, "#regb"            \n\t"                    \
00133     "psubb  "#regb", "#regr"            \n\t"
00134 
00135 // mm6 is supposed to contain 0xfefefefefefefefe
00136 #define PAVGBP_MMX_NO_RND(rega, regb, regr,  regc, regd, regp)   \
00137     "movq  "#rega", "#regr"             \n\t"                    \
00138     "movq  "#regc", "#regp"             \n\t"                    \
00139     "pand  "#regb", "#regr"             \n\t"                    \
00140     "pand  "#regd", "#regp"             \n\t"                    \
00141     "pxor  "#rega", "#regb"             \n\t"                    \
00142     "pxor  "#regc", "#regd"             \n\t"                    \
00143     "pand    %%mm6, "#regb"             \n\t"                    \
00144     "pand    %%mm6, "#regd"             \n\t"                    \
00145     "psrlq      $1, "#regb"             \n\t"                    \
00146     "psrlq      $1, "#regd"             \n\t"                    \
00147     "paddb "#regb", "#regr"             \n\t"                    \
00148     "paddb "#regd", "#regp"             \n\t"
00149 
00150 #define PAVGBP_MMX(rega, regb, regr, regc, regd, regp)           \
00151     "movq  "#rega", "#regr"             \n\t"                    \
00152     "movq  "#regc", "#regp"             \n\t"                    \
00153     "por   "#regb", "#regr"             \n\t"                    \
00154     "por   "#regd", "#regp"             \n\t"                    \
00155     "pxor  "#rega", "#regb"             \n\t"                    \
00156     "pxor  "#regc", "#regd"             \n\t"                    \
00157     "pand    %%mm6, "#regb"             \n\t"                    \
00158     "pand    %%mm6, "#regd"             \n\t"                    \
00159     "psrlq      $1, "#regd"             \n\t"                    \
00160     "psrlq      $1, "#regb"             \n\t"                    \
00161     "psubb "#regb", "#regr"             \n\t"                    \
00162     "psubb "#regd", "#regp"             \n\t"
00163 
00164 /***********************************/
00165 /* MMX no rounding */
00166 #define DEF(x, y) x ## _no_rnd_ ## y ## _mmx
00167 #define SET_RND  MOVQ_WONE
00168 #define PAVGBP(a, b, c, d, e, f)        PAVGBP_MMX_NO_RND(a, b, c, d, e, f)
00169 #define PAVGB(a, b, c, e)               PAVGB_MMX_NO_RND(a, b, c, e)
00170 #define OP_AVG(a, b, c, e)              PAVGB_MMX(a, b, c, e)
00171 
00172 #include "dsputil_mmx_rnd_template.c"
00173 
00174 #undef DEF
00175 #undef SET_RND
00176 #undef PAVGBP
00177 #undef PAVGB
00178 /***********************************/
00179 /* MMX rounding */
00180 
00181 #define DEF(x, y) x ## _ ## y ## _mmx
00182 #define SET_RND  MOVQ_WTWO
00183 #define PAVGBP(a, b, c, d, e, f)        PAVGBP_MMX(a, b, c, d, e, f)
00184 #define PAVGB(a, b, c, e)               PAVGB_MMX(a, b, c, e)
00185 
00186 #include "dsputil_mmx_rnd_template.c"
00187 
00188 #undef DEF
00189 #undef SET_RND
00190 #undef PAVGBP
00191 #undef PAVGB
00192 #undef OP_AVG
00193 
00194 /***********************************/
00195 /* 3Dnow specific */
00196 
00197 #define DEF(x) x ## _3dnow
00198 #define PAVGB "pavgusb"
00199 #define OP_AVG PAVGB
00200 
00201 #include "dsputil_mmx_avg_template.c"
00202 
00203 #undef DEF
00204 #undef PAVGB
00205 #undef OP_AVG
00206 
00207 /***********************************/
00208 /* MMX2 specific */
00209 
00210 #define DEF(x) x ## _mmx2
00211 
00212 /* Introduced only in MMX2 set */
00213 #define PAVGB "pavgb"
00214 #define OP_AVG PAVGB
00215 
00216 #include "dsputil_mmx_avg_template.c"
00217 
00218 #undef DEF
00219 #undef PAVGB
00220 #undef OP_AVG
00221 
00222 #define put_no_rnd_pixels16_mmx put_pixels16_mmx
00223 #define put_no_rnd_pixels8_mmx put_pixels8_mmx
00224 #define put_pixels16_mmx2 put_pixels16_mmx
00225 #define put_pixels8_mmx2 put_pixels8_mmx
00226 #define put_pixels4_mmx2 put_pixels4_mmx
00227 #define put_no_rnd_pixels16_mmx2 put_no_rnd_pixels16_mmx
00228 #define put_no_rnd_pixels8_mmx2 put_no_rnd_pixels8_mmx
00229 #define put_pixels16_3dnow put_pixels16_mmx
00230 #define put_pixels8_3dnow put_pixels8_mmx
00231 #define put_pixels4_3dnow put_pixels4_mmx
00232 #define put_no_rnd_pixels16_3dnow put_no_rnd_pixels16_mmx
00233 #define put_no_rnd_pixels8_3dnow put_no_rnd_pixels8_mmx
00234 
00235 /***********************************/
00236 /* standard MMX */
00237 
00238 void ff_put_pixels_clamped_mmx(const DCTELEM *block, uint8_t *pixels,
00239                                int line_size)
00240 {
00241     const DCTELEM *p;
00242     uint8_t *pix;
00243 
00244     /* read the pixels */
00245     p   = block;
00246     pix = pixels;
00247     /* unrolled loop */
00248     __asm__ volatile (
00249         "movq        %3, %%mm0          \n\t"
00250         "movq       8%3, %%mm1          \n\t"
00251         "movq      16%3, %%mm2          \n\t"
00252         "movq      24%3, %%mm3          \n\t"
00253         "movq      32%3, %%mm4          \n\t"
00254         "movq      40%3, %%mm5          \n\t"
00255         "movq      48%3, %%mm6          \n\t"
00256         "movq      56%3, %%mm7          \n\t"
00257         "packuswb %%mm1, %%mm0          \n\t"
00258         "packuswb %%mm3, %%mm2          \n\t"
00259         "packuswb %%mm5, %%mm4          \n\t"
00260         "packuswb %%mm7, %%mm6          \n\t"
00261         "movq     %%mm0, (%0)           \n\t"
00262         "movq     %%mm2, (%0, %1)       \n\t"
00263         "movq     %%mm4, (%0, %1, 2)    \n\t"
00264         "movq     %%mm6, (%0, %2)       \n\t"
00265         :: "r"(pix), "r"((x86_reg)line_size), "r"((x86_reg)line_size * 3),
00266            "m"(*p)
00267         : "memory");
00268     pix += line_size * 4;
00269     p   += 32;
00270 
00271     // if here would be an exact copy of the code above
00272     // compiler would generate some very strange code
00273     // thus using "r"
00274     __asm__ volatile (
00275         "movq       (%3), %%mm0         \n\t"
00276         "movq      8(%3), %%mm1         \n\t"
00277         "movq     16(%3), %%mm2         \n\t"
00278         "movq     24(%3), %%mm3         \n\t"
00279         "movq     32(%3), %%mm4         \n\t"
00280         "movq     40(%3), %%mm5         \n\t"
00281         "movq     48(%3), %%mm6         \n\t"
00282         "movq     56(%3), %%mm7         \n\t"
00283         "packuswb  %%mm1, %%mm0         \n\t"
00284         "packuswb  %%mm3, %%mm2         \n\t"
00285         "packuswb  %%mm5, %%mm4         \n\t"
00286         "packuswb  %%mm7, %%mm6         \n\t"
00287         "movq      %%mm0, (%0)          \n\t"
00288         "movq      %%mm2, (%0, %1)      \n\t"
00289         "movq      %%mm4, (%0, %1, 2)   \n\t"
00290         "movq      %%mm6, (%0, %2)      \n\t"
00291         :: "r"(pix), "r"((x86_reg)line_size), "r"((x86_reg)line_size * 3), "r"(p)
00292         : "memory");
00293 }
00294 
00295 #define put_signed_pixels_clamped_mmx_half(off)             \
00296     "movq          "#off"(%2), %%mm1        \n\t"           \
00297     "movq     16 + "#off"(%2), %%mm2        \n\t"           \
00298     "movq     32 + "#off"(%2), %%mm3        \n\t"           \
00299     "movq     48 + "#off"(%2), %%mm4        \n\t"           \
00300     "packsswb  8 + "#off"(%2), %%mm1        \n\t"           \
00301     "packsswb 24 + "#off"(%2), %%mm2        \n\t"           \
00302     "packsswb 40 + "#off"(%2), %%mm3        \n\t"           \
00303     "packsswb 56 + "#off"(%2), %%mm4        \n\t"           \
00304     "paddb              %%mm0, %%mm1        \n\t"           \
00305     "paddb              %%mm0, %%mm2        \n\t"           \
00306     "paddb              %%mm0, %%mm3        \n\t"           \
00307     "paddb              %%mm0, %%mm4        \n\t"           \
00308     "movq               %%mm1, (%0)         \n\t"           \
00309     "movq               %%mm2, (%0, %3)     \n\t"           \
00310     "movq               %%mm3, (%0, %3, 2)  \n\t"           \
00311     "movq               %%mm4, (%0, %1)     \n\t"
00312 
00313 void ff_put_signed_pixels_clamped_mmx(const DCTELEM *block, uint8_t *pixels,
00314                                       int line_size)
00315 {
00316     x86_reg line_skip = line_size;
00317     x86_reg line_skip3;
00318 
00319     __asm__ volatile (
00320         "movq "MANGLE(ff_pb_80)", %%mm0     \n\t"
00321         "lea         (%3, %3, 2), %1        \n\t"
00322         put_signed_pixels_clamped_mmx_half(0)
00323         "lea         (%0, %3, 4), %0        \n\t"
00324         put_signed_pixels_clamped_mmx_half(64)
00325         : "+&r"(pixels), "=&r"(line_skip3)
00326         : "r"(block), "r"(line_skip)
00327         : "memory");
00328 }
00329 
00330 void ff_add_pixels_clamped_mmx(const DCTELEM *block, uint8_t *pixels,
00331                                int line_size)
00332 {
00333     const DCTELEM *p;
00334     uint8_t *pix;
00335     int i;
00336 
00337     /* read the pixels */
00338     p   = block;
00339     pix = pixels;
00340     MOVQ_ZERO(mm7);
00341     i = 4;
00342     do {
00343         __asm__ volatile (
00344             "movq        (%2), %%mm0    \n\t"
00345             "movq       8(%2), %%mm1    \n\t"
00346             "movq      16(%2), %%mm2    \n\t"
00347             "movq      24(%2), %%mm3    \n\t"
00348             "movq          %0, %%mm4    \n\t"
00349             "movq          %1, %%mm6    \n\t"
00350             "movq       %%mm4, %%mm5    \n\t"
00351             "punpcklbw  %%mm7, %%mm4    \n\t"
00352             "punpckhbw  %%mm7, %%mm5    \n\t"
00353             "paddsw     %%mm4, %%mm0    \n\t"
00354             "paddsw     %%mm5, %%mm1    \n\t"
00355             "movq       %%mm6, %%mm5    \n\t"
00356             "punpcklbw  %%mm7, %%mm6    \n\t"
00357             "punpckhbw  %%mm7, %%mm5    \n\t"
00358             "paddsw     %%mm6, %%mm2    \n\t"
00359             "paddsw     %%mm5, %%mm3    \n\t"
00360             "packuswb   %%mm1, %%mm0    \n\t"
00361             "packuswb   %%mm3, %%mm2    \n\t"
00362             "movq       %%mm0, %0       \n\t"
00363             "movq       %%mm2, %1       \n\t"
00364             : "+m"(*pix), "+m"(*(pix + line_size))
00365             : "r"(p)
00366             : "memory");
00367         pix += line_size * 2;
00368         p   += 16;
00369     } while (--i);
00370 }
00371 
00372 static void put_pixels4_mmx(uint8_t *block, const uint8_t *pixels,
00373                             int line_size, int h)
00374 {
00375     __asm__ volatile (
00376         "lea   (%3, %3), %%"REG_a"      \n\t"
00377         ".p2align     3                 \n\t"
00378         "1:                             \n\t"
00379         "movd  (%1    ), %%mm0          \n\t"
00380         "movd  (%1, %3), %%mm1          \n\t"
00381         "movd     %%mm0, (%2)           \n\t"
00382         "movd     %%mm1, (%2, %3)       \n\t"
00383         "add  %%"REG_a", %1             \n\t"
00384         "add  %%"REG_a", %2             \n\t"
00385         "movd  (%1    ), %%mm0          \n\t"
00386         "movd  (%1, %3), %%mm1          \n\t"
00387         "movd     %%mm0, (%2)           \n\t"
00388         "movd     %%mm1, (%2, %3)       \n\t"
00389         "add  %%"REG_a", %1             \n\t"
00390         "add  %%"REG_a", %2             \n\t"
00391         "subl        $4, %0             \n\t"
00392         "jnz         1b                 \n\t"
00393         : "+g"(h), "+r"(pixels),  "+r"(block)
00394         : "r"((x86_reg)line_size)
00395         : "%"REG_a, "memory"
00396         );
00397 }
00398 
00399 static void put_pixels8_mmx(uint8_t *block, const uint8_t *pixels,
00400                             int line_size, int h)
00401 {
00402     __asm__ volatile (
00403         "lea   (%3, %3), %%"REG_a"      \n\t"
00404         ".p2align     3                 \n\t"
00405         "1:                             \n\t"
00406         "movq  (%1    ), %%mm0          \n\t"
00407         "movq  (%1, %3), %%mm1          \n\t"
00408         "movq     %%mm0, (%2)           \n\t"
00409         "movq     %%mm1, (%2, %3)       \n\t"
00410         "add  %%"REG_a", %1             \n\t"
00411         "add  %%"REG_a", %2             \n\t"
00412         "movq  (%1    ), %%mm0          \n\t"
00413         "movq  (%1, %3), %%mm1          \n\t"
00414         "movq     %%mm0, (%2)           \n\t"
00415         "movq     %%mm1, (%2, %3)       \n\t"
00416         "add  %%"REG_a", %1             \n\t"
00417         "add  %%"REG_a", %2             \n\t"
00418         "subl        $4, %0             \n\t"
00419         "jnz         1b                 \n\t"
00420         : "+g"(h), "+r"(pixels),  "+r"(block)
00421         : "r"((x86_reg)line_size)
00422         : "%"REG_a, "memory"
00423         );
00424 }
00425 
00426 static void put_pixels16_mmx(uint8_t *block, const uint8_t *pixels,
00427                              int line_size, int h)
00428 {
00429     __asm__ volatile (
00430         "lea   (%3, %3), %%"REG_a"      \n\t"
00431         ".p2align     3                 \n\t"
00432         "1:                             \n\t"
00433         "movq  (%1    ), %%mm0          \n\t"
00434         "movq 8(%1    ), %%mm4          \n\t"
00435         "movq  (%1, %3), %%mm1          \n\t"
00436         "movq 8(%1, %3), %%mm5          \n\t"
00437         "movq     %%mm0,  (%2)          \n\t"
00438         "movq     %%mm4, 8(%2)          \n\t"
00439         "movq     %%mm1,  (%2, %3)      \n\t"
00440         "movq     %%mm5, 8(%2, %3)      \n\t"
00441         "add  %%"REG_a", %1             \n\t"
00442         "add  %%"REG_a", %2             \n\t"
00443         "movq  (%1    ), %%mm0          \n\t"
00444         "movq 8(%1    ), %%mm4          \n\t"
00445         "movq  (%1, %3), %%mm1          \n\t"
00446         "movq 8(%1, %3), %%mm5          \n\t"
00447         "movq     %%mm0,  (%2)          \n\t"
00448         "movq     %%mm4, 8(%2)          \n\t"
00449         "movq     %%mm1,  (%2, %3)      \n\t"
00450         "movq     %%mm5, 8(%2, %3)      \n\t"
00451         "add  %%"REG_a", %1             \n\t"
00452         "add  %%"REG_a", %2             \n\t"
00453         "subl        $4, %0             \n\t"
00454         "jnz         1b                 \n\t"
00455         : "+g"(h), "+r"(pixels),  "+r"(block)
00456         : "r"((x86_reg)line_size)
00457         : "%"REG_a, "memory"
00458         );
00459 }
00460 
00461 static void put_pixels16_sse2(uint8_t *block, const uint8_t *pixels,
00462                               int line_size, int h)
00463 {
00464     __asm__ volatile (
00465         "1:                              \n\t"
00466         "movdqu (%1       ), %%xmm0      \n\t"
00467         "movdqu (%1, %3   ), %%xmm1      \n\t"
00468         "movdqu (%1, %3, 2), %%xmm2      \n\t"
00469         "movdqu (%1, %4   ), %%xmm3      \n\t"
00470         "lea    (%1, %3, 4), %1          \n\t"
00471         "movdqa      %%xmm0, (%2)        \n\t"
00472         "movdqa      %%xmm1, (%2, %3)    \n\t"
00473         "movdqa      %%xmm2, (%2, %3, 2) \n\t"
00474         "movdqa      %%xmm3, (%2, %4)    \n\t"
00475         "subl            $4, %0          \n\t"
00476         "lea    (%2, %3, 4), %2          \n\t"
00477         "jnz             1b              \n\t"
00478         : "+g"(h), "+r"(pixels),  "+r"(block)
00479         : "r"((x86_reg)line_size), "r"((x86_reg)3L * line_size)
00480         : "memory"
00481         );
00482 }
00483 
00484 static void avg_pixels16_sse2(uint8_t *block, const uint8_t *pixels,
00485                               int line_size, int h)
00486 {
00487     __asm__ volatile (
00488         "1:                                 \n\t"
00489         "movdqu (%1       ), %%xmm0         \n\t"
00490         "movdqu (%1, %3   ), %%xmm1         \n\t"
00491         "movdqu (%1, %3, 2), %%xmm2         \n\t"
00492         "movdqu (%1, %4   ), %%xmm3         \n\t"
00493         "lea    (%1, %3, 4), %1             \n\t"
00494         "pavgb  (%2       ), %%xmm0         \n\t"
00495         "pavgb  (%2, %3   ), %%xmm1         \n\t"
00496         "pavgb  (%2, %3, 2), %%xmm2         \n\t"
00497         "pavgb     (%2, %4), %%xmm3         \n\t"
00498         "movdqa      %%xmm0, (%2)           \n\t"
00499         "movdqa      %%xmm1, (%2, %3)       \n\t"
00500         "movdqa      %%xmm2, (%2, %3, 2)    \n\t"
00501         "movdqa      %%xmm3, (%2, %4)       \n\t"
00502         "subl            $4, %0             \n\t"
00503         "lea    (%2, %3, 4), %2             \n\t"
00504         "jnz             1b                 \n\t"
00505         : "+g"(h), "+r"(pixels),  "+r"(block)
00506         : "r"((x86_reg)line_size), "r"((x86_reg)3L * line_size)
00507         : "memory"
00508         );
00509 }
00510 
00511 #define CLEAR_BLOCKS(name, n)                           \
00512 static void name(DCTELEM *blocks)                       \
00513 {                                                       \
00514     __asm__ volatile (                                  \
00515         "pxor %%mm7, %%mm7              \n\t"           \
00516         "mov     %1,        %%"REG_a"   \n\t"           \
00517         "1:                             \n\t"           \
00518         "movq %%mm7,   (%0, %%"REG_a")  \n\t"           \
00519         "movq %%mm7,  8(%0, %%"REG_a")  \n\t"           \
00520         "movq %%mm7, 16(%0, %%"REG_a")  \n\t"           \
00521         "movq %%mm7, 24(%0, %%"REG_a")  \n\t"           \
00522         "add    $32, %%"REG_a"          \n\t"           \
00523         "js      1b                     \n\t"           \
00524         :: "r"(((uint8_t *)blocks) + 128 * n),          \
00525            "i"(-128 * n)                                \
00526         : "%"REG_a                                      \
00527         );                                              \
00528 }
00529 CLEAR_BLOCKS(clear_blocks_mmx, 6)
00530 CLEAR_BLOCKS(clear_block_mmx, 1)
00531 
00532 static void clear_block_sse(DCTELEM *block)
00533 {
00534     __asm__ volatile (
00535         "xorps  %%xmm0, %%xmm0          \n"
00536         "movaps %%xmm0,    (%0)         \n"
00537         "movaps %%xmm0,  16(%0)         \n"
00538         "movaps %%xmm0,  32(%0)         \n"
00539         "movaps %%xmm0,  48(%0)         \n"
00540         "movaps %%xmm0,  64(%0)         \n"
00541         "movaps %%xmm0,  80(%0)         \n"
00542         "movaps %%xmm0,  96(%0)         \n"
00543         "movaps %%xmm0, 112(%0)         \n"
00544         :: "r"(block)
00545         : "memory"
00546     );
00547 }
00548 
00549 static void clear_blocks_sse(DCTELEM *blocks)
00550 {
00551     __asm__ volatile (
00552         "xorps  %%xmm0, %%xmm0              \n"
00553         "mov        %1,         %%"REG_a"   \n"
00554         "1:                                 \n"
00555         "movaps %%xmm0,    (%0, %%"REG_a")  \n"
00556         "movaps %%xmm0,  16(%0, %%"REG_a")  \n"
00557         "movaps %%xmm0,  32(%0, %%"REG_a")  \n"
00558         "movaps %%xmm0,  48(%0, %%"REG_a")  \n"
00559         "movaps %%xmm0,  64(%0, %%"REG_a")  \n"
00560         "movaps %%xmm0,  80(%0, %%"REG_a")  \n"
00561         "movaps %%xmm0,  96(%0, %%"REG_a")  \n"
00562         "movaps %%xmm0, 112(%0, %%"REG_a")  \n"
00563         "add      $128,         %%"REG_a"   \n"
00564         "js         1b                      \n"
00565         :: "r"(((uint8_t *)blocks) + 128 * 6),
00566            "i"(-128 * 6)
00567         : "%"REG_a
00568     );
00569 }
00570 
00571 static void add_bytes_mmx(uint8_t *dst, uint8_t *src, int w)
00572 {
00573     x86_reg i = 0;
00574     __asm__ volatile (
00575         "jmp          2f                \n\t"
00576         "1:                             \n\t"
00577         "movq   (%1, %0), %%mm0         \n\t"
00578         "movq   (%2, %0), %%mm1         \n\t"
00579         "paddb     %%mm0, %%mm1         \n\t"
00580         "movq      %%mm1, (%2, %0)      \n\t"
00581         "movq  8(%1, %0), %%mm0         \n\t"
00582         "movq  8(%2, %0), %%mm1         \n\t"
00583         "paddb     %%mm0, %%mm1         \n\t"
00584         "movq      %%mm1, 8(%2, %0)     \n\t"
00585         "add         $16, %0            \n\t"
00586         "2:                             \n\t"
00587         "cmp          %3, %0            \n\t"
00588         "js           1b                \n\t"
00589         : "+r"(i)
00590         : "r"(src), "r"(dst), "r"((x86_reg)w - 15)
00591     );
00592     for ( ; i < w; i++)
00593         dst[i + 0] += src[i + 0];
00594 }
00595 
00596 #if HAVE_7REGS
00597 static void add_hfyu_median_prediction_cmov(uint8_t *dst, const uint8_t *top,
00598                                             const uint8_t *diff, int w,
00599                                             int *left, int *left_top)
00600 {
00601     x86_reg w2 = -w;
00602     x86_reg x;
00603     int l  = *left     & 0xff;
00604     int tl = *left_top & 0xff;
00605     int t;
00606     __asm__ volatile (
00607         "mov          %7, %3            \n"
00608         "1:                             \n"
00609         "movzbl (%3, %4), %2            \n"
00610         "mov          %2, %k3           \n"
00611         "sub         %b1, %b3           \n"
00612         "add         %b0, %b3           \n"
00613         "mov          %2, %1            \n"
00614         "cmp          %0, %2            \n"
00615         "cmovg        %0, %2            \n"
00616         "cmovg        %1, %0            \n"
00617         "cmp         %k3, %0            \n"
00618         "cmovg       %k3, %0            \n"
00619         "mov          %7, %3            \n"
00620         "cmp          %2, %0            \n"
00621         "cmovl        %2, %0            \n"
00622         "add    (%6, %4), %b0           \n"
00623         "mov         %b0, (%5, %4)      \n"
00624         "inc          %4                \n"
00625         "jl           1b                \n"
00626         : "+&q"(l), "+&q"(tl), "=&r"(t), "=&q"(x), "+&r"(w2)
00627         : "r"(dst + w), "r"(diff + w), "rm"(top + w)
00628     );
00629     *left     = l;
00630     *left_top = tl;
00631 }
00632 #endif
00633 
00634 #define H263_LOOP_FILTER                        \
00635     "pxor      %%mm7, %%mm7             \n\t"   \
00636     "movq         %0, %%mm0             \n\t"   \
00637     "movq         %0, %%mm1             \n\t"   \
00638     "movq         %3, %%mm2             \n\t"   \
00639     "movq         %3, %%mm3             \n\t"   \
00640     "punpcklbw %%mm7, %%mm0             \n\t"   \
00641     "punpckhbw %%mm7, %%mm1             \n\t"   \
00642     "punpcklbw %%mm7, %%mm2             \n\t"   \
00643     "punpckhbw %%mm7, %%mm3             \n\t"   \
00644     "psubw     %%mm2, %%mm0             \n\t"   \
00645     "psubw     %%mm3, %%mm1             \n\t"   \
00646     "movq         %1, %%mm2             \n\t"   \
00647     "movq         %1, %%mm3             \n\t"   \
00648     "movq         %2, %%mm4             \n\t"   \
00649     "movq         %2, %%mm5             \n\t"   \
00650     "punpcklbw %%mm7, %%mm2             \n\t"   \
00651     "punpckhbw %%mm7, %%mm3             \n\t"   \
00652     "punpcklbw %%mm7, %%mm4             \n\t"   \
00653     "punpckhbw %%mm7, %%mm5             \n\t"   \
00654     "psubw     %%mm2, %%mm4             \n\t"   \
00655     "psubw     %%mm3, %%mm5             \n\t"   \
00656     "psllw        $2, %%mm4             \n\t"   \
00657     "psllw        $2, %%mm5             \n\t"   \
00658     "paddw     %%mm0, %%mm4             \n\t"   \
00659     "paddw     %%mm1, %%mm5             \n\t"   \
00660     "pxor      %%mm6, %%mm6             \n\t"   \
00661     "pcmpgtw   %%mm4, %%mm6             \n\t"   \
00662     "pcmpgtw   %%mm5, %%mm7             \n\t"   \
00663     "pxor      %%mm6, %%mm4             \n\t"   \
00664     "pxor      %%mm7, %%mm5             \n\t"   \
00665     "psubw     %%mm6, %%mm4             \n\t"   \
00666     "psubw     %%mm7, %%mm5             \n\t"   \
00667     "psrlw        $3, %%mm4             \n\t"   \
00668     "psrlw        $3, %%mm5             \n\t"   \
00669     "packuswb  %%mm5, %%mm4             \n\t"   \
00670     "packsswb  %%mm7, %%mm6             \n\t"   \
00671     "pxor      %%mm7, %%mm7             \n\t"   \
00672     "movd         %4, %%mm2             \n\t"   \
00673     "punpcklbw %%mm2, %%mm2             \n\t"   \
00674     "punpcklbw %%mm2, %%mm2             \n\t"   \
00675     "punpcklbw %%mm2, %%mm2             \n\t"   \
00676     "psubusb   %%mm4, %%mm2             \n\t"   \
00677     "movq      %%mm2, %%mm3             \n\t"   \
00678     "psubusb   %%mm4, %%mm3             \n\t"   \
00679     "psubb     %%mm3, %%mm2             \n\t"   \
00680     "movq         %1, %%mm3             \n\t"   \
00681     "movq         %2, %%mm4             \n\t"   \
00682     "pxor      %%mm6, %%mm3             \n\t"   \
00683     "pxor      %%mm6, %%mm4             \n\t"   \
00684     "paddusb   %%mm2, %%mm3             \n\t"   \
00685     "psubusb   %%mm2, %%mm4             \n\t"   \
00686     "pxor      %%mm6, %%mm3             \n\t"   \
00687     "pxor      %%mm6, %%mm4             \n\t"   \
00688     "paddusb   %%mm2, %%mm2             \n\t"   \
00689     "packsswb  %%mm1, %%mm0             \n\t"   \
00690     "pcmpgtb   %%mm0, %%mm7             \n\t"   \
00691     "pxor      %%mm7, %%mm0             \n\t"   \
00692     "psubb     %%mm7, %%mm0             \n\t"   \
00693     "movq      %%mm0, %%mm1             \n\t"   \
00694     "psubusb   %%mm2, %%mm0             \n\t"   \
00695     "psubb     %%mm0, %%mm1             \n\t"   \
00696     "pand         %5, %%mm1             \n\t"   \
00697     "psrlw        $2, %%mm1             \n\t"   \
00698     "pxor      %%mm7, %%mm1             \n\t"   \
00699     "psubb     %%mm7, %%mm1             \n\t"   \
00700     "movq         %0, %%mm5             \n\t"   \
00701     "movq         %3, %%mm6             \n\t"   \
00702     "psubb     %%mm1, %%mm5             \n\t"   \
00703     "paddb     %%mm1, %%mm6             \n\t"
00704 
00705 static void h263_v_loop_filter_mmx(uint8_t *src, int stride, int qscale)
00706 {
00707     if (CONFIG_H263_DECODER || CONFIG_H263_ENCODER) {
00708         const int strength = ff_h263_loop_filter_strength[qscale];
00709 
00710         __asm__ volatile (
00711             H263_LOOP_FILTER
00712 
00713             "movq %%mm3, %1             \n\t"
00714             "movq %%mm4, %2             \n\t"
00715             "movq %%mm5, %0             \n\t"
00716             "movq %%mm6, %3             \n\t"
00717             : "+m"(*(uint64_t*)(src - 2 * stride)),
00718               "+m"(*(uint64_t*)(src - 1 * stride)),
00719               "+m"(*(uint64_t*)(src + 0 * stride)),
00720               "+m"(*(uint64_t*)(src + 1 * stride))
00721             : "g"(2 * strength), "m"(ff_pb_FC)
00722             );
00723     }
00724 }
00725 
00726 static void h263_h_loop_filter_mmx(uint8_t *src, int stride, int qscale)
00727 {
00728     if (CONFIG_H263_DECODER || CONFIG_H263_ENCODER) {
00729         const int strength = ff_h263_loop_filter_strength[qscale];
00730         DECLARE_ALIGNED(8, uint64_t, temp)[4];
00731         uint8_t *btemp = (uint8_t*)temp;
00732 
00733         src -= 2;
00734 
00735         transpose4x4(btemp,     src,              8, stride);
00736         transpose4x4(btemp + 4, src + 4 * stride, 8, stride);
00737         __asm__ volatile (
00738             H263_LOOP_FILTER // 5 3 4 6
00739 
00740             : "+m"(temp[0]),
00741               "+m"(temp[1]),
00742               "+m"(temp[2]),
00743               "+m"(temp[3])
00744             : "g"(2 * strength), "m"(ff_pb_FC)
00745             );
00746 
00747         __asm__ volatile (
00748             "movq      %%mm5, %%mm1         \n\t"
00749             "movq      %%mm4, %%mm0         \n\t"
00750             "punpcklbw %%mm3, %%mm5         \n\t"
00751             "punpcklbw %%mm6, %%mm4         \n\t"
00752             "punpckhbw %%mm3, %%mm1         \n\t"
00753             "punpckhbw %%mm6, %%mm0         \n\t"
00754             "movq      %%mm5, %%mm3         \n\t"
00755             "movq      %%mm1, %%mm6         \n\t"
00756             "punpcklwd %%mm4, %%mm5         \n\t"
00757             "punpcklwd %%mm0, %%mm1         \n\t"
00758             "punpckhwd %%mm4, %%mm3         \n\t"
00759             "punpckhwd %%mm0, %%mm6         \n\t"
00760             "movd      %%mm5, (%0)          \n\t"
00761             "punpckhdq %%mm5, %%mm5         \n\t"
00762             "movd      %%mm5, (%0, %2)      \n\t"
00763             "movd      %%mm3, (%0, %2, 2)   \n\t"
00764             "punpckhdq %%mm3, %%mm3         \n\t"
00765             "movd      %%mm3, (%0, %3)      \n\t"
00766             "movd      %%mm1, (%1)          \n\t"
00767             "punpckhdq %%mm1, %%mm1         \n\t"
00768             "movd      %%mm1, (%1, %2)      \n\t"
00769             "movd      %%mm6, (%1, %2, 2)   \n\t"
00770             "punpckhdq %%mm6, %%mm6         \n\t"
00771             "movd      %%mm6, (%1, %3)      \n\t"
00772             :: "r"(src),
00773                "r"(src + 4 * stride),
00774                "r"((x86_reg)stride),
00775                "r"((x86_reg)(3 * stride))
00776             );
00777     }
00778 }
00779 
00780 /* Draw the edges of width 'w' of an image of size width, height
00781  * this MMX version can only handle w == 8 || w == 16. */
00782 static void draw_edges_mmx(uint8_t *buf, int wrap, int width, int height,
00783                            int w, int h, int sides)
00784 {
00785     uint8_t *ptr, *last_line;
00786     int i;
00787 
00788     last_line = buf + (height - 1) * wrap;
00789     /* left and right */
00790     ptr = buf;
00791     if (w == 8) {
00792         __asm__ volatile (
00793             "1:                             \n\t"
00794             "movd            (%0), %%mm0    \n\t"
00795             "punpcklbw      %%mm0, %%mm0    \n\t"
00796             "punpcklwd      %%mm0, %%mm0    \n\t"
00797             "punpckldq      %%mm0, %%mm0    \n\t"
00798             "movq           %%mm0, -8(%0)   \n\t"
00799             "movq      -8(%0, %2), %%mm1    \n\t"
00800             "punpckhbw      %%mm1, %%mm1    \n\t"
00801             "punpckhwd      %%mm1, %%mm1    \n\t"
00802             "punpckhdq      %%mm1, %%mm1    \n\t"
00803             "movq           %%mm1, (%0, %2) \n\t"
00804             "add               %1, %0       \n\t"
00805             "cmp               %3, %0       \n\t"
00806             "jb                1b           \n\t"
00807             : "+r"(ptr)
00808             : "r"((x86_reg)wrap), "r"((x86_reg)width), "r"(ptr + wrap * height)
00809             );
00810     } else {
00811         __asm__ volatile (
00812             "1:                                 \n\t"
00813             "movd            (%0), %%mm0        \n\t"
00814             "punpcklbw      %%mm0, %%mm0        \n\t"
00815             "punpcklwd      %%mm0, %%mm0        \n\t"
00816             "punpckldq      %%mm0, %%mm0        \n\t"
00817             "movq           %%mm0, -8(%0)       \n\t"
00818             "movq           %%mm0, -16(%0)      \n\t"
00819             "movq      -8(%0, %2), %%mm1        \n\t"
00820             "punpckhbw      %%mm1, %%mm1        \n\t"
00821             "punpckhwd      %%mm1, %%mm1        \n\t"
00822             "punpckhdq      %%mm1, %%mm1        \n\t"
00823             "movq           %%mm1,  (%0, %2)    \n\t"
00824             "movq           %%mm1, 8(%0, %2)    \n\t"
00825             "add               %1, %0           \n\t"
00826             "cmp               %3, %0           \n\t"
00827             "jb                1b               \n\t"
00828             : "+r"(ptr)
00829             : "r"((x86_reg)wrap), "r"((x86_reg)width), "r"(ptr + wrap * height)
00830             );
00831     }
00832 
00833     /* top and bottom (and hopefully also the corners) */
00834     if (sides & EDGE_TOP) {
00835         for (i = 0; i < h; i += 4) {
00836             ptr = buf - (i + 1) * wrap - w;
00837             __asm__ volatile (
00838                 "1:                             \n\t"
00839                 "movq (%1, %0), %%mm0           \n\t"
00840                 "movq    %%mm0, (%0)            \n\t"
00841                 "movq    %%mm0, (%0, %2)        \n\t"
00842                 "movq    %%mm0, (%0, %2, 2)     \n\t"
00843                 "movq    %%mm0, (%0, %3)        \n\t"
00844                 "add        $8, %0              \n\t"
00845                 "cmp        %4, %0              \n\t"
00846                 "jb         1b                  \n\t"
00847                 : "+r"(ptr)
00848                 : "r"((x86_reg)buf - (x86_reg)ptr - w), "r"((x86_reg) -wrap),
00849                   "r"((x86_reg) -wrap * 3), "r"(ptr + width + 2 * w)
00850                 );
00851         }
00852     }
00853 
00854     if (sides & EDGE_BOTTOM) {
00855         for (i = 0; i < h; i += 4) {
00856             ptr = last_line + (i + 1) * wrap - w;
00857             __asm__ volatile (
00858                 "1:                             \n\t"
00859                 "movq (%1, %0), %%mm0           \n\t"
00860                 "movq    %%mm0, (%0)            \n\t"
00861                 "movq    %%mm0, (%0, %2)        \n\t"
00862                 "movq    %%mm0, (%0, %2, 2)     \n\t"
00863                 "movq    %%mm0, (%0, %3)        \n\t"
00864                 "add        $8, %0              \n\t"
00865                 "cmp        %4, %0              \n\t"
00866                 "jb         1b                  \n\t"
00867                 : "+r"(ptr)
00868                 : "r"((x86_reg)last_line - (x86_reg)ptr - w),
00869                   "r"((x86_reg)wrap), "r"((x86_reg)wrap * 3),
00870                   "r"(ptr + width + 2 * w)
00871                 );
00872         }
00873     }
00874 }
00875 
00876 #define QPEL_V_LOW(m3, m4, m5, m6, pw_20, pw_3, rnd,                      \
00877                    in0, in1, in2, in7, out, OP)                           \
00878     "paddw               "#m4", "#m3"   \n\t" /* x1 */                    \
00879     "movq   "MANGLE(ff_pw_20)", %%mm4   \n\t" /* 20 */                    \
00880     "pmullw              "#m3", %%mm4   \n\t" /* 20x1 */                  \
00881     "movq               "#in7", "#m3"   \n\t" /* d */                     \
00882     "movq               "#in0", %%mm5   \n\t" /* D */                     \
00883     "paddw               "#m3", %%mm5   \n\t" /* x4 */                    \
00884     "psubw               %%mm5, %%mm4   \n\t" /* 20x1 - x4 */             \
00885     "movq               "#in1", %%mm5   \n\t" /* C */                     \
00886     "movq               "#in2", %%mm6   \n\t" /* B */                     \
00887     "paddw               "#m6", %%mm5   \n\t" /* x3 */                    \
00888     "paddw               "#m5", %%mm6   \n\t" /* x2 */                    \
00889     "paddw               %%mm6, %%mm6   \n\t" /* 2x2 */                   \
00890     "psubw               %%mm6, %%mm5   \n\t" /* -2x2 + x3 */             \
00891     "pmullw  "MANGLE(ff_pw_3)", %%mm5   \n\t" /* -6x2 + 3x3 */            \
00892     "paddw              "#rnd", %%mm4   \n\t" /* x2 */                    \
00893     "paddw               %%mm4, %%mm5   \n\t" /* 20x1 - 6x2 + 3x3 - x4 */ \
00894     "psraw                  $5, %%mm5   \n\t"                             \
00895     "packuswb            %%mm5, %%mm5   \n\t"                             \
00896     OP(%%mm5, out, %%mm7, d)
00897 
00898 #define QPEL_BASE(OPNAME, ROUNDER, RND, OP_MMX2, OP_3DNOW)                \
00899 static void OPNAME ## mpeg4_qpel16_h_lowpass_mmx2(uint8_t *dst,           \
00900                                                   uint8_t *src,           \
00901                                                   int dstStride,          \
00902                                                   int srcStride,          \
00903                                                   int h)                  \
00904 {                                                                         \
00905     uint64_t temp;                                                        \
00906                                                                           \
00907     __asm__ volatile (                                                    \
00908         "pxor      %%mm7, %%mm7             \n\t"                         \
00909         "1:                                 \n\t"                         \
00910         "movq       (%0), %%mm0             \n\t" /* ABCDEFGH */          \
00911         "movq      %%mm0, %%mm1             \n\t" /* ABCDEFGH */          \
00912         "movq      %%mm0, %%mm2             \n\t" /* ABCDEFGH */          \
00913         "punpcklbw %%mm7, %%mm0             \n\t" /* 0A0B0C0D */          \
00914         "punpckhbw %%mm7, %%mm1             \n\t" /* 0E0F0G0H */          \
00915         "pshufw    $0x90, %%mm0, %%mm5      \n\t" /* 0A0A0B0C */          \
00916         "pshufw    $0x41, %%mm0, %%mm6      \n\t" /* 0B0A0A0B */          \
00917         "movq      %%mm2, %%mm3             \n\t" /* ABCDEFGH */          \
00918         "movq      %%mm2, %%mm4             \n\t" /* ABCDEFGH */          \
00919         "psllq        $8, %%mm2             \n\t" /* 0ABCDEFG */          \
00920         "psllq       $16, %%mm3             \n\t" /* 00ABCDEF */          \
00921         "psllq       $24, %%mm4             \n\t" /* 000ABCDE */          \
00922         "punpckhbw %%mm7, %%mm2             \n\t" /* 0D0E0F0G */          \
00923         "punpckhbw %%mm7, %%mm3             \n\t" /* 0C0D0E0F */          \
00924         "punpckhbw %%mm7, %%mm4             \n\t" /* 0B0C0D0E */          \
00925         "paddw     %%mm3, %%mm5             \n\t" /* b */                 \
00926         "paddw     %%mm2, %%mm6             \n\t" /* c */                 \
00927         "paddw     %%mm5, %%mm5             \n\t" /* 2b */                \
00928         "psubw     %%mm5, %%mm6             \n\t" /* c - 2b */            \
00929         "pshufw    $0x06, %%mm0, %%mm5      \n\t" /* 0C0B0A0A */          \
00930         "pmullw "MANGLE(ff_pw_3)", %%mm6    \n\t" /* 3c - 6b */           \
00931         "paddw     %%mm4, %%mm0             \n\t" /* a */                 \
00932         "paddw     %%mm1, %%mm5             \n\t" /* d */                 \
00933         "pmullw "MANGLE(ff_pw_20)", %%mm0   \n\t" /* 20a */               \
00934         "psubw     %%mm5, %%mm0             \n\t" /* 20a - d */           \
00935         "paddw        %6, %%mm6             \n\t"                         \
00936         "paddw     %%mm6, %%mm0             \n\t" /* 20a - 6b + 3c - d */ \
00937         "psraw        $5, %%mm0             \n\t"                         \
00938         "movq      %%mm0, %5                \n\t"                         \
00939         /* mm1 = EFGH, mm2 = DEFG, mm3 = CDEF, mm4 = BCDE, mm7 = 0 */     \
00940                                                                           \
00941         "movq      5(%0), %%mm0             \n\t" /* FGHIJKLM */          \
00942         "movq      %%mm0, %%mm5             \n\t" /* FGHIJKLM */          \
00943         "movq      %%mm0, %%mm6             \n\t" /* FGHIJKLM */          \
00944         "psrlq        $8, %%mm0             \n\t" /* GHIJKLM0 */          \
00945         "psrlq       $16, %%mm5             \n\t" /* HIJKLM00 */          \
00946         "punpcklbw %%mm7, %%mm0             \n\t" /* 0G0H0I0J */          \
00947         "punpcklbw %%mm7, %%mm5             \n\t" /* 0H0I0J0K */          \
00948         "paddw     %%mm0, %%mm2             \n\t" /* b */                 \
00949         "paddw     %%mm5, %%mm3             \n\t" /* c */                 \
00950         "paddw     %%mm2, %%mm2             \n\t" /* 2b */                \
00951         "psubw     %%mm2, %%mm3             \n\t" /* c - 2b */            \
00952         "movq      %%mm6, %%mm2             \n\t" /* FGHIJKLM */          \
00953         "psrlq       $24, %%mm6             \n\t" /* IJKLM000 */          \
00954         "punpcklbw %%mm7, %%mm2             \n\t" /* 0F0G0H0I */          \
00955         "punpcklbw %%mm7, %%mm6             \n\t" /* 0I0J0K0L */          \
00956         "pmullw "MANGLE(ff_pw_3)", %%mm3    \n\t" /* 3c - 6b */           \
00957         "paddw     %%mm2, %%mm1             \n\t" /* a */                 \
00958         "paddw     %%mm6, %%mm4             \n\t" /* d */                 \
00959         "pmullw "MANGLE(ff_pw_20)", %%mm1   \n\t" /* 20a */               \
00960         "psubw     %%mm4, %%mm3             \n\t" /* - 6b +3c - d */      \
00961         "paddw        %6, %%mm1             \n\t"                         \
00962         "paddw     %%mm1, %%mm3             \n\t" /* 20a - 6b +3c - d */  \
00963         "psraw        $5, %%mm3             \n\t"                         \
00964         "movq         %5, %%mm1             \n\t"                         \
00965         "packuswb  %%mm3, %%mm1             \n\t"                         \
00966         OP_MMX2(%%mm1, (%1), %%mm4, q)                                    \
00967         /* mm0 = GHIJ, mm2 = FGHI, mm5 = HIJK, mm6 = IJKL, mm7 = 0 */     \
00968                                                                           \
00969         "movq      9(%0), %%mm1             \n\t" /* JKLMNOPQ */          \
00970         "movq      %%mm1, %%mm4             \n\t" /* JKLMNOPQ */          \
00971         "movq      %%mm1, %%mm3             \n\t" /* JKLMNOPQ */          \
00972         "psrlq        $8, %%mm1             \n\t" /* KLMNOPQ0 */          \
00973         "psrlq       $16, %%mm4             \n\t" /* LMNOPQ00 */          \
00974         "punpcklbw %%mm7, %%mm1             \n\t" /* 0K0L0M0N */          \
00975         "punpcklbw %%mm7, %%mm4             \n\t" /* 0L0M0N0O */          \
00976         "paddw     %%mm1, %%mm5             \n\t" /* b */                 \
00977         "paddw     %%mm4, %%mm0             \n\t" /* c */                 \
00978         "paddw     %%mm5, %%mm5             \n\t" /* 2b */                \
00979         "psubw     %%mm5, %%mm0             \n\t" /* c - 2b */            \
00980         "movq      %%mm3, %%mm5             \n\t" /* JKLMNOPQ */          \
00981         "psrlq       $24, %%mm3             \n\t" /* MNOPQ000 */          \
00982         "pmullw "MANGLE(ff_pw_3)", %%mm0    \n\t" /* 3c - 6b */           \
00983         "punpcklbw %%mm7, %%mm3             \n\t" /* 0M0N0O0P */          \
00984         "paddw     %%mm3, %%mm2             \n\t" /* d */                 \
00985         "psubw     %%mm2, %%mm0             \n\t" /* -6b + 3c - d */      \
00986         "movq      %%mm5, %%mm2             \n\t" /* JKLMNOPQ */          \
00987         "punpcklbw %%mm7, %%mm2             \n\t" /* 0J0K0L0M */          \
00988         "punpckhbw %%mm7, %%mm5             \n\t" /* 0N0O0P0Q */          \
00989         "paddw     %%mm2, %%mm6             \n\t" /* a */                 \
00990         "pmullw "MANGLE(ff_pw_20)", %%mm6   \n\t" /* 20a */               \
00991         "paddw        %6, %%mm0             \n\t"                         \
00992         "paddw     %%mm6, %%mm0             \n\t" /* 20a - 6b + 3c - d */ \
00993         "psraw        $5, %%mm0             \n\t"                         \
00994         /* mm1 = KLMN, mm2 = JKLM, mm3 = MNOP, */                         \
00995         /* mm4 = LMNO, mm5 = NOPQ mm7 = 0 */                              \
00996                                                                           \
00997         "paddw    %%mm5, %%mm3              \n\t" /* a */                 \
00998         "pshufw   $0xF9, %%mm5, %%mm6       \n\t" /* 0O0P0Q0Q */          \
00999         "paddw    %%mm4, %%mm6              \n\t" /* b */                 \
01000         "pshufw   $0xBE, %%mm5, %%mm4       \n\t" /* 0P0Q0Q0P */          \
01001         "pshufw   $0x6F, %%mm5, %%mm5       \n\t" /* 0Q0Q0P0O */          \
01002         "paddw    %%mm1, %%mm4              \n\t" /* c */                 \
01003         "paddw    %%mm2, %%mm5              \n\t" /* d */                 \
01004         "paddw    %%mm6, %%mm6              \n\t" /* 2b */                \
01005         "psubw    %%mm6, %%mm4              \n\t" /* c - 2b */            \
01006         "pmullw "MANGLE(ff_pw_20)", %%mm3   \n\t" /* 20a */               \
01007         "pmullw  "MANGLE(ff_pw_3)", %%mm4   \n\t" /* 3c - 6b */           \
01008         "psubw    %%mm5, %%mm3              \n\t" /* -6b + 3c - d */      \
01009         "paddw       %6, %%mm4              \n\t"                         \
01010         "paddw    %%mm3, %%mm4              \n\t" /* 20a - 6b + 3c - d */ \
01011         "psraw       $5, %%mm4              \n\t"                         \
01012         "packuswb %%mm4, %%mm0              \n\t"                         \
01013         OP_MMX2(%%mm0, 8(%1), %%mm4, q)                                   \
01014                                                                           \
01015         "add         %3, %0                 \n\t"                         \
01016         "add         %4, %1                 \n\t"                         \
01017         "decl        %2                     \n\t"                         \
01018         "jnz         1b                     \n\t"                         \
01019         : "+a"(src), "+c"(dst), "+D"(h)                                   \
01020         : "d"((x86_reg)srcStride), "S"((x86_reg)dstStride),               \
01021           /* "m"(ff_pw_20), "m"(ff_pw_3), */ "m"(temp), "m"(ROUNDER)      \
01022         : "memory"                                                        \
01023         );                                                                \
01024 }                                                                         \
01025                                                                           \
01026 static void OPNAME ## mpeg4_qpel16_h_lowpass_3dnow(uint8_t *dst,          \
01027                                                    uint8_t *src,          \
01028                                                    int dstStride,         \
01029                                                    int srcStride,         \
01030                                                    int h)                 \
01031 {                                                                         \
01032     int i;                                                                \
01033     int16_t temp[16];                                                     \
01034     /* quick HACK, XXX FIXME MUST be optimized */                         \
01035     for (i = 0; i < h; i++) {                                             \
01036         temp[ 0] = (src[ 0] + src[ 1]) * 20 - (src[ 0] + src[ 2]) * 6 +   \
01037                    (src[ 1] + src[ 3]) *  3 - (src[ 2] + src[ 4]);        \
01038         temp[ 1] = (src[ 1] + src[ 2]) * 20 - (src[ 0] + src[ 3]) * 6 +   \
01039                    (src[ 0] + src[ 4]) *  3 - (src[ 1] + src[ 5]);        \
01040         temp[ 2] = (src[ 2] + src[ 3]) * 20 - (src[ 1] + src[ 4]) * 6 +   \
01041                    (src[ 0] + src[ 5]) *  3 - (src[ 0] + src[ 6]);        \
01042         temp[ 3] = (src[ 3] + src[ 4]) * 20 - (src[ 2] + src[ 5]) * 6 +   \
01043                    (src[ 1] + src[ 6]) *  3 - (src[ 0] + src[ 7]);        \
01044         temp[ 4] = (src[ 4] + src[ 5]) * 20 - (src[ 3] + src[ 6]) * 6 +   \
01045                    (src[ 2] + src[ 7]) *  3 - (src[ 1] + src[ 8]);        \
01046         temp[ 5] = (src[ 5] + src[ 6]) * 20 - (src[ 4] + src[ 7]) * 6 +   \
01047                    (src[ 3] + src[ 8]) *  3 - (src[ 2] + src[ 9]);        \
01048         temp[ 6] = (src[ 6] + src[ 7]) * 20 - (src[ 5] + src[ 8]) * 6 +   \
01049                    (src[ 4] + src[ 9]) *  3 - (src[ 3] + src[10]);        \
01050         temp[ 7] = (src[ 7] + src[ 8]) * 20 - (src[ 6] + src[ 9]) * 6 +   \
01051                    (src[ 5] + src[10]) *  3 - (src[ 4] + src[11]);        \
01052         temp[ 8] = (src[ 8] + src[ 9]) * 20 - (src[ 7] + src[10]) * 6 +   \
01053                    (src[ 6] + src[11]) *  3 - (src[ 5] + src[12]);        \
01054         temp[ 9] = (src[ 9] + src[10]) * 20 - (src[ 8] + src[11]) * 6 +   \
01055                    (src[ 7] + src[12]) *  3 - (src[ 6] + src[13]);        \
01056         temp[10] = (src[10] + src[11]) * 20 - (src[ 9] + src[12]) * 6 +   \
01057                    (src[ 8] + src[13]) *  3 - (src[ 7] + src[14]);        \
01058         temp[11] = (src[11] + src[12]) * 20 - (src[10] + src[13]) * 6 +   \
01059                    (src[ 9] + src[14]) *  3 - (src[ 8] + src[15]);        \
01060         temp[12] = (src[12] + src[13]) * 20 - (src[11] + src[14]) * 6 +   \
01061                    (src[10] + src[15]) *  3 - (src[ 9] + src[16]);        \
01062         temp[13] = (src[13] + src[14]) * 20 - (src[12] + src[15]) * 6 +   \
01063                    (src[11] + src[16]) *  3 - (src[10] + src[16]);        \
01064         temp[14] = (src[14] + src[15]) * 20 - (src[13] + src[16]) * 6 +   \
01065                    (src[12] + src[16]) *  3 - (src[11] + src[15]);        \
01066         temp[15] = (src[15] + src[16]) * 20 - (src[14] + src[16]) * 6 +   \
01067                    (src[13] + src[15]) *  3 - (src[12] + src[14]);        \
01068         __asm__ volatile (                                                \
01069             "movq      (%0), %%mm0          \n\t"                         \
01070             "movq     8(%0), %%mm1          \n\t"                         \
01071             "paddw       %2, %%mm0          \n\t"                         \
01072             "paddw       %2, %%mm1          \n\t"                         \
01073             "psraw       $5, %%mm0          \n\t"                         \
01074             "psraw       $5, %%mm1          \n\t"                         \
01075             "packuswb %%mm1, %%mm0          \n\t"                         \
01076             OP_3DNOW(%%mm0, (%1), %%mm1, q)                               \
01077             "movq    16(%0), %%mm0          \n\t"                         \
01078             "movq    24(%0), %%mm1          \n\t"                         \
01079             "paddw       %2, %%mm0          \n\t"                         \
01080             "paddw       %2, %%mm1          \n\t"                         \
01081             "psraw       $5, %%mm0          \n\t"                         \
01082             "psraw       $5, %%mm1          \n\t"                         \
01083             "packuswb %%mm1, %%mm0          \n\t"                         \
01084             OP_3DNOW(%%mm0, 8(%1), %%mm1, q)                              \
01085             :: "r"(temp), "r"(dst), "m"(ROUNDER)                          \
01086             : "memory"                                                    \
01087             );                                                            \
01088         dst += dstStride;                                                 \
01089         src += srcStride;                                                 \
01090     }                                                                     \
01091 }                                                                         \
01092                                                                           \
01093 static void OPNAME ## mpeg4_qpel8_h_lowpass_mmx2(uint8_t *dst,            \
01094                                                  uint8_t *src,            \
01095                                                  int dstStride,           \
01096                                                  int srcStride,           \
01097                                                  int h)                   \
01098 {                                                                         \
01099     __asm__ volatile (                                                    \
01100         "pxor      %%mm7, %%mm7             \n\t"                         \
01101         "1:                                 \n\t"                         \
01102         "movq       (%0), %%mm0             \n\t" /* ABCDEFGH */          \
01103         "movq      %%mm0, %%mm1             \n\t" /* ABCDEFGH */          \
01104         "movq      %%mm0, %%mm2             \n\t" /* ABCDEFGH */          \
01105         "punpcklbw %%mm7, %%mm0             \n\t" /* 0A0B0C0D */          \
01106         "punpckhbw %%mm7, %%mm1             \n\t" /* 0E0F0G0H */          \
01107         "pshufw    $0x90, %%mm0, %%mm5      \n\t" /* 0A0A0B0C */          \
01108         "pshufw    $0x41, %%mm0, %%mm6      \n\t" /* 0B0A0A0B */          \
01109         "movq      %%mm2, %%mm3             \n\t" /* ABCDEFGH */          \
01110         "movq      %%mm2, %%mm4             \n\t" /* ABCDEFGH */          \
01111         "psllq        $8, %%mm2             \n\t" /* 0ABCDEFG */          \
01112         "psllq       $16, %%mm3             \n\t" /* 00ABCDEF */          \
01113         "psllq       $24, %%mm4             \n\t" /* 000ABCDE */          \
01114         "punpckhbw %%mm7, %%mm2             \n\t" /* 0D0E0F0G */          \
01115         "punpckhbw %%mm7, %%mm3             \n\t" /* 0C0D0E0F */          \
01116         "punpckhbw %%mm7, %%mm4             \n\t" /* 0B0C0D0E */          \
01117         "paddw     %%mm3, %%mm5             \n\t" /* b */                 \
01118         "paddw     %%mm2, %%mm6             \n\t" /* c */                 \
01119         "paddw     %%mm5, %%mm5             \n\t" /* 2b */                \
01120         "psubw     %%mm5, %%mm6             \n\t" /* c - 2b */            \
01121         "pshufw    $0x06, %%mm0, %%mm5      \n\t" /* 0C0B0A0A */          \
01122         "pmullw "MANGLE(ff_pw_3)", %%mm6    \n\t" /* 3c - 6b */           \
01123         "paddw     %%mm4, %%mm0             \n\t" /* a */                 \
01124         "paddw     %%mm1, %%mm5             \n\t" /* d */                 \
01125         "pmullw "MANGLE(ff_pw_20)", %%mm0   \n\t" /* 20a */               \
01126         "psubw     %%mm5, %%mm0             \n\t" /* 20a - d */           \
01127         "paddw        %5, %%mm6             \n\t"                         \
01128         "paddw     %%mm6, %%mm0             \n\t" /* 20a - 6b + 3c - d */ \
01129         "psraw        $5, %%mm0             \n\t"                         \
01130         /* mm1 = EFGH, mm2 = DEFG, mm3 = CDEF, mm4 = BCDE, mm7 = 0 */     \
01131                                                                           \
01132         "movd      5(%0), %%mm5             \n\t" /* FGHI */              \
01133         "punpcklbw %%mm7, %%mm5             \n\t" /* 0F0G0H0I */          \
01134         "pshufw    $0xF9, %%mm5, %%mm6      \n\t" /* 0G0H0I0I */          \
01135         "paddw     %%mm5, %%mm1             \n\t" /* a */                 \
01136         "paddw     %%mm6, %%mm2             \n\t" /* b */                 \
01137         "pshufw    $0xBE, %%mm5, %%mm6      \n\t" /* 0H0I0I0H */          \
01138         "pshufw    $0x6F, %%mm5, %%mm5      \n\t" /* 0I0I0H0G */          \
01139         "paddw     %%mm6, %%mm3             \n\t" /* c */                 \
01140         "paddw     %%mm5, %%mm4             \n\t" /* d */                 \
01141         "paddw     %%mm2, %%mm2             \n\t" /* 2b */                \
01142         "psubw     %%mm2, %%mm3             \n\t" /* c - 2b */            \
01143         "pmullw "MANGLE(ff_pw_20)", %%mm1   \n\t" /* 20a */               \
01144         "pmullw  "MANGLE(ff_pw_3)", %%mm3   \n\t" /* 3c - 6b */           \
01145         "psubw     %%mm4, %%mm3             \n\t" /* -6b + 3c - d */      \
01146         "paddw        %5, %%mm1             \n\t"                         \
01147         "paddw     %%mm1, %%mm3             \n\t" /* 20a - 6b + 3c - d */ \
01148         "psraw        $5, %%mm3             \n\t"                         \
01149         "packuswb  %%mm3, %%mm0             \n\t"                         \
01150         OP_MMX2(%%mm0, (%1), %%mm4, q)                                    \
01151                                                                           \
01152         "add          %3, %0                \n\t"                         \
01153         "add          %4, %1                \n\t"                         \
01154         "decl         %2                    \n\t"                         \
01155         "jnz          1b                    \n\t"                         \
01156         : "+a"(src), "+c"(dst), "+d"(h)                                   \
01157         : "S"((x86_reg)srcStride), "D"((x86_reg)dstStride),               \
01158           /* "m"(ff_pw_20), "m"(ff_pw_3), */ "m"(ROUNDER)                 \
01159         : "memory"                                                        \
01160         );                                                                \
01161 }                                                                         \
01162                                                                           \
01163 static void OPNAME ## mpeg4_qpel8_h_lowpass_3dnow(uint8_t *dst,           \
01164                                                   uint8_t *src,           \
01165                                                   int dstStride,          \
01166                                                   int srcStride,          \
01167                                                   int h)                  \
01168 {                                                                         \
01169     int i;                                                                \
01170     int16_t temp[8];                                                      \
01171     /* quick HACK, XXX FIXME MUST be optimized */                         \
01172     for (i = 0; i < h; i++) {                                             \
01173         temp[0] = (src[0] + src[1]) * 20 - (src[0] + src[2]) * 6 +        \
01174                   (src[1] + src[3]) *  3 - (src[2] + src[4]);             \
01175         temp[1] = (src[1] + src[2]) * 20 - (src[0] + src[3]) * 6 +        \
01176                   (src[0] + src[4]) *  3 - (src[1] + src[5]);             \
01177         temp[2] = (src[2] + src[3]) * 20 - (src[1] + src[4]) * 6 +        \
01178                   (src[0] + src[5]) *  3 - (src[0] + src[6]);             \
01179         temp[3] = (src[3] + src[4]) * 20 - (src[2] + src[5]) * 6 +        \
01180                   (src[1] + src[6]) *  3 - (src[0] + src[7]);             \
01181         temp[4] = (src[4] + src[5]) * 20 - (src[3] + src[6]) * 6 +        \
01182                   (src[2] + src[7]) *  3 - (src[1] + src[8]);             \
01183         temp[5] = (src[5] + src[6]) * 20 - (src[4] + src[7]) * 6 +        \
01184                   (src[3] + src[8]) *  3 - (src[2] + src[8]);             \
01185         temp[6] = (src[6] + src[7]) * 20 - (src[5] + src[8]) * 6 +        \
01186                   (src[4] + src[8]) *  3 - (src[3] + src[7]);             \
01187         temp[7] = (src[7] + src[8]) * 20 - (src[6] + src[8]) * 6 +        \
01188                   (src[5] + src[7]) *  3 - (src[4] + src[6]);             \
01189         __asm__ volatile (                                                \
01190             "movq      (%0), %%mm0      \n\t"                             \
01191             "movq     8(%0), %%mm1      \n\t"                             \
01192             "paddw       %2, %%mm0      \n\t"                             \
01193             "paddw       %2, %%mm1      \n\t"                             \
01194             "psraw       $5, %%mm0      \n\t"                             \
01195             "psraw       $5, %%mm1      \n\t"                             \
01196             "packuswb %%mm1, %%mm0      \n\t"                             \
01197             OP_3DNOW(%%mm0, (%1), %%mm1, q)                               \
01198             :: "r"(temp), "r"(dst), "m"(ROUNDER)                          \
01199             : "memory"                                                    \
01200             );                                                            \
01201         dst += dstStride;                                                 \
01202         src += srcStride;                                                 \
01203     }                                                                     \
01204 }
01205 
01206 #define QPEL_OP(OPNAME, ROUNDER, RND, OP, MMX)                          \
01207 static void OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(uint8_t *dst,      \
01208                                                      uint8_t *src,      \
01209                                                      int dstStride,     \
01210                                                      int srcStride)     \
01211 {                                                                       \
01212     uint64_t temp[17 * 4];                                              \
01213     uint64_t *temp_ptr = temp;                                          \
01214     int count = 17;                                                     \
01215                                                                         \
01216     /* FIXME unroll */                                                  \
01217     __asm__ volatile (                                                  \
01218         "pxor      %%mm7, %%mm7             \n\t"                       \
01219         "1:                                 \n\t"                       \
01220         "movq       (%0), %%mm0             \n\t"                       \
01221         "movq       (%0), %%mm1             \n\t"                       \
01222         "movq      8(%0), %%mm2             \n\t"                       \
01223         "movq      8(%0), %%mm3             \n\t"                       \
01224         "punpcklbw %%mm7, %%mm0             \n\t"                       \
01225         "punpckhbw %%mm7, %%mm1             \n\t"                       \
01226         "punpcklbw %%mm7, %%mm2             \n\t"                       \
01227         "punpckhbw %%mm7, %%mm3             \n\t"                       \
01228         "movq      %%mm0, (%1)              \n\t"                       \
01229         "movq      %%mm1, 17 * 8(%1)        \n\t"                       \
01230         "movq      %%mm2, 2 * 17 * 8(%1)    \n\t"                       \
01231         "movq      %%mm3, 3 * 17 * 8(%1)    \n\t"                       \
01232         "add          $8, %1                \n\t"                       \
01233         "add          %3, %0                \n\t"                       \
01234         "decl         %2                    \n\t"                       \
01235         "jnz          1b                    \n\t"                       \
01236         : "+r"(src), "+r"(temp_ptr), "+r"(count)                        \
01237         : "r"((x86_reg)srcStride)                                       \
01238         : "memory"                                                      \
01239         );                                                              \
01240                                                                         \
01241     temp_ptr = temp;                                                    \
01242     count    = 4;                                                       \
01243                                                                         \
01244     /* FIXME reorder for speed */                                       \
01245     __asm__ volatile (                                                  \
01246         /* "pxor  %%mm7, %%mm7            \n\t" */                      \
01247         "1:                             \n\t"                           \
01248         "movq    (%0), %%mm0            \n\t"                           \
01249         "movq   8(%0), %%mm1            \n\t"                           \
01250         "movq  16(%0), %%mm2            \n\t"                           \
01251         "movq  24(%0), %%mm3            \n\t"                           \
01252         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 16(%0),   8(%0),    (%0),  32(%0), (%1),     OP) \
01253         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5,  8(%0),    (%0),    (%0),  40(%0), (%1, %3), OP) \
01254         "add       %4, %1               \n\t"                           \
01255         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5,   (%0),    (%0),   8(%0),  48(%0), (%1),     OP) \
01256                                                                         \
01257         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5,   (%0),   8(%0),  16(%0),  56(%0), (%1, %3), OP) \
01258         "add       %4, %1               \n\t"                           \
01259         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5,  8(%0),  16(%0),  24(%0),  64(%0), (%1),     OP) \
01260         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 16(%0),  24(%0),  32(%0),  72(%0), (%1, %3), OP) \
01261         "add       %4, %1               \n\t"                           \
01262         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 24(%0),  32(%0),  40(%0),  80(%0), (%1),     OP) \
01263         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 32(%0),  40(%0),  48(%0),  88(%0), (%1, %3), OP) \
01264         "add       %4, %1               \n\t"                           \
01265         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 40(%0),  48(%0),  56(%0),  96(%0), (%1),     OP) \
01266         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 48(%0),  56(%0),  64(%0), 104(%0), (%1, %3), OP) \
01267         "add       %4, %1               \n\t"                           \
01268         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 56(%0),  64(%0),  72(%0), 112(%0), (%1),     OP) \
01269         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 64(%0),  72(%0),  80(%0), 120(%0), (%1, %3), OP) \
01270         "add       %4, %1               \n\t"                           \
01271         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 72(%0),  80(%0),  88(%0), 128(%0), (%1),     OP) \
01272                                                                         \
01273         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 80(%0),  88(%0),  96(%0), 128(%0), (%1, %3), OP) \
01274         "add       %4, %1               \n\t"                           \
01275         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 88(%0),  96(%0), 104(%0), 120(%0), (%1),     OP) \
01276         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 96(%0), 104(%0), 112(%0), 112(%0), (%1, %3), OP) \
01277                                                                         \
01278         "add     $136, %0               \n\t"                           \
01279         "add       %6, %1               \n\t"                           \
01280         "decl      %2                   \n\t"                           \
01281         "jnz       1b                   \n\t"                           \
01282                                                                         \
01283         : "+r"(temp_ptr), "+r"(dst), "+g"(count)                        \
01284         : "r"((x86_reg)dstStride), "r"(2 * (x86_reg)dstStride),         \
01285           /* "m"(ff_pw_20), "m"(ff_pw_3), */ "m"(ROUNDER),              \
01286           "g"(4 - 14 * (x86_reg)dstStride)                              \
01287         : "memory"                                                      \
01288         );                                                              \
01289 }                                                                       \
01290                                                                         \
01291 static void OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(uint8_t *dst,       \
01292                                                     uint8_t *src,       \
01293                                                     int dstStride,      \
01294                                                     int srcStride)      \
01295 {                                                                       \
01296     uint64_t temp[9 * 2];                                               \
01297     uint64_t *temp_ptr = temp;                                          \
01298     int count = 9;                                                      \
01299                                                                         \
01300     /* FIXME unroll */                                                  \
01301     __asm__ volatile (                                                  \
01302         "pxor      %%mm7, %%mm7         \n\t"                           \
01303         "1:                             \n\t"                           \
01304         "movq       (%0), %%mm0         \n\t"                           \
01305         "movq       (%0), %%mm1         \n\t"                           \
01306         "punpcklbw %%mm7, %%mm0         \n\t"                           \
01307         "punpckhbw %%mm7, %%mm1         \n\t"                           \
01308         "movq      %%mm0, (%1)          \n\t"                           \
01309         "movq      %%mm1, 9*8(%1)       \n\t"                           \
01310         "add          $8, %1            \n\t"                           \
01311         "add          %3, %0            \n\t"                           \
01312         "decl         %2                \n\t"                           \
01313         "jnz          1b                \n\t"                           \
01314         : "+r"(src), "+r"(temp_ptr), "+r"(count)                        \
01315         : "r"((x86_reg)srcStride)                                       \
01316         : "memory"                                                      \
01317         );                                                              \
01318                                                                         \
01319     temp_ptr = temp;                                                    \
01320     count    = 2;                                                       \
01321                                                                         \
01322     /* FIXME reorder for speed */                                       \
01323     __asm__ volatile (                                                  \
01324         /* "pxor  %%mm7, %%mm7            \n\t" */                      \
01325         "1:                             \n\t"                           \
01326         "movq    (%0), %%mm0            \n\t"                           \
01327         "movq   8(%0), %%mm1            \n\t"                           \
01328         "movq  16(%0), %%mm2            \n\t"                           \
01329         "movq  24(%0), %%mm3            \n\t"                           \
01330         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 16(%0),  8(%0),   (%0), 32(%0), (%1), OP)     \
01331         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5,  8(%0),   (%0),   (%0), 40(%0), (%1, %3), OP) \
01332         "add       %4, %1               \n\t"                           \
01333         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5,   (%0),   (%0),  8(%0), 48(%0), (%1), OP)     \
01334                                                                         \
01335         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5,   (%0),  8(%0), 16(%0), 56(%0), (%1, %3), OP) \
01336         "add       %4, %1               \n\t"                           \
01337         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5,  8(%0), 16(%0), 24(%0), 64(%0), (%1), OP)     \
01338                                                                         \
01339         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 16(%0), 24(%0), 32(%0), 64(%0), (%1, %3), OP) \
01340         "add       %4, %1               \n\t"                           \
01341         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 24(%0), 32(%0), 40(%0), 56(%0), (%1), OP)     \
01342         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 32(%0), 40(%0), 48(%0), 48(%0), (%1, %3), OP) \
01343                                                                         \
01344         "add      $72, %0               \n\t"                           \
01345         "add       %6, %1               \n\t"                           \
01346         "decl      %2                   \n\t"                           \
01347         "jnz       1b                   \n\t"                           \
01348                                                                         \
01349         : "+r"(temp_ptr), "+r"(dst), "+g"(count)                        \
01350         : "r"((x86_reg)dstStride), "r"(2 * (x86_reg)dstStride),         \
01351           /* "m"(ff_pw_20), "m"(ff_pw_3), */ "m"(ROUNDER),              \
01352           "g"(4 - 6 * (x86_reg)dstStride)                               \
01353         : "memory"                                                      \
01354         );                                                              \
01355 }                                                                       \
01356                                                                         \
01357 static void OPNAME ## qpel8_mc00_ ## MMX (uint8_t *dst, uint8_t *src,   \
01358                                           int stride)                   \
01359 {                                                                       \
01360     OPNAME ## pixels8_ ## MMX(dst, src, stride, 8);                     \
01361 }                                                                       \
01362                                                                         \
01363 static void OPNAME ## qpel8_mc10_ ## MMX(uint8_t *dst, uint8_t *src,    \
01364                                          int stride)                    \
01365 {                                                                       \
01366     uint64_t temp[8];                                                   \
01367     uint8_t * const half = (uint8_t*)temp;                              \
01368     put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(half, src, 8,           \
01369                                                 stride, 8);             \
01370     OPNAME ## pixels8_l2_ ## MMX(dst, src, half, stride, stride, 8);    \
01371 }                                                                       \
01372                                                                         \
01373 static void OPNAME ## qpel8_mc20_ ## MMX(uint8_t *dst, uint8_t *src,    \
01374                                          int stride)                    \
01375 {                                                                       \
01376     OPNAME ## mpeg4_qpel8_h_lowpass_ ## MMX(dst, src, stride,           \
01377                                             stride, 8);                 \
01378 }                                                                       \
01379                                                                         \
01380 static void OPNAME ## qpel8_mc30_ ## MMX(uint8_t *dst, uint8_t *src,    \
01381                                          int stride)                    \
01382 {                                                                       \
01383     uint64_t temp[8];                                                   \
01384     uint8_t * const half = (uint8_t*)temp;                              \
01385     put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(half, src, 8,           \
01386                                                 stride, 8);             \
01387     OPNAME ## pixels8_l2_ ## MMX(dst, src + 1, half, stride,            \
01388                                  stride, 8);                            \
01389 }                                                                       \
01390                                                                         \
01391 static void OPNAME ## qpel8_mc01_ ## MMX(uint8_t *dst, uint8_t *src,    \
01392                                          int stride)                    \
01393 {                                                                       \
01394     uint64_t temp[8];                                                   \
01395     uint8_t * const half = (uint8_t*)temp;                              \
01396     put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(half, src, 8, stride);  \
01397     OPNAME ## pixels8_l2_ ## MMX(dst, src, half, stride, stride, 8);    \
01398 }                                                                       \
01399                                                                         \
01400 static void OPNAME ## qpel8_mc02_ ## MMX(uint8_t *dst, uint8_t *src,    \
01401                                          int stride)                    \
01402 {                                                                       \
01403     OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(dst, src, stride, stride);  \
01404 }                                                                       \
01405                                                                         \
01406 static void OPNAME ## qpel8_mc03_ ## MMX(uint8_t *dst, uint8_t *src,    \
01407                                          int stride)                    \
01408 {                                                                       \
01409     uint64_t temp[8];                                                   \
01410     uint8_t * const half = (uint8_t*)temp;                              \
01411     put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(half, src, 8, stride);  \
01412     OPNAME ## pixels8_l2_ ## MMX(dst, src + stride, half, stride,       \
01413                                  stride, 8);                            \
01414 }                                                                       \
01415                                                                         \
01416 static void OPNAME ## qpel8_mc11_ ## MMX(uint8_t *dst, uint8_t *src,    \
01417                                          int stride)                    \
01418 {                                                                       \
01419     uint64_t half[8 + 9];                                               \
01420     uint8_t * const halfH  = ((uint8_t*)half) + 64;                     \
01421     uint8_t * const halfHV = ((uint8_t*)half);                          \
01422     put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8,          \
01423                                                 stride, 9);             \
01424     put ## RND ## pixels8_l2_ ## MMX(halfH, src, halfH, 8, stride, 9);  \
01425     put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);   \
01426     OPNAME ## pixels8_l2_ ## MMX(dst, halfH, halfHV, stride, 8, 8);     \
01427 }                                                                       \
01428                                                                         \
01429 static void OPNAME ## qpel8_mc31_ ## MMX(uint8_t *dst, uint8_t *src,    \
01430                                          int stride)                    \
01431 {                                                                       \
01432     uint64_t half[8 + 9];                                               \
01433     uint8_t * const halfH  = ((uint8_t*)half) + 64;                     \
01434     uint8_t * const halfHV = ((uint8_t*)half);                          \
01435     put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8,          \
01436                                                 stride, 9);             \
01437     put ## RND ## pixels8_l2_ ## MMX(halfH, src + 1, halfH, 8,          \
01438                                      stride, 9);                        \
01439     put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);   \
01440     OPNAME ## pixels8_l2_ ## MMX(dst, halfH, halfHV, stride, 8, 8);     \
01441 }                                                                       \
01442                                                                         \
01443 static void OPNAME ## qpel8_mc13_ ## MMX(uint8_t *dst, uint8_t *src,    \
01444                                          int stride)                    \
01445 {                                                                       \
01446     uint64_t half[8 + 9];                                               \
01447     uint8_t * const halfH  = ((uint8_t*)half) + 64;                     \
01448     uint8_t * const halfHV = ((uint8_t*)half);                          \
01449     put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8,          \
01450                                                 stride, 9);             \
01451     put ## RND ## pixels8_l2_ ## MMX(halfH, src, halfH, 8, stride, 9);  \
01452     put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);   \
01453     OPNAME ## pixels8_l2_ ## MMX(dst, halfH + 8, halfHV, stride, 8, 8); \
01454 }                                                                       \
01455                                                                         \
01456 static void OPNAME ## qpel8_mc33_ ## MMX(uint8_t *dst, uint8_t *src,    \
01457                                          int stride)                    \
01458 {                                                                       \
01459     uint64_t half[8 + 9];                                               \
01460     uint8_t * const halfH  = ((uint8_t*)half) + 64;                     \
01461     uint8_t * const halfHV = ((uint8_t*)half);                          \
01462     put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8,          \
01463                                                 stride, 9);             \
01464     put ## RND ## pixels8_l2_ ## MMX(halfH, src + 1, halfH, 8,          \
01465                                      stride, 9);                        \
01466     put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);   \
01467     OPNAME ## pixels8_l2_ ## MMX(dst, halfH + 8, halfHV, stride, 8, 8); \
01468 }                                                                       \
01469                                                                         \
01470 static void OPNAME ## qpel8_mc21_ ## MMX(uint8_t *dst, uint8_t *src,    \
01471                                          int stride)                    \
01472 {                                                                       \
01473     uint64_t half[8 + 9];                                               \
01474     uint8_t * const halfH  = ((uint8_t*)half) + 64;                     \
01475     uint8_t * const halfHV = ((uint8_t*)half);                          \
01476     put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8,          \
01477                                                 stride, 9);             \
01478     put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);   \
01479     OPNAME ## pixels8_l2_ ## MMX(dst, halfH, halfHV, stride, 8, 8);     \
01480 }                                                                       \
01481                                                                         \
01482 static void OPNAME ## qpel8_mc23_ ## MMX(uint8_t *dst, uint8_t *src,    \
01483                                          int stride)                    \
01484 {                                                                       \
01485     uint64_t half[8 + 9];                                               \
01486     uint8_t * const halfH  = ((uint8_t*)half) + 64;                     \
01487     uint8_t * const halfHV = ((uint8_t*)half);                          \
01488     put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8,          \
01489                                                 stride, 9);             \
01490     put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);   \
01491     OPNAME ## pixels8_l2_ ## MMX(dst, halfH + 8, halfHV, stride, 8, 8); \
01492 }                                                                       \
01493                                                                         \
01494 static void OPNAME ## qpel8_mc12_ ## MMX(uint8_t *dst, uint8_t *src,    \
01495                                          int stride)                    \
01496 {                                                                       \
01497     uint64_t half[8 + 9];                                               \
01498     uint8_t * const halfH = ((uint8_t*)half);                           \
01499     put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8,          \
01500                                                 stride, 9);             \
01501     put ## RND ## pixels8_l2_ ## MMX(halfH, src, halfH, 8, stride, 9);  \
01502     OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(dst, halfH, stride, 8);     \
01503 }                                                                       \
01504                                                                         \
01505 static void OPNAME ## qpel8_mc32_ ## MMX(uint8_t *dst, uint8_t *src,    \
01506                                          int stride)                    \
01507 {                                                                       \
01508     uint64_t half[8 + 9];                                               \
01509     uint8_t * const halfH = ((uint8_t*)half);                           \
01510     put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8,          \
01511                                                 stride, 9);             \
01512     put ## RND ## pixels8_l2_ ## MMX(halfH, src + 1, halfH, 8,          \
01513                                      stride, 9);                        \
01514     OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(dst, halfH, stride, 8);     \
01515 }                                                                       \
01516                                                                         \
01517 static void OPNAME ## qpel8_mc22_ ## MMX(uint8_t *dst, uint8_t *src,    \
01518                                          int stride)                    \
01519 {                                                                       \
01520     uint64_t half[9];                                                   \
01521     uint8_t * const halfH = ((uint8_t*)half);                           \
01522     put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8,          \
01523                                                 stride, 9);             \
01524     OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(dst, halfH, stride, 8);     \
01525 }                                                                       \
01526                                                                         \
01527 static void OPNAME ## qpel16_mc00_ ## MMX (uint8_t *dst, uint8_t *src,  \
01528                                            int stride)                  \
01529 {                                                                       \
01530     OPNAME ## pixels16_ ## MMX(dst, src, stride, 16);                   \
01531 }                                                                       \
01532                                                                         \
01533 static void OPNAME ## qpel16_mc10_ ## MMX(uint8_t *dst, uint8_t *src,   \
01534                                           int stride)                   \
01535 {                                                                       \
01536     uint64_t temp[32];                                                  \
01537     uint8_t * const half = (uint8_t*)temp;                              \
01538     put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(half, src, 16,         \
01539                                                  stride, 16);           \
01540     OPNAME ## pixels16_l2_ ## MMX(dst, src, half, stride, stride, 16);  \
01541 }                                                                       \
01542                                                                         \
01543 static void OPNAME ## qpel16_mc20_ ## MMX(uint8_t *dst, uint8_t *src,   \
01544                                           int stride)                   \
01545 {                                                                       \
01546     OPNAME ## mpeg4_qpel16_h_lowpass_ ## MMX(dst, src,                  \
01547                                              stride, stride, 16);       \
01548 }                                                                       \
01549                                                                         \
01550 static void OPNAME ## qpel16_mc30_ ## MMX(uint8_t *dst, uint8_t *src,   \
01551                                           int stride)                   \
01552 {                                                                       \
01553     uint64_t temp[32];                                                  \
01554     uint8_t * const half = (uint8_t*)temp;                              \
01555     put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(half, src, 16,         \
01556                                                  stride, 16);           \
01557     OPNAME ## pixels16_l2_ ## MMX(dst, src + 1, half,                   \
01558                                   stride, stride, 16);                  \
01559 }                                                                       \
01560                                                                         \
01561 static void OPNAME ## qpel16_mc01_ ## MMX(uint8_t *dst, uint8_t *src,   \
01562                                           int stride)                   \
01563 {                                                                       \
01564     uint64_t temp[32];                                                  \
01565     uint8_t * const half = (uint8_t*)temp;                              \
01566     put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(half, src, 16,         \
01567                                                  stride);               \
01568     OPNAME ## pixels16_l2_ ## MMX(dst, src, half, stride, stride, 16);  \
01569 }                                                                       \
01570                                                                         \
01571 static void OPNAME ## qpel16_mc02_ ## MMX(uint8_t *dst, uint8_t *src,   \
01572                                           int stride)                   \
01573 {                                                                       \
01574     OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, src, stride, stride); \
01575 }                                                                       \
01576                                                                         \
01577 static void OPNAME ## qpel16_mc03_ ## MMX(uint8_t *dst, uint8_t *src,   \
01578                                           int stride)                   \
01579 {                                                                       \
01580     uint64_t temp[32];                                                  \
01581     uint8_t * const half = (uint8_t*)temp;                              \
01582     put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(half, src, 16,         \
01583                                                  stride);               \
01584     OPNAME ## pixels16_l2_ ## MMX(dst, src+stride, half,                \
01585                                   stride, stride, 16);                  \
01586 }                                                                       \
01587                                                                         \
01588 static void OPNAME ## qpel16_mc11_ ## MMX(uint8_t *dst, uint8_t *src,   \
01589                                           int stride)                   \
01590 {                                                                       \
01591     uint64_t half[16 * 2 + 17 * 2];                                     \
01592     uint8_t * const halfH  = ((uint8_t*)half) + 256;                    \
01593     uint8_t * const halfHV = ((uint8_t*)half);                          \
01594     put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16,        \
01595                                                  stride, 17);           \
01596     put ## RND ## pixels16_l2_ ## MMX(halfH, src, halfH, 16,            \
01597                                       stride, 17);                      \
01598     put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH,         \
01599                                                  16, 16);               \
01600     OPNAME ## pixels16_l2_ ## MMX(dst, halfH, halfHV, stride, 16, 16);  \
01601 }                                                                       \
01602                                                                         \
01603 static void OPNAME ## qpel16_mc31_ ## MMX(uint8_t *dst, uint8_t *src,   \
01604                                           int stride)                   \
01605 {                                                                       \
01606     uint64_t half[16 * 2 + 17 * 2];                                     \
01607     uint8_t * const halfH  = ((uint8_t*)half) + 256;                    \
01608     uint8_t * const halfHV = ((uint8_t*)half);                          \
01609     put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16,        \
01610                                                  stride, 17);           \
01611     put ## RND ## pixels16_l2_ ## MMX(halfH, src + 1, halfH, 16,        \
01612                                       stride, 17);                      \
01613     put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH,         \
01614                                                  16, 16);               \
01615     OPNAME ## pixels16_l2_ ## MMX(dst, halfH, halfHV, stride, 16, 16);  \
01616 }                                                                       \
01617                                                                         \
01618 static void OPNAME ## qpel16_mc13_ ## MMX(uint8_t *dst, uint8_t *src,   \
01619                                           int stride)                   \
01620 {                                                                       \
01621     uint64_t half[16 * 2 + 17 * 2];                                     \
01622     uint8_t * const halfH  = ((uint8_t*)half) + 256;                    \
01623     uint8_t * const halfHV = ((uint8_t*)half);                          \
01624     put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16,        \
01625                                                  stride, 17);           \
01626     put ## RND ## pixels16_l2_ ## MMX(halfH, src, halfH, 16,            \
01627                                       stride, 17);                      \
01628     put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH,         \
01629                                                  16, 16);               \
01630     OPNAME ## pixels16_l2_ ## MMX(dst, halfH + 16, halfHV, stride,      \
01631                                   16, 16);                              \
01632 }                                                                       \
01633                                                                         \
01634 static void OPNAME ## qpel16_mc33_ ## MMX(uint8_t *dst, uint8_t *src,   \
01635                                           int stride)                   \
01636 {                                                                       \
01637     uint64_t half[16 * 2 + 17 * 2];                                     \
01638     uint8_t * const halfH  = ((uint8_t*)half) + 256;                    \
01639     uint8_t * const halfHV = ((uint8_t*)half);                          \
01640     put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16,        \
01641                                                  stride, 17);           \
01642     put ## RND ## pixels16_l2_ ## MMX(halfH, src + 1, halfH, 16,        \
01643                                       stride, 17);                      \
01644     put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH,         \
01645                                                  16, 16);               \
01646     OPNAME ## pixels16_l2_ ## MMX(dst, halfH + 16, halfHV, stride,      \
01647                                   16, 16);                              \
01648 }                                                                       \
01649                                                                         \
01650 static void OPNAME ## qpel16_mc21_ ## MMX(uint8_t *dst, uint8_t *src,   \
01651                                           int stride)                   \
01652 {                                                                       \
01653     uint64_t half[16 * 2 + 17 * 2];                                     \
01654     uint8_t * const halfH  = ((uint8_t*)half) + 256;                    \
01655     uint8_t * const halfHV = ((uint8_t*)half);                          \
01656     put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16,        \
01657                                                  stride, 17);           \
01658     put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH,         \
01659                                                  16, 16);               \
01660     OPNAME ## pixels16_l2_ ## MMX(dst, halfH, halfHV, stride, 16, 16);  \
01661 }                                                                       \
01662                                                                         \
01663 static void OPNAME ## qpel16_mc23_ ## MMX(uint8_t *dst, uint8_t *src,   \
01664                                           int stride)                   \
01665 {                                                                       \
01666     uint64_t half[16 * 2 + 17 * 2];                                     \
01667     uint8_t * const halfH  = ((uint8_t*)half) + 256;                    \
01668     uint8_t * const halfHV = ((uint8_t*)half);                          \
01669     put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16,        \
01670                                                  stride, 17);           \
01671     put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH,         \
01672                                                  16, 16);               \
01673     OPNAME ## pixels16_l2_ ## MMX(dst, halfH + 16, halfHV, stride,      \
01674                                   16, 16);                              \
01675 }                                                                       \
01676                                                                         \
01677 static void OPNAME ## qpel16_mc12_ ## MMX(uint8_t *dst, uint8_t *src,   \
01678                                           int stride)                   \
01679 {                                                                       \
01680     uint64_t half[17 * 2];                                              \
01681     uint8_t * const halfH = ((uint8_t*)half);                           \
01682     put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16,        \
01683                                                  stride, 17);           \
01684     put ## RND ## pixels16_l2_ ## MMX(halfH, src, halfH, 16,            \
01685                                       stride, 17);                      \
01686     OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, halfH, stride, 16);   \
01687 }                                                                       \
01688                                                                         \
01689 static void OPNAME ## qpel16_mc32_ ## MMX(uint8_t *dst, uint8_t *src,   \
01690                                           int stride)                   \
01691 {                                                                       \
01692     uint64_t half[17 * 2];                                              \
01693     uint8_t * const halfH = ((uint8_t*)half);                           \
01694     put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16,        \
01695                                                  stride, 17);           \
01696     put ## RND ## pixels16_l2_ ## MMX(halfH, src + 1, halfH, 16,        \
01697                                       stride, 17);                      \
01698     OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, halfH, stride, 16);   \
01699 }                                                                       \
01700                                                                         \
01701 static void OPNAME ## qpel16_mc22_ ## MMX(uint8_t *dst, uint8_t *src,   \
01702                                           int stride)                   \
01703 {                                                                       \
01704     uint64_t half[17 * 2];                                              \
01705     uint8_t * const halfH = ((uint8_t*)half);                           \
01706     put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16,        \
01707                                                  stride, 17);           \
01708     OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, halfH, stride, 16);   \
01709 }
01710 
01711 #define PUT_OP(a, b, temp, size)                \
01712     "mov"#size"        "#a", "#b"       \n\t"
01713 
01714 #define AVG_3DNOW_OP(a, b, temp, size)          \
01715     "mov"#size"        "#b", "#temp"    \n\t"   \
01716     "pavgusb        "#temp", "#a"       \n\t"   \
01717     "mov"#size"        "#a", "#b"       \n\t"
01718 
01719 #define AVG_MMX2_OP(a, b, temp, size)           \
01720     "mov"#size"        "#b", "#temp"    \n\t"   \
01721     "pavgb          "#temp", "#a"       \n\t"   \
01722     "mov"#size"        "#a", "#b"       \n\t"
01723 
01724 QPEL_BASE(put_,        ff_pw_16, _,        PUT_OP,       PUT_OP)
01725 QPEL_BASE(avg_,        ff_pw_16, _,        AVG_MMX2_OP,  AVG_3DNOW_OP)
01726 QPEL_BASE(put_no_rnd_, ff_pw_15, _no_rnd_, PUT_OP,       PUT_OP)
01727 QPEL_OP(put_,          ff_pw_16, _,        PUT_OP,       3dnow)
01728 QPEL_OP(avg_,          ff_pw_16, _,        AVG_3DNOW_OP, 3dnow)
01729 QPEL_OP(put_no_rnd_,   ff_pw_15, _no_rnd_, PUT_OP,       3dnow)
01730 QPEL_OP(put_,          ff_pw_16, _,        PUT_OP,       mmx2)
01731 QPEL_OP(avg_,          ff_pw_16, _,        AVG_MMX2_OP,  mmx2)
01732 QPEL_OP(put_no_rnd_,   ff_pw_15, _no_rnd_, PUT_OP,       mmx2)
01733 
01734 /***********************************/
01735 /* bilinear qpel: not compliant to any spec, only for -lavdopts fast */
01736 
01737 #define QPEL_2TAP_XY(OPNAME, SIZE, MMX, XY, HPEL)                              \
01738 static void OPNAME ## 2tap_qpel ## SIZE ## _mc ## XY ## _ ## MMX(uint8_t *dst, \
01739                                                                  uint8_t *src, \
01740                                                                  int stride)   \
01741 {                                                                              \
01742     OPNAME ## pixels ## SIZE ## HPEL(dst, src, stride, SIZE);                  \
01743 }
01744 
01745 #define QPEL_2TAP_L3(OPNAME, SIZE, MMX, XY, S0, S1, S2)                        \
01746 static void OPNAME ## 2tap_qpel ## SIZE ## _mc ## XY ## _ ## MMX(uint8_t *dst, \
01747                                                                  uint8_t *src, \
01748                                                                  int stride)   \
01749 {                                                                              \
01750     OPNAME ## 2tap_qpel ## SIZE ## _l3_ ## MMX(dst, src + S0, stride, SIZE,    \
01751                                                S1, S2);                        \
01752 }
01753 
01754 #define QPEL_2TAP(OPNAME, SIZE, MMX)                                        \
01755 QPEL_2TAP_XY(OPNAME, SIZE, MMX, 20, _x2_ ## MMX)                            \
01756 QPEL_2TAP_XY(OPNAME, SIZE, MMX, 02, _y2_ ## MMX)                            \
01757 QPEL_2TAP_XY(OPNAME, SIZE, MMX, 22, _xy2_mmx)                               \
01758 static const qpel_mc_func OPNAME ## 2tap_qpel ## SIZE ## _mc00_ ## MMX =    \
01759     OPNAME ## qpel ## SIZE ## _mc00_ ## MMX;                                \
01760 static const qpel_mc_func OPNAME ## 2tap_qpel ## SIZE ## _mc21_ ## MMX =    \
01761     OPNAME ## 2tap_qpel ## SIZE ## _mc20_ ## MMX;                           \
01762 static const qpel_mc_func OPNAME ## 2tap_qpel ## SIZE ## _mc12_ ## MMX =    \
01763     OPNAME ## 2tap_qpel ## SIZE ## _mc02_ ## MMX;                           \
01764 static void OPNAME ## 2tap_qpel ## SIZE ## _mc32_ ## MMX(uint8_t *dst,      \
01765                                                          uint8_t *src,      \
01766                                                          int stride)        \
01767 {                                                                           \
01768     OPNAME ## pixels ## SIZE ## _y2_ ## MMX(dst, src + 1, stride, SIZE);    \
01769 }                                                                           \
01770 static void OPNAME ## 2tap_qpel ## SIZE ## _mc23_ ## MMX(uint8_t *dst,      \
01771                                                          uint8_t *src,      \
01772                                                          int stride)        \
01773 {                                                                           \
01774     OPNAME ## pixels ## SIZE ## _x2_ ## MMX(dst, src + stride,              \
01775                                             stride, SIZE);                  \
01776 }                                                                           \
01777 QPEL_2TAP_L3(OPNAME, SIZE, MMX, 10, 0,           1,       0)                \
01778 QPEL_2TAP_L3(OPNAME, SIZE, MMX, 30, 1,          -1,       0)                \
01779 QPEL_2TAP_L3(OPNAME, SIZE, MMX, 01, 0,           stride,  0)                \
01780 QPEL_2TAP_L3(OPNAME, SIZE, MMX, 03, stride,     -stride,  0)                \
01781 QPEL_2TAP_L3(OPNAME, SIZE, MMX, 11, 0,           stride,  1)                \
01782 QPEL_2TAP_L3(OPNAME, SIZE, MMX, 31, 1,           stride, -1)                \
01783 QPEL_2TAP_L3(OPNAME, SIZE, MMX, 13, stride,     -stride,  1)                \
01784 QPEL_2TAP_L3(OPNAME, SIZE, MMX, 33, stride + 1, -stride, -1)                \
01785 
01786 QPEL_2TAP(put_, 16, mmx2)
01787 QPEL_2TAP(avg_, 16, mmx2)
01788 QPEL_2TAP(put_,  8, mmx2)
01789 QPEL_2TAP(avg_,  8, mmx2)
01790 QPEL_2TAP(put_, 16, 3dnow)
01791 QPEL_2TAP(avg_, 16, 3dnow)
01792 QPEL_2TAP(put_,  8, 3dnow)
01793 QPEL_2TAP(avg_,  8, 3dnow)
01794 
01795 void ff_put_rv40_qpel8_mc33_mmx(uint8_t *dst, uint8_t *src, int stride)
01796 {
01797   put_pixels8_xy2_mmx(dst, src, stride, 8);
01798 }
01799 void ff_put_rv40_qpel16_mc33_mmx(uint8_t *dst, uint8_t *src, int stride)
01800 {
01801   put_pixels16_xy2_mmx(dst, src, stride, 16);
01802 }
01803 void ff_avg_rv40_qpel8_mc33_mmx(uint8_t *dst, uint8_t *src, int stride)
01804 {
01805   avg_pixels8_xy2_mmx(dst, src, stride, 8);
01806 }
01807 void ff_avg_rv40_qpel16_mc33_mmx(uint8_t *dst, uint8_t *src, int stride)
01808 {
01809   avg_pixels16_xy2_mmx(dst, src, stride, 16);
01810 }
01811 
01812 #if HAVE_YASM
01813 typedef void emu_edge_core_func(uint8_t *buf, const uint8_t *src,
01814                                 x86_reg linesize, x86_reg start_y,
01815                                 x86_reg end_y, x86_reg block_h,
01816                                 x86_reg start_x, x86_reg end_x,
01817                                 x86_reg block_w);
01818 extern emu_edge_core_func ff_emu_edge_core_mmx;
01819 extern emu_edge_core_func ff_emu_edge_core_sse;
01820 
01821 static av_always_inline void emulated_edge_mc(uint8_t *buf, const uint8_t *src,
01822                                               int linesize,
01823                                               int block_w, int block_h,
01824                                               int src_x, int src_y,
01825                                               int w, int h,
01826                                               emu_edge_core_func *core_fn)
01827 {
01828     int start_y, start_x, end_y, end_x, src_y_add = 0;
01829 
01830     if (src_y >= h) {
01831         src_y_add = h - 1 - src_y;
01832         src_y     = h - 1;
01833     } else if (src_y <= -block_h) {
01834         src_y_add = 1 - block_h - src_y;
01835         src_y     = 1 - block_h;
01836     }
01837     if (src_x >= w) {
01838         src   += w - 1 - src_x;
01839         src_x  = w - 1;
01840     } else if (src_x <= -block_w) {
01841         src   += 1 - block_w - src_x;
01842         src_x  = 1 - block_w;
01843     }
01844 
01845     start_y = FFMAX(0, -src_y);
01846     start_x = FFMAX(0, -src_x);
01847     end_y   = FFMIN(block_h, h-src_y);
01848     end_x   = FFMIN(block_w, w-src_x);
01849     assert(start_x < end_x && block_w > 0);
01850     assert(start_y < end_y && block_h > 0);
01851 
01852     // fill in the to-be-copied part plus all above/below
01853     src += (src_y_add + start_y) * linesize + start_x;
01854     buf += start_x;
01855     core_fn(buf, src, linesize, start_y, end_y,
01856             block_h, start_x, end_x, block_w);
01857 }
01858 
01859 #if ARCH_X86_32
01860 static av_noinline void emulated_edge_mc_mmx(uint8_t *buf, const uint8_t *src,
01861                                              int linesize,
01862                                              int block_w, int block_h,
01863                                              int src_x, int src_y, int w, int h)
01864 {
01865     emulated_edge_mc(buf, src, linesize, block_w, block_h, src_x, src_y,
01866                      w, h, &ff_emu_edge_core_mmx);
01867 }
01868 #endif
01869 
01870 static av_noinline void emulated_edge_mc_sse(uint8_t *buf, const uint8_t *src,
01871                                              int linesize,
01872                                              int block_w, int block_h,
01873                                              int src_x, int src_y, int w, int h)
01874 {
01875     emulated_edge_mc(buf, src, linesize, block_w, block_h, src_x, src_y,
01876                      w, h, &ff_emu_edge_core_sse);
01877 }
01878 #endif /* HAVE_YASM */
01879 
01880 typedef void emulated_edge_mc_func(uint8_t *dst, const uint8_t *src,
01881                                    int linesize, int block_w, int block_h,
01882                                    int src_x, int src_y, int w, int h);
01883 
01884 static av_always_inline void gmc(uint8_t *dst, uint8_t *src,
01885                                  int stride, int h, int ox, int oy,
01886                                  int dxx, int dxy, int dyx, int dyy,
01887                                  int shift, int r, int width, int height,
01888                                  emulated_edge_mc_func *emu_edge_fn)
01889 {
01890     const int w    = 8;
01891     const int ix   = ox  >> (16 + shift);
01892     const int iy   = oy  >> (16 + shift);
01893     const int oxs  = ox  >> 4;
01894     const int oys  = oy  >> 4;
01895     const int dxxs = dxx >> 4;
01896     const int dxys = dxy >> 4;
01897     const int dyxs = dyx >> 4;
01898     const int dyys = dyy >> 4;
01899     const uint16_t r4[4]   = { r, r, r, r };
01900     const uint16_t dxy4[4] = { dxys, dxys, dxys, dxys };
01901     const uint16_t dyy4[4] = { dyys, dyys, dyys, dyys };
01902     const uint64_t shift2 = 2 * shift;
01903     uint8_t edge_buf[(h + 1) * stride];
01904     int x, y;
01905 
01906     const int dxw = (dxx - (1 << (16 + shift))) * (w - 1);
01907     const int dyh = (dyy - (1 << (16 + shift))) * (h - 1);
01908     const int dxh = dxy * (h - 1);
01909     const int dyw = dyx * (w - 1);
01910     if ( // non-constant fullpel offset (3% of blocks)
01911         ((ox ^ (ox + dxw)) | (ox ^ (ox + dxh)) | (ox ^ (ox + dxw + dxh)) |
01912          (oy ^ (oy + dyw)) | (oy ^ (oy + dyh)) | (oy ^ (oy + dyw + dyh))) >> (16 + shift)
01913         // uses more than 16 bits of subpel mv (only at huge resolution)
01914         || (dxx | dxy | dyx | dyy) & 15) {
01915         // FIXME could still use mmx for some of the rows
01916         ff_gmc_c(dst, src, stride, h, ox, oy, dxx, dxy, dyx, dyy,
01917                  shift, r, width, height);
01918         return;
01919     }
01920 
01921     src += ix + iy * stride;
01922     if ((unsigned)ix >= width  - w ||
01923         (unsigned)iy >= height - h) {
01924         emu_edge_fn(edge_buf, src, stride, w + 1, h + 1, ix, iy, width, height);
01925         src = edge_buf;
01926     }
01927 
01928     __asm__ volatile (
01929         "movd         %0, %%mm6         \n\t"
01930         "pxor      %%mm7, %%mm7         \n\t"
01931         "punpcklwd %%mm6, %%mm6         \n\t"
01932         "punpcklwd %%mm6, %%mm6         \n\t"
01933         :: "r"(1<<shift)
01934     );
01935 
01936     for (x = 0; x < w; x += 4) {
01937         uint16_t dx4[4] = { oxs - dxys + dxxs * (x + 0),
01938                             oxs - dxys + dxxs * (x + 1),
01939                             oxs - dxys + dxxs * (x + 2),
01940                             oxs - dxys + dxxs * (x + 3) };
01941         uint16_t dy4[4] = { oys - dyys + dyxs * (x + 0),
01942                             oys - dyys + dyxs * (x + 1),
01943                             oys - dyys + dyxs * (x + 2),
01944                             oys - dyys + dyxs * (x + 3) };
01945 
01946         for (y = 0; y < h; y++) {
01947             __asm__ volatile (
01948                 "movq      %0, %%mm4    \n\t"
01949                 "movq      %1, %%mm5    \n\t"
01950                 "paddw     %2, %%mm4    \n\t"
01951                 "paddw     %3, %%mm5    \n\t"
01952                 "movq   %%mm4, %0       \n\t"
01953                 "movq   %%mm5, %1       \n\t"
01954                 "psrlw    $12, %%mm4    \n\t"
01955                 "psrlw    $12, %%mm5    \n\t"
01956                 : "+m"(*dx4), "+m"(*dy4)
01957                 : "m"(*dxy4), "m"(*dyy4)
01958             );
01959 
01960             __asm__ volatile (
01961                 "movq      %%mm6, %%mm2 \n\t"
01962                 "movq      %%mm6, %%mm1 \n\t"
01963                 "psubw     %%mm4, %%mm2 \n\t"
01964                 "psubw     %%mm5, %%mm1 \n\t"
01965                 "movq      %%mm2, %%mm0 \n\t"
01966                 "movq      %%mm4, %%mm3 \n\t"
01967                 "pmullw    %%mm1, %%mm0 \n\t" // (s - dx) * (s - dy)
01968                 "pmullw    %%mm5, %%mm3 \n\t" // dx * dy
01969                 "pmullw    %%mm5, %%mm2 \n\t" // (s - dx) * dy
01970                 "pmullw    %%mm4, %%mm1 \n\t" // dx * (s - dy)
01971 
01972                 "movd         %4, %%mm5 \n\t"
01973                 "movd         %3, %%mm4 \n\t"
01974                 "punpcklbw %%mm7, %%mm5 \n\t"
01975                 "punpcklbw %%mm7, %%mm4 \n\t"
01976                 "pmullw    %%mm5, %%mm3 \n\t" // src[1, 1] * dx * dy
01977                 "pmullw    %%mm4, %%mm2 \n\t" // src[0, 1] * (s - dx) * dy
01978 
01979                 "movd         %2, %%mm5 \n\t"
01980                 "movd         %1, %%mm4 \n\t"
01981                 "punpcklbw %%mm7, %%mm5 \n\t"
01982                 "punpcklbw %%mm7, %%mm4 \n\t"
01983                 "pmullw    %%mm5, %%mm1 \n\t" // src[1, 0] * dx * (s - dy)
01984                 "pmullw    %%mm4, %%mm0 \n\t" // src[0, 0] * (s - dx) * (s - dy)
01985                 "paddw        %5, %%mm1 \n\t"
01986                 "paddw     %%mm3, %%mm2 \n\t"
01987                 "paddw     %%mm1, %%mm0 \n\t"
01988                 "paddw     %%mm2, %%mm0 \n\t"
01989 
01990                 "psrlw        %6, %%mm0 \n\t"
01991                 "packuswb  %%mm0, %%mm0 \n\t"
01992                 "movd      %%mm0, %0    \n\t"
01993 
01994                 : "=m"(dst[x + y * stride])
01995                 : "m"(src[0]), "m"(src[1]),
01996                   "m"(src[stride]), "m"(src[stride + 1]),
01997                   "m"(*r4), "m"(shift2)
01998             );
01999             src += stride;
02000         }
02001         src += 4 - h * stride;
02002     }
02003 }
02004 
02005 #if HAVE_YASM
02006 #if ARCH_X86_32
02007 static void gmc_mmx(uint8_t *dst, uint8_t *src,
02008                     int stride, int h, int ox, int oy,
02009                     int dxx, int dxy, int dyx, int dyy,
02010                     int shift, int r, int width, int height)
02011 {
02012     gmc(dst, src, stride, h, ox, oy, dxx, dxy, dyx, dyy, shift, r,
02013         width, height, &emulated_edge_mc_mmx);
02014 }
02015 #endif
02016 static void gmc_sse(uint8_t *dst, uint8_t *src,
02017                     int stride, int h, int ox, int oy,
02018                     int dxx, int dxy, int dyx, int dyy,
02019                     int shift, int r, int width, int height)
02020 {
02021     gmc(dst, src, stride, h, ox, oy, dxx, dxy, dyx, dyy, shift, r,
02022         width, height, &emulated_edge_mc_sse);
02023 }
02024 #else
02025 static void gmc_mmx(uint8_t *dst, uint8_t *src,
02026                     int stride, int h, int ox, int oy,
02027                     int dxx, int dxy, int dyx, int dyy,
02028                     int shift, int r, int width, int height)
02029 {
02030     gmc(dst, src, stride, h, ox, oy, dxx, dxy, dyx, dyy, shift, r,
02031         width, height, &ff_emulated_edge_mc_8);
02032 }
02033 #endif
02034 
02035 #define PREFETCH(name, op)                      \
02036 static void name(void *mem, int stride, int h)  \
02037 {                                               \
02038     const uint8_t *p = mem;                     \
02039     do {                                        \
02040         __asm__ volatile (#op" %0" :: "m"(*p)); \
02041         p += stride;                            \
02042     } while (--h);                              \
02043 }
02044 
02045 PREFETCH(prefetch_mmx2,  prefetcht0)
02046 PREFETCH(prefetch_3dnow, prefetch)
02047 #undef PREFETCH
02048 
02049 #include "h264_qpel_mmx.c"
02050 
02051 void ff_put_h264_chroma_mc8_mmx_rnd  (uint8_t *dst, uint8_t *src,
02052                                       int stride, int h, int x, int y);
02053 void ff_avg_h264_chroma_mc8_mmx2_rnd (uint8_t *dst, uint8_t *src,
02054                                       int stride, int h, int x, int y);
02055 void ff_avg_h264_chroma_mc8_3dnow_rnd(uint8_t *dst, uint8_t *src,
02056                                       int stride, int h, int x, int y);
02057 
02058 void ff_put_h264_chroma_mc4_mmx      (uint8_t *dst, uint8_t *src,
02059                                       int stride, int h, int x, int y);
02060 void ff_avg_h264_chroma_mc4_mmx2     (uint8_t *dst, uint8_t *src,
02061                                       int stride, int h, int x, int y);
02062 void ff_avg_h264_chroma_mc4_3dnow    (uint8_t *dst, uint8_t *src,
02063                                       int stride, int h, int x, int y);
02064 
02065 void ff_put_h264_chroma_mc2_mmx2     (uint8_t *dst, uint8_t *src,
02066                                       int stride, int h, int x, int y);
02067 void ff_avg_h264_chroma_mc2_mmx2     (uint8_t *dst, uint8_t *src,
02068                                       int stride, int h, int x, int y);
02069 
02070 void ff_put_h264_chroma_mc8_ssse3_rnd(uint8_t *dst, uint8_t *src,
02071                                       int stride, int h, int x, int y);
02072 void ff_put_h264_chroma_mc4_ssse3    (uint8_t *dst, uint8_t *src,
02073                                       int stride, int h, int x, int y);
02074 
02075 void ff_avg_h264_chroma_mc8_ssse3_rnd(uint8_t *dst, uint8_t *src,
02076                                       int stride, int h, int x, int y);
02077 void ff_avg_h264_chroma_mc4_ssse3    (uint8_t *dst, uint8_t *src,
02078                                       int stride, int h, int x, int y);
02079 
02080 #define CHROMA_MC(OP, NUM, DEPTH, OPT)                                  \
02081 void ff_ ## OP ## _h264_chroma_mc ## NUM ## _ ## DEPTH ## _ ## OPT      \
02082                                       (uint8_t *dst, uint8_t *src,      \
02083                                        int stride, int h, int x, int y);
02084 
02085 CHROMA_MC(put, 2, 10, mmxext)
02086 CHROMA_MC(avg, 2, 10, mmxext)
02087 CHROMA_MC(put, 4, 10, mmxext)
02088 CHROMA_MC(avg, 4, 10, mmxext)
02089 CHROMA_MC(put, 8, 10, sse2)
02090 CHROMA_MC(avg, 8, 10, sse2)
02091 CHROMA_MC(put, 8, 10, avx)
02092 CHROMA_MC(avg, 8, 10, avx)
02093 
02094 /* CAVS-specific */
02095 void ff_put_cavs_qpel8_mc00_mmx2(uint8_t *dst, uint8_t *src, int stride)
02096 {
02097     put_pixels8_mmx(dst, src, stride, 8);
02098 }
02099 
02100 void ff_avg_cavs_qpel8_mc00_mmx2(uint8_t *dst, uint8_t *src, int stride)
02101 {
02102     avg_pixels8_mmx(dst, src, stride, 8);
02103 }
02104 
02105 void ff_put_cavs_qpel16_mc00_mmx2(uint8_t *dst, uint8_t *src, int stride)
02106 {
02107     put_pixels16_mmx(dst, src, stride, 16);
02108 }
02109 
02110 void ff_avg_cavs_qpel16_mc00_mmx2(uint8_t *dst, uint8_t *src, int stride)
02111 {
02112     avg_pixels16_mmx(dst, src, stride, 16);
02113 }
02114 
02115 /* VC-1-specific */
02116 void ff_put_vc1_mspel_mc00_mmx(uint8_t *dst, const uint8_t *src,
02117                                int stride, int rnd)
02118 {
02119     put_pixels8_mmx(dst, src, stride, 8);
02120 }
02121 
02122 void ff_avg_vc1_mspel_mc00_mmx2(uint8_t *dst, const uint8_t *src,
02123                                 int stride, int rnd)
02124 {
02125     avg_pixels8_mmx2(dst, src, stride, 8);
02126 }
02127 
02128 /* only used in VP3/5/6 */
02129 static void put_vp_no_rnd_pixels8_l2_mmx(uint8_t *dst, const uint8_t *a, const uint8_t *b, int stride, int h)
02130 {
02131 //    START_TIMER
02132     MOVQ_BFE(mm6);
02133     __asm__ volatile(
02134         "1:                             \n\t"
02135         "movq   (%1), %%mm0             \n\t"
02136         "movq   (%2), %%mm1             \n\t"
02137         "movq   (%1,%4), %%mm2          \n\t"
02138         "movq   (%2,%4), %%mm3          \n\t"
02139         PAVGBP_MMX_NO_RND(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
02140         "movq   %%mm4, (%3)             \n\t"
02141         "movq   %%mm5, (%3,%4)          \n\t"
02142 
02143         "movq   (%1,%4,2), %%mm0        \n\t"
02144         "movq   (%2,%4,2), %%mm1        \n\t"
02145         "movq   (%1,%5), %%mm2          \n\t"
02146         "movq   (%2,%5), %%mm3          \n\t"
02147         "lea    (%1,%4,4), %1           \n\t"
02148         "lea    (%2,%4,4), %2           \n\t"
02149         PAVGBP_MMX_NO_RND(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
02150         "movq   %%mm4, (%3,%4,2)        \n\t"
02151         "movq   %%mm5, (%3,%5)          \n\t"
02152         "lea    (%3,%4,4), %3           \n\t"
02153         "subl   $4, %0                  \n\t"
02154         "jnz    1b                      \n\t"
02155         :"+r"(h), "+r"(a), "+r"(b), "+r"(dst)
02156         :"r"((x86_reg)stride), "r"((x86_reg)3L*stride)
02157         :"memory");
02158 //    STOP_TIMER("put_vp_no_rnd_pixels8_l2_mmx")
02159 }
02160 static void put_vp_no_rnd_pixels16_l2_mmx(uint8_t *dst, const uint8_t *a, const uint8_t *b, int stride, int h)
02161 {
02162     put_vp_no_rnd_pixels8_l2_mmx(dst, a, b, stride, h);
02163     put_vp_no_rnd_pixels8_l2_mmx(dst+8, a+8, b+8, stride, h);
02164 }
02165 
02166 #if CONFIG_DIRAC_DECODER
02167 #define DIRAC_PIXOP(OPNAME, EXT)\
02168 void ff_ ## OPNAME ## _dirac_pixels8_ ## EXT(uint8_t *dst, const uint8_t *src[5], int stride, int h)\
02169 {\
02170     OPNAME ## _pixels8_ ## EXT(dst, src[0], stride, h);\
02171 }\
02172 void ff_ ## OPNAME ## _dirac_pixels16_ ## EXT(uint8_t *dst, const uint8_t *src[5], int stride, int h)\
02173 {\
02174     OPNAME ## _pixels16_ ## EXT(dst, src[0], stride, h);\
02175 }\
02176 void ff_ ## OPNAME ## _dirac_pixels32_ ## EXT(uint8_t *dst, const uint8_t *src[5], int stride, int h)\
02177 {\
02178     OPNAME ## _pixels16_ ## EXT(dst   , src[0]   , stride, h);\
02179     OPNAME ## _pixels16_ ## EXT(dst+16, src[0]+16, stride, h);\
02180 }
02181 
02182 DIRAC_PIXOP(put, mmx)
02183 DIRAC_PIXOP(avg, mmx)
02184 DIRAC_PIXOP(avg, mmx2)
02185 
02186 void ff_put_dirac_pixels16_sse2(uint8_t *dst, const uint8_t *src[5], int stride, int h)
02187 {
02188     put_pixels16_sse2(dst, src[0], stride, h);
02189 }
02190 void ff_avg_dirac_pixels16_sse2(uint8_t *dst, const uint8_t *src[5], int stride, int h)
02191 {
02192     avg_pixels16_sse2(dst, src[0], stride, h);
02193 }
02194 void ff_put_dirac_pixels32_sse2(uint8_t *dst, const uint8_t *src[5], int stride, int h)
02195 {
02196     put_pixels16_sse2(dst   , src[0]   , stride, h);
02197     put_pixels16_sse2(dst+16, src[0]+16, stride, h);
02198 }
02199 void ff_avg_dirac_pixels32_sse2(uint8_t *dst, const uint8_t *src[5], int stride, int h)
02200 {
02201     avg_pixels16_sse2(dst   , src[0]   , stride, h);
02202     avg_pixels16_sse2(dst+16, src[0]+16, stride, h);
02203 }
02204 #endif
02205 
02206 /* XXX: Those functions should be suppressed ASAP when all IDCTs are
02207  * converted. */
02208 #if CONFIG_GPL
02209 static void ff_libmpeg2mmx_idct_put(uint8_t *dest, int line_size,
02210                                     DCTELEM *block)
02211 {
02212     ff_mmx_idct(block);
02213     ff_put_pixels_clamped_mmx(block, dest, line_size);
02214 }
02215 
02216 static void ff_libmpeg2mmx_idct_add(uint8_t *dest, int line_size,
02217                                     DCTELEM *block)
02218 {
02219     ff_mmx_idct(block);
02220     ff_add_pixels_clamped_mmx(block, dest, line_size);
02221 }
02222 
02223 static void ff_libmpeg2mmx2_idct_put(uint8_t *dest, int line_size,
02224                                      DCTELEM *block)
02225 {
02226     ff_mmxext_idct(block);
02227     ff_put_pixels_clamped_mmx(block, dest, line_size);
02228 }
02229 
02230 static void ff_libmpeg2mmx2_idct_add(uint8_t *dest, int line_size,
02231                                      DCTELEM *block)
02232 {
02233     ff_mmxext_idct(block);
02234     ff_add_pixels_clamped_mmx(block, dest, line_size);
02235 }
02236 #endif
02237 
02238 static void ff_idct_xvid_mmx_put(uint8_t *dest, int line_size, DCTELEM *block)
02239 {
02240     ff_idct_xvid_mmx(block);
02241     ff_put_pixels_clamped_mmx(block, dest, line_size);
02242 }
02243 
02244 static void ff_idct_xvid_mmx_add(uint8_t *dest, int line_size, DCTELEM *block)
02245 {
02246     ff_idct_xvid_mmx(block);
02247     ff_add_pixels_clamped_mmx(block, dest, line_size);
02248 }
02249 
02250 static void ff_idct_xvid_mmx2_put(uint8_t *dest, int line_size, DCTELEM *block)
02251 {
02252     ff_idct_xvid_mmx2(block);
02253     ff_put_pixels_clamped_mmx(block, dest, line_size);
02254 }
02255 
02256 static void ff_idct_xvid_mmx2_add(uint8_t *dest, int line_size, DCTELEM *block)
02257 {
02258     ff_idct_xvid_mmx2(block);
02259     ff_add_pixels_clamped_mmx(block, dest, line_size);
02260 }
02261 
02262 static void vorbis_inverse_coupling_3dnow(float *mag, float *ang, int blocksize)
02263 {
02264     int i;
02265     __asm__ volatile ("pxor %%mm7, %%mm7":);
02266     for (i = 0; i < blocksize; i += 2) {
02267         __asm__ volatile (
02268             "movq       %0, %%mm0   \n\t"
02269             "movq       %1, %%mm1   \n\t"
02270             "movq    %%mm0, %%mm2   \n\t"
02271             "movq    %%mm1, %%mm3   \n\t"
02272             "pfcmpge %%mm7, %%mm2   \n\t" // m <= 0.0
02273             "pfcmpge %%mm7, %%mm3   \n\t" // a <= 0.0
02274             "pslld     $31, %%mm2   \n\t" // keep only the sign bit
02275             "pxor    %%mm2, %%mm1   \n\t"
02276             "movq    %%mm3, %%mm4   \n\t"
02277             "pand    %%mm1, %%mm3   \n\t"
02278             "pandn   %%mm1, %%mm4   \n\t"
02279             "pfadd   %%mm0, %%mm3   \n\t" // a = m + ((a < 0) & (a ^ sign(m)))
02280             "pfsub   %%mm4, %%mm0   \n\t" // m = m + ((a > 0) & (a ^ sign(m)))
02281             "movq    %%mm3, %1      \n\t"
02282             "movq    %%mm0, %0      \n\t"
02283             : "+m"(mag[i]), "+m"(ang[i])
02284             :: "memory"
02285         );
02286     }
02287     __asm__ volatile ("femms");
02288 }
02289 
02290 static void vorbis_inverse_coupling_sse(float *mag, float *ang, int blocksize)
02291 {
02292     int i;
02293 
02294     __asm__ volatile (
02295         "movaps  %0, %%xmm5 \n\t"
02296         :: "m"(ff_pdw_80000000[0])
02297     );
02298     for (i = 0; i < blocksize; i += 4) {
02299         __asm__ volatile (
02300             "movaps      %0, %%xmm0 \n\t"
02301             "movaps      %1, %%xmm1 \n\t"
02302             "xorps   %%xmm2, %%xmm2 \n\t"
02303             "xorps   %%xmm3, %%xmm3 \n\t"
02304             "cmpleps %%xmm0, %%xmm2 \n\t" // m <= 0.0
02305             "cmpleps %%xmm1, %%xmm3 \n\t" // a <= 0.0
02306             "andps   %%xmm5, %%xmm2 \n\t" // keep only the sign bit
02307             "xorps   %%xmm2, %%xmm1 \n\t"
02308             "movaps  %%xmm3, %%xmm4 \n\t"
02309             "andps   %%xmm1, %%xmm3 \n\t"
02310             "andnps  %%xmm1, %%xmm4 \n\t"
02311             "addps   %%xmm0, %%xmm3 \n\t" // a = m + ((a < 0) & (a ^ sign(m)))
02312             "subps   %%xmm4, %%xmm0 \n\t" // m = m + ((a > 0) & (a ^ sign(m)))
02313             "movaps  %%xmm3, %1     \n\t"
02314             "movaps  %%xmm0, %0     \n\t"
02315             : "+m"(mag[i]), "+m"(ang[i])
02316             :: "memory"
02317         );
02318     }
02319 }
02320 
02321 #define IF1(x) x
02322 #define IF0(x)
02323 
02324 #define MIX5(mono, stereo)                                      \
02325     __asm__ volatile (                                          \
02326         "movss           0(%2), %%xmm5          \n"             \
02327         "movss           8(%2), %%xmm6          \n"             \
02328         "movss          24(%2), %%xmm7          \n"             \
02329         "shufps     $0, %%xmm5, %%xmm5          \n"             \
02330         "shufps     $0, %%xmm6, %%xmm6          \n"             \
02331         "shufps     $0, %%xmm7, %%xmm7          \n"             \
02332         "1:                                     \n"             \
02333         "movaps       (%0, %1), %%xmm0          \n"             \
02334         "movaps  0x400(%0, %1), %%xmm1          \n"             \
02335         "movaps  0x800(%0, %1), %%xmm2          \n"             \
02336         "movaps  0xc00(%0, %1), %%xmm3          \n"             \
02337         "movaps 0x1000(%0, %1), %%xmm4          \n"             \
02338         "mulps          %%xmm5, %%xmm0          \n"             \
02339         "mulps          %%xmm6, %%xmm1          \n"             \
02340         "mulps          %%xmm5, %%xmm2          \n"             \
02341         "mulps          %%xmm7, %%xmm3          \n"             \
02342         "mulps          %%xmm7, %%xmm4          \n"             \
02343  stereo("addps          %%xmm1, %%xmm0          \n")            \
02344         "addps          %%xmm1, %%xmm2          \n"             \
02345         "addps          %%xmm3, %%xmm0          \n"             \
02346         "addps          %%xmm4, %%xmm2          \n"             \
02347    mono("addps          %%xmm2, %%xmm0          \n")            \
02348         "movaps         %%xmm0, (%0, %1)        \n"             \
02349  stereo("movaps         %%xmm2, 0x400(%0, %1)   \n")            \
02350         "add               $16, %0              \n"             \
02351         "jl                 1b                  \n"             \
02352         : "+&r"(i)                                              \
02353         : "r"(samples[0] + len), "r"(matrix)                    \
02354         : XMM_CLOBBERS("%xmm0", "%xmm1", "%xmm2", "%xmm3",      \
02355                       "%xmm4", "%xmm5", "%xmm6", "%xmm7",)      \
02356          "memory"                                               \
02357     );
02358 
02359 #define MIX_MISC(stereo)                                        \
02360     __asm__ volatile (                                          \
02361         "1:                                 \n"                 \
02362         "movaps     (%3, %0), %%xmm0        \n"                 \
02363  stereo("movaps       %%xmm0, %%xmm1        \n")                \
02364         "mulps        %%xmm4, %%xmm0        \n"                 \
02365  stereo("mulps        %%xmm5, %%xmm1        \n")                \
02366         "lea    1024(%3, %0), %1            \n"                 \
02367         "mov              %5, %2            \n"                 \
02368         "2:                                 \n"                 \
02369         "movaps         (%1), %%xmm2        \n"                 \
02370  stereo("movaps       %%xmm2, %%xmm3        \n")                \
02371         "mulps      (%4, %2), %%xmm2        \n"                 \
02372  stereo("mulps    16(%4, %2), %%xmm3        \n")                \
02373         "addps        %%xmm2, %%xmm0        \n"                 \
02374  stereo("addps        %%xmm3, %%xmm1        \n")                \
02375         "add           $1024, %1            \n"                 \
02376         "add             $32, %2            \n"                 \
02377         "jl               2b                \n"                 \
02378         "movaps       %%xmm0,     (%3, %0)  \n"                 \
02379  stereo("movaps       %%xmm1, 1024(%3, %0)  \n")                \
02380         "add             $16, %0            \n"                 \
02381         "jl               1b                \n"                 \
02382         : "+&r"(i), "=&r"(j), "=&r"(k)                          \
02383         : "r"(samples[0] + len), "r"(matrix_simd + in_ch),      \
02384           "g"((intptr_t) - 32 * (in_ch - 1))                    \
02385         : "memory"                                              \
02386     );
02387 
02388 static void ac3_downmix_sse(float (*samples)[256], float (*matrix)[2],
02389                             int out_ch, int in_ch, int len)
02390 {
02391     int (*matrix_cmp)[2] = (int(*)[2])matrix;
02392     intptr_t i, j, k;
02393 
02394     i = -len * sizeof(float);
02395     if (in_ch == 5 && out_ch == 2 &&
02396         !(matrix_cmp[0][1] | matrix_cmp[2][0]   |
02397           matrix_cmp[3][1] | matrix_cmp[4][0]   |
02398           (matrix_cmp[1][0] ^ matrix_cmp[1][1]) |
02399           (matrix_cmp[0][0] ^ matrix_cmp[2][1]))) {
02400         MIX5(IF0, IF1);
02401     } else if (in_ch == 5 && out_ch == 1 &&
02402                matrix_cmp[0][0] == matrix_cmp[2][0] &&
02403                matrix_cmp[3][0] == matrix_cmp[4][0]) {
02404         MIX5(IF1, IF0);
02405     } else {
02406         DECLARE_ALIGNED(16, float, matrix_simd)[AC3_MAX_CHANNELS][2][4];
02407         j = 2 * in_ch * sizeof(float);
02408         __asm__ volatile (
02409             "1:                                 \n"
02410             "sub             $8, %0             \n"
02411             "movss     (%2, %0), %%xmm4         \n"
02412             "movss    4(%2, %0), %%xmm5         \n"
02413             "shufps          $0, %%xmm4, %%xmm4 \n"
02414             "shufps          $0, %%xmm5, %%xmm5 \n"
02415             "movaps      %%xmm4,   (%1, %0, 4)  \n"
02416             "movaps      %%xmm5, 16(%1, %0, 4)  \n"
02417             "jg              1b                 \n"
02418             : "+&r"(j)
02419             : "r"(matrix_simd), "r"(matrix)
02420             : "memory"
02421         );
02422         if (out_ch == 2) {
02423             MIX_MISC(IF1);
02424         } else {
02425             MIX_MISC(IF0);
02426         }
02427     }
02428 }
02429 
02430 #if HAVE_6REGS
02431 static void vector_fmul_window_3dnow2(float *dst, const float *src0,
02432                                       const float *src1, const float *win,
02433                                       int len)
02434 {
02435     x86_reg i = -len * 4;
02436     x86_reg j =  len * 4 - 8;
02437     __asm__ volatile (
02438         "1:                             \n"
02439         "pswapd (%5, %1), %%mm1         \n"
02440         "movq   (%5, %0), %%mm0         \n"
02441         "pswapd (%4, %1), %%mm5         \n"
02442         "movq   (%3, %0), %%mm4         \n"
02443         "movq      %%mm0, %%mm2         \n"
02444         "movq      %%mm1, %%mm3         \n"
02445         "pfmul     %%mm4, %%mm2         \n" // src0[len + i] * win[len + i]
02446         "pfmul     %%mm5, %%mm3         \n" // src1[j]       * win[len + j]
02447         "pfmul     %%mm4, %%mm1         \n" // src0[len + i] * win[len + j]
02448         "pfmul     %%mm5, %%mm0         \n" // src1[j]       * win[len + i]
02449         "pfadd     %%mm3, %%mm2         \n"
02450         "pfsub     %%mm0, %%mm1         \n"
02451         "pswapd    %%mm2, %%mm2         \n"
02452         "movq      %%mm1, (%2, %0)      \n"
02453         "movq      %%mm2, (%2, %1)      \n"
02454         "sub          $8, %1            \n"
02455         "add          $8, %0            \n"
02456         "jl           1b                \n"
02457         "femms                          \n"
02458         : "+r"(i), "+r"(j)
02459         : "r"(dst + len), "r"(src0 + len), "r"(src1), "r"(win + len)
02460     );
02461 }
02462 
02463 static void vector_fmul_window_sse(float *dst, const float *src0,
02464                                    const float *src1, const float *win, int len)
02465 {
02466     x86_reg i = -len * 4;
02467     x86_reg j =  len * 4 - 16;
02468     __asm__ volatile (
02469         "1:                             \n"
02470         "movaps      (%5, %1), %%xmm1   \n"
02471         "movaps      (%5, %0), %%xmm0   \n"
02472         "movaps      (%4, %1), %%xmm5   \n"
02473         "movaps      (%3, %0), %%xmm4   \n"
02474         "shufps $0x1b, %%xmm1, %%xmm1   \n"
02475         "shufps $0x1b, %%xmm5, %%xmm5   \n"
02476         "movaps        %%xmm0, %%xmm2   \n"
02477         "movaps        %%xmm1, %%xmm3   \n"
02478         "mulps         %%xmm4, %%xmm2   \n" // src0[len + i] * win[len + i]
02479         "mulps         %%xmm5, %%xmm3   \n" // src1[j]       * win[len + j]
02480         "mulps         %%xmm4, %%xmm1   \n" // src0[len + i] * win[len + j]
02481         "mulps         %%xmm5, %%xmm0   \n" // src1[j]       * win[len + i]
02482         "addps         %%xmm3, %%xmm2   \n"
02483         "subps         %%xmm0, %%xmm1   \n"
02484         "shufps $0x1b, %%xmm2, %%xmm2   \n"
02485         "movaps        %%xmm1, (%2, %0) \n"
02486         "movaps        %%xmm2, (%2, %1) \n"
02487         "sub              $16, %1       \n"
02488         "add              $16, %0       \n"
02489         "jl                1b           \n"
02490         : "+r"(i), "+r"(j)
02491         : "r"(dst + len), "r"(src0 + len), "r"(src1), "r"(win + len)
02492     );
02493 }
02494 #endif /* HAVE_6REGS */
02495 
02496 static void vector_clipf_sse(float *dst, const float *src,
02497                              float min, float max, int len)
02498 {
02499     x86_reg i = (len - 16) * 4;
02500     __asm__ volatile (
02501         "movss          %3, %%xmm4      \n\t"
02502         "movss          %4, %%xmm5      \n\t"
02503         "shufps $0, %%xmm4, %%xmm4      \n\t"
02504         "shufps $0, %%xmm5, %%xmm5      \n\t"
02505         "1:                             \n\t"
02506         "movaps   (%2, %0), %%xmm0      \n\t" // 3/1 on intel
02507         "movaps 16(%2, %0), %%xmm1      \n\t"
02508         "movaps 32(%2, %0), %%xmm2      \n\t"
02509         "movaps 48(%2, %0), %%xmm3      \n\t"
02510         "maxps      %%xmm4, %%xmm0      \n\t"
02511         "maxps      %%xmm4, %%xmm1      \n\t"
02512         "maxps      %%xmm4, %%xmm2      \n\t"
02513         "maxps      %%xmm4, %%xmm3      \n\t"
02514         "minps      %%xmm5, %%xmm0      \n\t"
02515         "minps      %%xmm5, %%xmm1      \n\t"
02516         "minps      %%xmm5, %%xmm2      \n\t"
02517         "minps      %%xmm5, %%xmm3      \n\t"
02518         "movaps     %%xmm0,   (%1, %0)  \n\t"
02519         "movaps     %%xmm1, 16(%1, %0)  \n\t"
02520         "movaps     %%xmm2, 32(%1, %0)  \n\t"
02521         "movaps     %%xmm3, 48(%1, %0)  \n\t"
02522         "sub           $64, %0          \n\t"
02523         "jge            1b              \n\t"
02524         : "+&r"(i)
02525         : "r"(dst), "r"(src), "m"(min), "m"(max)
02526         : "memory"
02527     );
02528 }
02529 
02530 void ff_vp3_idct_mmx(int16_t *input_data);
02531 void ff_vp3_idct_put_mmx(uint8_t *dest, int line_size, DCTELEM *block);
02532 void ff_vp3_idct_add_mmx(uint8_t *dest, int line_size, DCTELEM *block);
02533 
02534 void ff_vp3_idct_dc_add_mmx2(uint8_t *dest, int line_size,
02535                              const DCTELEM *block);
02536 
02537 void ff_vp3_v_loop_filter_mmx2(uint8_t *src, int stride, int *bounding_values);
02538 void ff_vp3_h_loop_filter_mmx2(uint8_t *src, int stride, int *bounding_values);
02539 
02540 void ff_vp3_idct_sse2(int16_t *input_data);
02541 void ff_vp3_idct_put_sse2(uint8_t *dest, int line_size, DCTELEM *block);
02542 void ff_vp3_idct_add_sse2(uint8_t *dest, int line_size, DCTELEM *block);
02543 
02544 int32_t ff_scalarproduct_int16_mmx2(const int16_t *v1, const int16_t *v2,
02545                                     int order);
02546 int32_t ff_scalarproduct_int16_sse2(const int16_t *v1, const int16_t *v2,
02547                                     int order);
02548 int32_t ff_scalarproduct_and_madd_int16_mmx2(int16_t *v1, const int16_t *v2,
02549                                              const int16_t *v3,
02550                                              int order, int mul);
02551 int32_t ff_scalarproduct_and_madd_int16_sse2(int16_t *v1, const int16_t *v2,
02552                                              const int16_t *v3,
02553                                              int order, int mul);
02554 int32_t ff_scalarproduct_and_madd_int16_ssse3(int16_t *v1, const int16_t *v2,
02555                                               const int16_t *v3,
02556                                               int order, int mul);
02557 
02558 void ff_apply_window_int16_mmxext    (int16_t *output, const int16_t *input,
02559                                       const int16_t *window, unsigned int len);
02560 void ff_apply_window_int16_mmxext_ba (int16_t *output, const int16_t *input,
02561                                       const int16_t *window, unsigned int len);
02562 void ff_apply_window_int16_sse2      (int16_t *output, const int16_t *input,
02563                                       const int16_t *window, unsigned int len);
02564 void ff_apply_window_int16_sse2_ba   (int16_t *output, const int16_t *input,
02565                                       const int16_t *window, unsigned int len);
02566 void ff_apply_window_int16_ssse3     (int16_t *output, const int16_t *input,
02567                                       const int16_t *window, unsigned int len);
02568 void ff_apply_window_int16_ssse3_atom(int16_t *output, const int16_t *input,
02569                                       const int16_t *window, unsigned int len);
02570 
02571 void ff_bswap32_buf_ssse3(uint32_t *dst, const uint32_t *src, int w);
02572 void ff_bswap32_buf_sse2(uint32_t *dst, const uint32_t *src, int w);
02573 
02574 void ff_add_hfyu_median_prediction_mmx2(uint8_t *dst, const uint8_t *top,
02575                                         const uint8_t *diff, int w,
02576                                         int *left, int *left_top);
02577 int  ff_add_hfyu_left_prediction_ssse3(uint8_t *dst, const uint8_t *src,
02578                                        int w, int left);
02579 int  ff_add_hfyu_left_prediction_sse4(uint8_t *dst, const uint8_t *src,
02580                                       int w, int left);
02581 
02582 float ff_scalarproduct_float_sse(const float *v1, const float *v2, int order);
02583 
02584 void ff_vector_fmul_sse(float *dst, const float *src0, const float *src1,
02585                         int len);
02586 void ff_vector_fmul_avx(float *dst, const float *src0, const float *src1,
02587                         int len);
02588 
02589 void ff_vector_fmul_reverse_sse(float *dst, const float *src0,
02590                                 const float *src1, int len);
02591 void ff_vector_fmul_reverse_avx(float *dst, const float *src0,
02592                                 const float *src1, int len);
02593 
02594 void ff_vector_fmul_add_sse(float *dst, const float *src0, const float *src1,
02595                             const float *src2, int len);
02596 void ff_vector_fmul_add_avx(float *dst, const float *src0, const float *src1,
02597                             const float *src2, int len);
02598 
02599 void ff_vector_clip_int32_mmx     (int32_t *dst, const int32_t *src,
02600                                    int32_t min, int32_t max, unsigned int len);
02601 void ff_vector_clip_int32_sse2    (int32_t *dst, const int32_t *src,
02602                                    int32_t min, int32_t max, unsigned int len);
02603 void ff_vector_clip_int32_int_sse2(int32_t *dst, const int32_t *src,
02604                                    int32_t min, int32_t max, unsigned int len);
02605 void ff_vector_clip_int32_sse4    (int32_t *dst, const int32_t *src,
02606                                    int32_t min, int32_t max, unsigned int len);
02607 
02608 extern void ff_butterflies_float_interleave_sse(float *dst, const float *src0,
02609                                                 const float *src1, int len);
02610 extern void ff_butterflies_float_interleave_avx(float *dst, const float *src0,
02611                                                 const float *src1, int len);
02612 
02613 #define SET_QPEL_FUNCS(PFX, IDX, SIZE, CPU, PREFIX)                          \
02614     do {                                                                     \
02615     c->PFX ## _pixels_tab[IDX][ 0] = PREFIX ## PFX ## SIZE ## _mc00_ ## CPU; \
02616     c->PFX ## _pixels_tab[IDX][ 1] = PREFIX ## PFX ## SIZE ## _mc10_ ## CPU; \
02617     c->PFX ## _pixels_tab[IDX][ 2] = PREFIX ## PFX ## SIZE ## _mc20_ ## CPU; \
02618     c->PFX ## _pixels_tab[IDX][ 3] = PREFIX ## PFX ## SIZE ## _mc30_ ## CPU; \
02619     c->PFX ## _pixels_tab[IDX][ 4] = PREFIX ## PFX ## SIZE ## _mc01_ ## CPU; \
02620     c->PFX ## _pixels_tab[IDX][ 5] = PREFIX ## PFX ## SIZE ## _mc11_ ## CPU; \
02621     c->PFX ## _pixels_tab[IDX][ 6] = PREFIX ## PFX ## SIZE ## _mc21_ ## CPU; \
02622     c->PFX ## _pixels_tab[IDX][ 7] = PREFIX ## PFX ## SIZE ## _mc31_ ## CPU; \
02623     c->PFX ## _pixels_tab[IDX][ 8] = PREFIX ## PFX ## SIZE ## _mc02_ ## CPU; \
02624     c->PFX ## _pixels_tab[IDX][ 9] = PREFIX ## PFX ## SIZE ## _mc12_ ## CPU; \
02625     c->PFX ## _pixels_tab[IDX][10] = PREFIX ## PFX ## SIZE ## _mc22_ ## CPU; \
02626     c->PFX ## _pixels_tab[IDX][11] = PREFIX ## PFX ## SIZE ## _mc32_ ## CPU; \
02627     c->PFX ## _pixels_tab[IDX][12] = PREFIX ## PFX ## SIZE ## _mc03_ ## CPU; \
02628     c->PFX ## _pixels_tab[IDX][13] = PREFIX ## PFX ## SIZE ## _mc13_ ## CPU; \
02629     c->PFX ## _pixels_tab[IDX][14] = PREFIX ## PFX ## SIZE ## _mc23_ ## CPU; \
02630     c->PFX ## _pixels_tab[IDX][15] = PREFIX ## PFX ## SIZE ## _mc33_ ## CPU; \
02631     } while (0)
02632 
02633 #define SET_HPEL_FUNCS(PFX, IDX, SIZE, CPU)                                     \
02634     do {                                                                        \
02635         c->PFX ## _pixels_tab[IDX][0] = PFX ## _pixels ## SIZE ## _     ## CPU; \
02636         c->PFX ## _pixels_tab[IDX][1] = PFX ## _pixels ## SIZE ## _x2_  ## CPU; \
02637         c->PFX ## _pixels_tab[IDX][2] = PFX ## _pixels ## SIZE ## _y2_  ## CPU; \
02638         c->PFX ## _pixels_tab[IDX][3] = PFX ## _pixels ## SIZE ## _xy2_ ## CPU; \
02639     } while (0)
02640 
02641 #define H264_QPEL_FUNCS(x, y, CPU)                                                            \
02642     do {                                                                                      \
02643         c->put_h264_qpel_pixels_tab[0][x + y * 4] = put_h264_qpel16_mc ## x ## y ## _ ## CPU; \
02644         c->put_h264_qpel_pixels_tab[1][x + y * 4] = put_h264_qpel8_mc  ## x ## y ## _ ## CPU; \
02645         c->avg_h264_qpel_pixels_tab[0][x + y * 4] = avg_h264_qpel16_mc ## x ## y ## _ ## CPU; \
02646         c->avg_h264_qpel_pixels_tab[1][x + y * 4] = avg_h264_qpel8_mc  ## x ## y ## _ ## CPU; \
02647     } while (0)
02648 
02649 #define H264_QPEL_FUNCS_10(x, y, CPU)                                                               \
02650     do {                                                                                            \
02651         c->put_h264_qpel_pixels_tab[0][x + y * 4] = ff_put_h264_qpel16_mc ## x ## y ## _10_ ## CPU; \
02652         c->put_h264_qpel_pixels_tab[1][x + y * 4] = ff_put_h264_qpel8_mc  ## x ## y ## _10_ ## CPU; \
02653         c->avg_h264_qpel_pixels_tab[0][x + y * 4] = ff_avg_h264_qpel16_mc ## x ## y ## _10_ ## CPU; \
02654         c->avg_h264_qpel_pixels_tab[1][x + y * 4] = ff_avg_h264_qpel8_mc  ## x ## y ## _10_ ## CPU; \
02655     } while (0)
02656 
02657 static void dsputil_init_mmx(DSPContext *c, AVCodecContext *avctx, int mm_flags)
02658 {
02659     const int high_bit_depth = avctx->bits_per_raw_sample > 8;
02660 
02661     c->put_pixels_clamped        = ff_put_pixels_clamped_mmx;
02662     c->put_signed_pixels_clamped = ff_put_signed_pixels_clamped_mmx;
02663     c->add_pixels_clamped        = ff_add_pixels_clamped_mmx;
02664 
02665     if (!high_bit_depth) {
02666         c->clear_block  = clear_block_mmx;
02667         c->clear_blocks = clear_blocks_mmx;
02668         c->draw_edges   = draw_edges_mmx;
02669 
02670         SET_HPEL_FUNCS(put,        0, 16, mmx);
02671         SET_HPEL_FUNCS(put_no_rnd, 0, 16, mmx);
02672         SET_HPEL_FUNCS(avg,        0, 16, mmx);
02673         SET_HPEL_FUNCS(avg_no_rnd, 0, 16, mmx);
02674         SET_HPEL_FUNCS(put,        1,  8, mmx);
02675         SET_HPEL_FUNCS(put_no_rnd, 1,  8, mmx);
02676         SET_HPEL_FUNCS(avg,        1,  8, mmx);
02677         SET_HPEL_FUNCS(avg_no_rnd, 1,  8, mmx);
02678     }
02679 
02680 #if ARCH_X86_32 || !HAVE_YASM
02681     c->gmc = gmc_mmx;
02682 #endif
02683 #if ARCH_X86_32 && HAVE_YASM
02684     if (!high_bit_depth)
02685         c->emulated_edge_mc = emulated_edge_mc_mmx;
02686 #endif
02687 
02688     c->add_bytes = add_bytes_mmx;
02689 
02690     c->put_no_rnd_pixels_l2[0]= put_vp_no_rnd_pixels16_l2_mmx;
02691     c->put_no_rnd_pixels_l2[1]= put_vp_no_rnd_pixels8_l2_mmx;
02692 
02693     if (CONFIG_H263_DECODER || CONFIG_H263_ENCODER) {
02694         c->h263_v_loop_filter = h263_v_loop_filter_mmx;
02695         c->h263_h_loop_filter = h263_h_loop_filter_mmx;
02696     }
02697 
02698 #if HAVE_YASM
02699     if (!high_bit_depth && CONFIG_H264CHROMA) {
02700         c->put_h264_chroma_pixels_tab[0] = ff_put_h264_chroma_mc8_mmx_rnd;
02701         c->put_h264_chroma_pixels_tab[1] = ff_put_h264_chroma_mc4_mmx;
02702     }
02703 
02704     c->vector_clip_int32 = ff_vector_clip_int32_mmx;
02705 #endif
02706 
02707 }
02708 
02709 static void dsputil_init_mmx2(DSPContext *c, AVCodecContext *avctx,
02710                               int mm_flags)
02711 {
02712     const int bit_depth      = avctx->bits_per_raw_sample;
02713     const int high_bit_depth = bit_depth > 8;
02714 
02715     c->prefetch = prefetch_mmx2;
02716 
02717     if (!high_bit_depth) {
02718         c->put_pixels_tab[0][1] = put_pixels16_x2_mmx2;
02719         c->put_pixels_tab[0][2] = put_pixels16_y2_mmx2;
02720 
02721         c->avg_pixels_tab[0][0] = avg_pixels16_mmx2;
02722         c->avg_pixels_tab[0][1] = avg_pixels16_x2_mmx2;
02723         c->avg_pixels_tab[0][2] = avg_pixels16_y2_mmx2;
02724 
02725         c->put_pixels_tab[1][1] = put_pixels8_x2_mmx2;
02726         c->put_pixels_tab[1][2] = put_pixels8_y2_mmx2;
02727 
02728         c->avg_pixels_tab[1][0] = avg_pixels8_mmx2;
02729         c->avg_pixels_tab[1][1] = avg_pixels8_x2_mmx2;
02730         c->avg_pixels_tab[1][2] = avg_pixels8_y2_mmx2;
02731     }
02732 
02733     if (!(avctx->flags & CODEC_FLAG_BITEXACT)) {
02734         if (!high_bit_depth) {
02735             c->put_no_rnd_pixels_tab[0][1] = put_no_rnd_pixels16_x2_mmx2;
02736             c->put_no_rnd_pixels_tab[0][2] = put_no_rnd_pixels16_y2_mmx2;
02737             c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_mmx2;
02738             c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_mmx2;
02739 
02740             c->avg_pixels_tab[0][3] = avg_pixels16_xy2_mmx2;
02741             c->avg_pixels_tab[1][3] = avg_pixels8_xy2_mmx2;
02742         }
02743 
02744         if (CONFIG_VP3_DECODER && HAVE_YASM) {
02745             c->vp3_v_loop_filter = ff_vp3_v_loop_filter_mmx2;
02746             c->vp3_h_loop_filter = ff_vp3_h_loop_filter_mmx2;
02747         }
02748     }
02749     if (CONFIG_VP3_DECODER && HAVE_YASM)
02750         c->vp3_idct_dc_add = ff_vp3_idct_dc_add_mmx2;
02751 
02752     if (CONFIG_VP3_DECODER && (avctx->codec_id == CODEC_ID_VP3 ||
02753                                avctx->codec_id == CODEC_ID_THEORA)) {
02754         c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_exact_mmx2;
02755         c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_exact_mmx2;
02756     }
02757 
02758     if (CONFIG_H264QPEL) {
02759         SET_QPEL_FUNCS(put_qpel,        0, 16, mmx2, );
02760         SET_QPEL_FUNCS(put_qpel,        1,  8, mmx2, );
02761         SET_QPEL_FUNCS(put_no_rnd_qpel, 0, 16, mmx2, );
02762         SET_QPEL_FUNCS(put_no_rnd_qpel, 1,  8, mmx2, );
02763         SET_QPEL_FUNCS(avg_qpel,        0, 16, mmx2, );
02764         SET_QPEL_FUNCS(avg_qpel,        1,  8, mmx2, );
02765 
02766         if (!high_bit_depth) {
02767             SET_QPEL_FUNCS(put_h264_qpel, 0, 16, mmx2, );
02768             SET_QPEL_FUNCS(put_h264_qpel, 1,  8, mmx2, );
02769             SET_QPEL_FUNCS(put_h264_qpel, 2,  4, mmx2, );
02770             SET_QPEL_FUNCS(avg_h264_qpel, 0, 16, mmx2, );
02771             SET_QPEL_FUNCS(avg_h264_qpel, 1,  8, mmx2, );
02772             SET_QPEL_FUNCS(avg_h264_qpel, 2,  4, mmx2, );
02773         } else if (bit_depth == 10) {
02774 #if HAVE_YASM
02775 #if !ARCH_X86_64
02776             SET_QPEL_FUNCS(avg_h264_qpel, 0, 16, 10_mmxext, ff_);
02777             SET_QPEL_FUNCS(put_h264_qpel, 0, 16, 10_mmxext, ff_);
02778             SET_QPEL_FUNCS(put_h264_qpel, 1,  8, 10_mmxext, ff_);
02779             SET_QPEL_FUNCS(avg_h264_qpel, 1,  8, 10_mmxext, ff_);
02780 #endif
02781             SET_QPEL_FUNCS(put_h264_qpel, 2, 4,  10_mmxext, ff_);
02782             SET_QPEL_FUNCS(avg_h264_qpel, 2, 4,  10_mmxext, ff_);
02783 #endif
02784         }
02785 
02786         SET_QPEL_FUNCS(put_2tap_qpel, 0, 16, mmx2, );
02787         SET_QPEL_FUNCS(put_2tap_qpel, 1,  8, mmx2, );
02788         SET_QPEL_FUNCS(avg_2tap_qpel, 0, 16, mmx2, );
02789         SET_QPEL_FUNCS(avg_2tap_qpel, 1,  8, mmx2, );
02790     }
02791 
02792 #if HAVE_YASM
02793     if (!high_bit_depth && CONFIG_H264CHROMA) {
02794         c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_mmx2_rnd;
02795         c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_mmx2;
02796         c->avg_h264_chroma_pixels_tab[2] = ff_avg_h264_chroma_mc2_mmx2;
02797         c->put_h264_chroma_pixels_tab[2] = ff_put_h264_chroma_mc2_mmx2;
02798     }
02799     if (bit_depth == 10 && CONFIG_H264CHROMA) {
02800         c->put_h264_chroma_pixels_tab[2] = ff_put_h264_chroma_mc2_10_mmxext;
02801         c->avg_h264_chroma_pixels_tab[2] = ff_avg_h264_chroma_mc2_10_mmxext;
02802         c->put_h264_chroma_pixels_tab[1] = ff_put_h264_chroma_mc4_10_mmxext;
02803         c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_10_mmxext;
02804     }
02805 
02806     c->add_hfyu_median_prediction   = ff_add_hfyu_median_prediction_mmx2;
02807 
02808     c->scalarproduct_int16          = ff_scalarproduct_int16_mmx2;
02809     c->scalarproduct_and_madd_int16 = ff_scalarproduct_and_madd_int16_mmx2;
02810 
02811     if (avctx->flags & CODEC_FLAG_BITEXACT) {
02812         c->apply_window_int16 = ff_apply_window_int16_mmxext_ba;
02813     } else {
02814         c->apply_window_int16 = ff_apply_window_int16_mmxext;
02815     }
02816 #endif
02817 }
02818 
02819 static void dsputil_init_3dnow(DSPContext *c, AVCodecContext *avctx,
02820                                int mm_flags)
02821 {
02822     const int high_bit_depth = avctx->bits_per_raw_sample > 8;
02823 
02824     c->prefetch = prefetch_3dnow;
02825 
02826     if (!high_bit_depth) {
02827         c->put_pixels_tab[0][1] = put_pixels16_x2_3dnow;
02828         c->put_pixels_tab[0][2] = put_pixels16_y2_3dnow;
02829 
02830         c->avg_pixels_tab[0][0] = avg_pixels16_3dnow;
02831         c->avg_pixels_tab[0][1] = avg_pixels16_x2_3dnow;
02832         c->avg_pixels_tab[0][2] = avg_pixels16_y2_3dnow;
02833 
02834         c->put_pixels_tab[1][1] = put_pixels8_x2_3dnow;
02835         c->put_pixels_tab[1][2] = put_pixels8_y2_3dnow;
02836 
02837         c->avg_pixels_tab[1][0] = avg_pixels8_3dnow;
02838         c->avg_pixels_tab[1][1] = avg_pixels8_x2_3dnow;
02839         c->avg_pixels_tab[1][2] = avg_pixels8_y2_3dnow;
02840 
02841         if (!(avctx->flags & CODEC_FLAG_BITEXACT)){
02842             c->put_no_rnd_pixels_tab[0][1] = put_no_rnd_pixels16_x2_3dnow;
02843             c->put_no_rnd_pixels_tab[0][2] = put_no_rnd_pixels16_y2_3dnow;
02844             c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_3dnow;
02845             c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_3dnow;
02846 
02847             c->avg_pixels_tab[0][3] = avg_pixels16_xy2_3dnow;
02848             c->avg_pixels_tab[1][3] = avg_pixels8_xy2_3dnow;
02849         }
02850     }
02851 
02852     if (CONFIG_VP3_DECODER && (avctx->codec_id == CODEC_ID_VP3 ||
02853                                avctx->codec_id == CODEC_ID_THEORA)) {
02854         c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_exact_3dnow;
02855         c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_exact_3dnow;
02856     }
02857 
02858     if (CONFIG_H264QPEL) {
02859         SET_QPEL_FUNCS(put_qpel,        0, 16, 3dnow, );
02860         SET_QPEL_FUNCS(put_qpel,        1,  8, 3dnow, );
02861         SET_QPEL_FUNCS(put_no_rnd_qpel, 0, 16, 3dnow, );
02862         SET_QPEL_FUNCS(put_no_rnd_qpel, 1,  8, 3dnow, );
02863         SET_QPEL_FUNCS(avg_qpel,        0, 16, 3dnow, );
02864         SET_QPEL_FUNCS(avg_qpel,        1,  8, 3dnow, );
02865 
02866         if (!high_bit_depth) {
02867             SET_QPEL_FUNCS(put_h264_qpel, 0, 16, 3dnow, );
02868             SET_QPEL_FUNCS(put_h264_qpel, 1,  8, 3dnow, );
02869             SET_QPEL_FUNCS(put_h264_qpel, 2,  4, 3dnow, );
02870             SET_QPEL_FUNCS(avg_h264_qpel, 0, 16, 3dnow, );
02871             SET_QPEL_FUNCS(avg_h264_qpel, 1,  8, 3dnow, );
02872             SET_QPEL_FUNCS(avg_h264_qpel, 2,  4, 3dnow, );
02873         }
02874 
02875         SET_QPEL_FUNCS(put_2tap_qpel, 0, 16, 3dnow, );
02876         SET_QPEL_FUNCS(put_2tap_qpel, 1,  8, 3dnow, );
02877         SET_QPEL_FUNCS(avg_2tap_qpel, 0, 16, 3dnow, );
02878         SET_QPEL_FUNCS(avg_2tap_qpel, 1,  8, 3dnow, );
02879     }
02880 
02881 #if HAVE_YASM
02882     if (!high_bit_depth && CONFIG_H264CHROMA) {
02883         c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_3dnow_rnd;
02884         c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_3dnow;
02885     }
02886 #endif
02887 
02888     c->vorbis_inverse_coupling = vorbis_inverse_coupling_3dnow;
02889 
02890 #if HAVE_7REGS
02891     c->add_hfyu_median_prediction = add_hfyu_median_prediction_cmov;
02892 #endif
02893 }
02894 
02895 static void dsputil_init_3dnow2(DSPContext *c, AVCodecContext *avctx,
02896                                 int mm_flags)
02897 {
02898 #if HAVE_6REGS
02899     c->vector_fmul_window  = vector_fmul_window_3dnow2;
02900 #endif
02901 }
02902 
02903 static void dsputil_init_sse(DSPContext *c, AVCodecContext *avctx, int mm_flags)
02904 {
02905     const int high_bit_depth = avctx->bits_per_raw_sample > 8;
02906 
02907     if (!high_bit_depth) {
02908         if (!(CONFIG_MPEG_XVMC_DECODER && avctx->xvmc_acceleration > 1)) {
02909             /* XvMCCreateBlocks() may not allocate 16-byte aligned blocks */
02910             c->clear_block  = clear_block_sse;
02911             c->clear_blocks = clear_blocks_sse;
02912         }
02913     }
02914 
02915     c->vorbis_inverse_coupling = vorbis_inverse_coupling_sse;
02916     c->ac3_downmix             = ac3_downmix_sse;
02917 #if HAVE_YASM
02918     c->vector_fmul         = ff_vector_fmul_sse;
02919     c->vector_fmul_reverse = ff_vector_fmul_reverse_sse;
02920     c->vector_fmul_add     = ff_vector_fmul_add_sse;
02921 #endif
02922 
02923 #if HAVE_6REGS
02924     c->vector_fmul_window = vector_fmul_window_sse;
02925 #endif
02926 
02927     c->vector_clipf = vector_clipf_sse;
02928 
02929 #if HAVE_YASM
02930     c->scalarproduct_float          = ff_scalarproduct_float_sse;
02931     c->butterflies_float_interleave = ff_butterflies_float_interleave_sse;
02932 
02933     if (!high_bit_depth)
02934         c->emulated_edge_mc = emulated_edge_mc_sse;
02935     c->gmc = gmc_sse;
02936 #endif
02937 }
02938 
02939 static void dsputil_init_sse2(DSPContext *c, AVCodecContext *avctx,
02940                               int mm_flags)
02941 {
02942     const int bit_depth      = avctx->bits_per_raw_sample;
02943     const int high_bit_depth = bit_depth > 8;
02944 
02945     if (!(mm_flags & AV_CPU_FLAG_SSE2SLOW)) {
02946         // these functions are slower than mmx on AMD, but faster on Intel
02947         if (!high_bit_depth) {
02948             c->put_pixels_tab[0][0]        = put_pixels16_sse2;
02949             c->put_no_rnd_pixels_tab[0][0] = put_pixels16_sse2;
02950             c->avg_pixels_tab[0][0]        = avg_pixels16_sse2;
02951             if (CONFIG_H264QPEL)
02952                 H264_QPEL_FUNCS(0, 0, sse2);
02953         }
02954     }
02955 
02956     if (!high_bit_depth && CONFIG_H264QPEL) {
02957         H264_QPEL_FUNCS(0, 1, sse2);
02958         H264_QPEL_FUNCS(0, 2, sse2);
02959         H264_QPEL_FUNCS(0, 3, sse2);
02960         H264_QPEL_FUNCS(1, 1, sse2);
02961         H264_QPEL_FUNCS(1, 2, sse2);
02962         H264_QPEL_FUNCS(1, 3, sse2);
02963         H264_QPEL_FUNCS(2, 1, sse2);
02964         H264_QPEL_FUNCS(2, 2, sse2);
02965         H264_QPEL_FUNCS(2, 3, sse2);
02966         H264_QPEL_FUNCS(3, 1, sse2);
02967         H264_QPEL_FUNCS(3, 2, sse2);
02968         H264_QPEL_FUNCS(3, 3, sse2);
02969     }
02970 
02971 #if HAVE_YASM
02972     if (bit_depth == 10) {
02973         if (CONFIG_H264QPEL) {
02974             SET_QPEL_FUNCS(put_h264_qpel, 0, 16, 10_sse2, ff_);
02975             SET_QPEL_FUNCS(put_h264_qpel, 1,  8, 10_sse2, ff_);
02976             SET_QPEL_FUNCS(avg_h264_qpel, 0, 16, 10_sse2, ff_);
02977             SET_QPEL_FUNCS(avg_h264_qpel, 1,  8, 10_sse2, ff_);
02978             H264_QPEL_FUNCS_10(1, 0, sse2_cache64);
02979             H264_QPEL_FUNCS_10(2, 0, sse2_cache64);
02980             H264_QPEL_FUNCS_10(3, 0, sse2_cache64);
02981         }
02982         if (CONFIG_H264CHROMA) {
02983             c->put_h264_chroma_pixels_tab[0] = ff_put_h264_chroma_mc8_10_sse2;
02984             c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_10_sse2;
02985         }
02986     }
02987 
02988     c->scalarproduct_int16          = ff_scalarproduct_int16_sse2;
02989     c->scalarproduct_and_madd_int16 = ff_scalarproduct_and_madd_int16_sse2;
02990     if (mm_flags & AV_CPU_FLAG_ATOM) {
02991         c->vector_clip_int32 = ff_vector_clip_int32_int_sse2;
02992     } else {
02993         c->vector_clip_int32 = ff_vector_clip_int32_sse2;
02994     }
02995     if (avctx->flags & CODEC_FLAG_BITEXACT) {
02996         c->apply_window_int16 = ff_apply_window_int16_sse2_ba;
02997     } else if (!(mm_flags & AV_CPU_FLAG_SSE2SLOW)) {
02998         c->apply_window_int16 = ff_apply_window_int16_sse2;
02999     }
03000     c->bswap_buf = ff_bswap32_buf_sse2;
03001 #endif
03002 }
03003 
03004 static void dsputil_init_ssse3(DSPContext *c, AVCodecContext *avctx,
03005                                int mm_flags)
03006 {
03007 #if HAVE_SSSE3
03008     const int high_bit_depth = avctx->bits_per_raw_sample > 8;
03009     const int bit_depth      = avctx->bits_per_raw_sample;
03010 
03011     if (!high_bit_depth && CONFIG_H264QPEL) {
03012         H264_QPEL_FUNCS(1, 0, ssse3);
03013         H264_QPEL_FUNCS(1, 1, ssse3);
03014         H264_QPEL_FUNCS(1, 2, ssse3);
03015         H264_QPEL_FUNCS(1, 3, ssse3);
03016         H264_QPEL_FUNCS(2, 0, ssse3);
03017         H264_QPEL_FUNCS(2, 1, ssse3);
03018         H264_QPEL_FUNCS(2, 2, ssse3);
03019         H264_QPEL_FUNCS(2, 3, ssse3);
03020         H264_QPEL_FUNCS(3, 0, ssse3);
03021         H264_QPEL_FUNCS(3, 1, ssse3);
03022         H264_QPEL_FUNCS(3, 2, ssse3);
03023         H264_QPEL_FUNCS(3, 3, ssse3);
03024     }
03025 #if HAVE_YASM
03026     else if (bit_depth == 10 && CONFIG_H264QPEL) {
03027         H264_QPEL_FUNCS_10(1, 0, ssse3_cache64);
03028         H264_QPEL_FUNCS_10(2, 0, ssse3_cache64);
03029         H264_QPEL_FUNCS_10(3, 0, ssse3_cache64);
03030     }
03031     if (!high_bit_depth && CONFIG_H264CHROMA) {
03032         c->put_h264_chroma_pixels_tab[0] = ff_put_h264_chroma_mc8_ssse3_rnd;
03033         c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_ssse3_rnd;
03034         c->put_h264_chroma_pixels_tab[1] = ff_put_h264_chroma_mc4_ssse3;
03035         c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_ssse3;
03036     }
03037     c->add_hfyu_left_prediction = ff_add_hfyu_left_prediction_ssse3;
03038     if (mm_flags & AV_CPU_FLAG_SSE4) // not really sse4, just slow on Conroe
03039         c->add_hfyu_left_prediction = ff_add_hfyu_left_prediction_sse4;
03040 
03041     if (mm_flags & AV_CPU_FLAG_ATOM)
03042         c->apply_window_int16 = ff_apply_window_int16_ssse3_atom;
03043     else
03044         c->apply_window_int16 = ff_apply_window_int16_ssse3;
03045     if (!(mm_flags & (AV_CPU_FLAG_SSE42|AV_CPU_FLAG_3DNOW))) // cachesplit
03046         c->scalarproduct_and_madd_int16 = ff_scalarproduct_and_madd_int16_ssse3;
03047     c->bswap_buf = ff_bswap32_buf_ssse3;
03048 #endif
03049 #endif
03050 }
03051 
03052 static void dsputil_init_sse4(DSPContext *c, AVCodecContext *avctx,
03053                               int mm_flags)
03054 {
03055 #if HAVE_YASM
03056     c->vector_clip_int32 = ff_vector_clip_int32_sse4;
03057 #endif
03058 }
03059 
03060 static void dsputil_init_avx(DSPContext *c, AVCodecContext *avctx, int mm_flags)
03061 {
03062 #if HAVE_AVX && HAVE_YASM
03063     const int bit_depth = avctx->bits_per_raw_sample;
03064 
03065     if (bit_depth == 10) {
03066         // AVX implies !cache64.
03067         // TODO: Port cache(32|64) detection from x264.
03068         if (CONFIG_H264QPEL) {
03069             H264_QPEL_FUNCS_10(1, 0, sse2);
03070             H264_QPEL_FUNCS_10(2, 0, sse2);
03071             H264_QPEL_FUNCS_10(3, 0, sse2);
03072         }
03073 
03074         if (CONFIG_H264CHROMA) {
03075             c->put_h264_chroma_pixels_tab[0] = ff_put_h264_chroma_mc8_10_avx;
03076             c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_10_avx;
03077         }
03078     }
03079     c->butterflies_float_interleave = ff_butterflies_float_interleave_avx;
03080     c->vector_fmul = ff_vector_fmul_avx;
03081     c->vector_fmul_reverse = ff_vector_fmul_reverse_avx;
03082     c->vector_fmul_add = ff_vector_fmul_add_avx;
03083 #endif
03084 }
03085 
03086 void ff_dsputil_init_mmx(DSPContext *c, AVCodecContext *avctx)
03087 {
03088     int mm_flags = av_get_cpu_flags();
03089 
03090 #if 0
03091     av_log(avctx, AV_LOG_INFO, "libavcodec: CPU flags:");
03092     if (mm_flags & AV_CPU_FLAG_MMX)
03093         av_log(avctx, AV_LOG_INFO, " mmx");
03094     if (mm_flags & AV_CPU_FLAG_MMX2)
03095         av_log(avctx, AV_LOG_INFO, " mmx2");
03096     if (mm_flags & AV_CPU_FLAG_3DNOW)
03097         av_log(avctx, AV_LOG_INFO, " 3dnow");
03098     if (mm_flags & AV_CPU_FLAG_SSE)
03099         av_log(avctx, AV_LOG_INFO, " sse");
03100     if (mm_flags & AV_CPU_FLAG_SSE2)
03101         av_log(avctx, AV_LOG_INFO, " sse2");
03102     av_log(avctx, AV_LOG_INFO, "\n");
03103 #endif
03104 
03105     if (mm_flags & AV_CPU_FLAG_MMX) {
03106         const int idct_algo = avctx->idct_algo;
03107 
03108         if (avctx->lowres == 0 && avctx->bits_per_raw_sample <= 8) {
03109             if (idct_algo == FF_IDCT_AUTO || idct_algo == FF_IDCT_SIMPLEMMX) {
03110                 c->idct_put              = ff_simple_idct_put_mmx;
03111                 c->idct_add              = ff_simple_idct_add_mmx;
03112                 c->idct                  = ff_simple_idct_mmx;
03113                 c->idct_permutation_type = FF_SIMPLE_IDCT_PERM;
03114 #if CONFIG_GPL
03115             } else if (idct_algo == FF_IDCT_LIBMPEG2MMX) {
03116                 if (mm_flags & AV_CPU_FLAG_MMX2) {
03117                     c->idct_put = ff_libmpeg2mmx2_idct_put;
03118                     c->idct_add = ff_libmpeg2mmx2_idct_add;
03119                     c->idct     = ff_mmxext_idct;
03120                 } else {
03121                     c->idct_put = ff_libmpeg2mmx_idct_put;
03122                     c->idct_add = ff_libmpeg2mmx_idct_add;
03123                     c->idct     = ff_mmx_idct;
03124                 }
03125                 c->idct_permutation_type = FF_LIBMPEG2_IDCT_PERM;
03126 #endif
03127             } else if ((CONFIG_VP3_DECODER || CONFIG_VP5_DECODER ||
03128                         CONFIG_VP6_DECODER) &&
03129                        idct_algo == FF_IDCT_VP3 && HAVE_YASM) {
03130                 if (mm_flags & AV_CPU_FLAG_SSE2) {
03131                     c->idct_put              = ff_vp3_idct_put_sse2;
03132                     c->idct_add              = ff_vp3_idct_add_sse2;
03133                     c->idct                  = ff_vp3_idct_sse2;
03134                     c->idct_permutation_type = FF_TRANSPOSE_IDCT_PERM;
03135                 } else {
03136                     c->idct_put              = ff_vp3_idct_put_mmx;
03137                     c->idct_add              = ff_vp3_idct_add_mmx;
03138                     c->idct                  = ff_vp3_idct_mmx;
03139                     c->idct_permutation_type = FF_PARTTRANS_IDCT_PERM;
03140                 }
03141             } else if (idct_algo == FF_IDCT_CAVS) {
03142                     c->idct_permutation_type = FF_TRANSPOSE_IDCT_PERM;
03143             } else if (idct_algo == FF_IDCT_XVIDMMX) {
03144                 if (mm_flags & AV_CPU_FLAG_SSE2) {
03145                     c->idct_put              = ff_idct_xvid_sse2_put;
03146                     c->idct_add              = ff_idct_xvid_sse2_add;
03147                     c->idct                  = ff_idct_xvid_sse2;
03148                     c->idct_permutation_type = FF_SSE2_IDCT_PERM;
03149                 } else if (mm_flags & AV_CPU_FLAG_MMX2) {
03150                     c->idct_put              = ff_idct_xvid_mmx2_put;
03151                     c->idct_add              = ff_idct_xvid_mmx2_add;
03152                     c->idct                  = ff_idct_xvid_mmx2;
03153                 } else {
03154                     c->idct_put              = ff_idct_xvid_mmx_put;
03155                     c->idct_add              = ff_idct_xvid_mmx_add;
03156                     c->idct                  = ff_idct_xvid_mmx;
03157                 }
03158             }
03159         }
03160 
03161         dsputil_init_mmx(c, avctx, mm_flags);
03162     }
03163 
03164     if (mm_flags & AV_CPU_FLAG_MMX2)
03165         dsputil_init_mmx2(c, avctx, mm_flags);
03166 
03167     if (mm_flags & AV_CPU_FLAG_3DNOW && HAVE_AMD3DNOW)
03168         dsputil_init_3dnow(c, avctx, mm_flags);
03169 
03170     if (mm_flags & AV_CPU_FLAG_3DNOWEXT && HAVE_AMD3DNOWEXT)
03171         dsputil_init_3dnow2(c, avctx, mm_flags);
03172 
03173     if (mm_flags & AV_CPU_FLAG_SSE && HAVE_SSE)
03174         dsputil_init_sse(c, avctx, mm_flags);
03175 
03176     if (mm_flags & AV_CPU_FLAG_SSE2)
03177         dsputil_init_sse2(c, avctx, mm_flags);
03178 
03179     if (mm_flags & AV_CPU_FLAG_SSSE3)
03180         dsputil_init_ssse3(c, avctx, mm_flags);
03181 
03182     if (mm_flags & AV_CPU_FLAG_SSE4 && HAVE_SSE)
03183         dsputil_init_sse4(c, avctx, mm_flags);
03184 
03185     if (mm_flags & AV_CPU_FLAG_AVX)
03186         dsputil_init_avx(c, avctx, mm_flags);
03187 
03188     if (CONFIG_ENCODERS)
03189         ff_dsputilenc_init_mmx(c, avctx);
03190 }
libavcodec/x86/dsputil_mmx.c