51static FUNC_PREFIX void streamcollidesweepleesedwardssingleprecisionavx_streamcollidesweepleesedwardssingleprecisionavx(
float *
RESTRICT const _data_force,
float *
RESTRICT const _data_pdfs,
float *
RESTRICT _data_pdfs_tmp,
int64_t const _size_force_0,
int64_t const _size_force_1,
int64_t const _size_force_2,
int64_t const _stride_force_1,
int64_t const _stride_force_2,
int64_t const _stride_force_3,
int64_t const _stride_pdfs_1,
int64_t const _stride_pdfs_2,
int64_t const _stride_pdfs_3,
int64_t const _stride_pdfs_tmp_1,
int64_t const _stride_pdfs_tmp_2,
int64_t const _stride_pdfs_tmp_3,
int64_t lebc_bot_index,
int64_t lebc_top_index,
float omega_bulk,
float omega_even,
float omega_odd,
float omega_shear,
float v_s) {
56 const float xi_20 = omega_bulk * 0.5f;
57 const float xi_47 = omega_shear * 0.041666666666666664f;
58 const float xi_51 = omega_bulk * 0.041666666666666664f;
59 const float xi_62 = omega_shear * 0.125f;
60 const float xi_127 = omega_odd * 0.25f;
61 const float xi_132 = omega_odd * 0.083333333333333329f;
62 const float xi_158 = omega_shear * 0.25f;
63 const float xi_173 = omega_odd * 0.041666666666666664f;
64 const float xi_175 = omega_odd * 0.125f;
65 const float rr_0 = 0.0f;
66 const float xi_45 =
rr_0 * 0.041666666666666664f;
68#pragma omp for schedule(static)
98 const __m256 xi_104 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0])),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1])));
101 const __m256 xi_109 =
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1])));
114 const __m256 xi_130 =
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1])),
_mm256_mul_ps(
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1])));
115 const __m256 xi_131 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_mul_ps(
xi_129,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0]))),
xi_125),
xi_128),
xi_130),
xi_5);
120 const __m256 xi_146 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1])),
xi_145),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1])),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1]));
122 const __m256 xi_148 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_mul_ps(
xi_129,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_130,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_145,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_147,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_7,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
126 const __m256 xi_153 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_116,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_152,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0])));
127 const __m256 xi_154 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_107,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_108,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_109),
xi_117),
xi_152),
xi_6);
156 const __m256 u_0 =
_mm256_add_ps(
_mm256_mul_ps(
xi_0,
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_11,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_8,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
vel0Term)),
_mm256_mul_ps(
xi_10,
_mm256_load_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 +
ctr_0])));
158 const __m256 xi_28 =
_mm256_mul_ps(
xi_17,
_mm256_set_ps(0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f));
160 const __m256 xi_30 =
_mm256_mul_ps(
xi_17,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f));
163 const __m256 xi_49 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_46,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_34),
xi_48);
167 const __m256 xi_68 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_34,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_46),
xi_48);
168 const __m256 xi_75 =
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
u_0,
_mm256_set_ps(-0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear)),
_mm256_load_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 +
ctr_0]));
173 const __m256 u_1 =
_mm256_add_ps(
_mm256_mul_ps(
xi_0,
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_12,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_13,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_9,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
vel1Term)),
_mm256_mul_ps(
xi_10,
_mm256_loadu_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 + _stride_force_3 +
ctr_0])));
175 const __m256 xi_26 =
_mm256_mul_ps(
xi_18,
_mm256_set_ps(0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f));
176 const __m256 xi_36 =
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
u_1,
_mm256_set_ps(-0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear)),
_mm256_loadu_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 + _stride_force_3 +
ctr_0]));
178 const __m256 xi_43 =
_mm256_mul_ps(
xi_18,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f));
184 const __m256 xi_67 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_64,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_66,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_59),
xi_61);
185 const __m256 xi_69 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_59,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_61,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_64),
xi_66);
191 const __m256 xi_159 =
_mm256_mul_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_mul_ps(
u_0,
xi_157)),
xi_12),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_set_ps(
xi_158,
xi_158,
xi_158,
xi_158,
xi_158,
xi_158,
xi_158,
xi_158));
193 const __m256 u_2 =
_mm256_add_ps(
_mm256_mul_ps(
xi_0,
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_14,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_15,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_16,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1]))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0]))),
vel2Term)),
_mm256_mul_ps(
xi_10,
_mm256_loadu_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 + 2 * _stride_force_3 +
ctr_0])));
195 const __m256 xi_24 =
_mm256_mul_ps(
xi_19,
_mm256_set_ps(0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f));
197 const __m256 xi_27 =
_mm256_mul_ps(
xi_19,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f));
198 const __m256 xi_32 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_18,
_mm256_set_ps(0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f)),
_mm256_mul_ps(
xi_27,
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear))),
_mm256_mul_ps(
_mm256_mul_ps(
xi_26,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear))),
xi_25),
xi_31);
199 const __m256 xi_37 =
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
u_2,
_mm256_set_ps(-0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear)),
_mm256_loadu_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 + 2 * _stride_force_3 +
ctr_0]));
200 const __m256 xi_38 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_28,
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear)),
_mm256_mul_ps(
_mm256_mul_ps(
u_0,
_mm256_set_ps(-0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f)),
_mm256_load_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 +
ctr_0]))),
xi_24),
xi_26),
xi_36),
xi_37);
201 const __m256 xi_44 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_19,
_mm256_set_ps(0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f)),
_mm256_mul_ps(
xi_43,
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear))),
_mm256_mul_ps(
_mm256_mul_ps(
xi_24,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear))),
xi_31),
xi_42);
203 const __m256 xi_55 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_18,
_mm256_set_ps(
xi_47,
xi_47,
xi_47,
xi_47,
xi_47,
xi_47,
xi_47,
xi_47)),
xi_42),
xi_52),
xi_53),
xi_54);
204 const __m256 xi_56 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_22,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_50),
xi_55);
206 const __m256 xi_70 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_50,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_22),
xi_55);
209 const __m256 xi_74 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_40,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_72),
xi_73);
213 const __m256 xi_81 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_77,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_78,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_79),
xi_80);
215 const __m256 xi_83 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_79,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_80,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_77),
xi_78);
220 const __m256 xi_91 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_89,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_90,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_86),
xi_88);
221 const __m256 xi_92 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_86,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_88,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_89),
xi_90);
222 const __m256 xi_93 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_72,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_40),
xi_73);
225 const __m256 xi_99 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0])),
_mm256_mul_ps(
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
xi_98,
_mm256_set_ps(0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f))),
xi_97);
226 const __m256 xi_100 =
_mm256_mul_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0])),
_mm256_mul_ps(
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
xi_95,
_mm256_set_ps(0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f))),
_mm256_mul_ps(
_mm256_set_ps(-3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_mul_ps(
rho,
xi_96),
_mm256_set_ps(1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f))),
xi_99),
_mm256_set_ps(omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even));
227 const __m256 xi_103 =
_mm256_mul_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_101,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_102,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_13,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_16,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_5,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_97,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
rho,
xi_96)),
xi_98),
_mm256_set_ps(omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk));
228 const __m256 xi_105 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_95,
_mm256_set_ps(2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f)),
_mm256_mul_ps(
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 14 * _stride_pdfs_3 +
ctr_0 - 1]))),
_mm256_mul_ps(
_mm256_set_ps(-5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1]))),
xi_104),
xi_99);
230 const __m256 xi_110 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_98,
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f)),
_mm256_mul_ps(
_mm256_set_ps(5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1]))),
_mm256_mul_ps(
_mm256_set_ps(-7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1]))),
xi_104),
xi_107),
xi_108),
xi_109),
xi_97);
232 const __m256 xi_112 =
_mm256_mul_ps(
xi_111,
_mm256_set_ps(0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f));
234 const __m256 xi_119 =
_mm256_mul_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_101,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_114,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_115,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_118,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_15,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_2,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_4,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0]))),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear));
237 const __m256 xi_135 =
_mm256_mul_ps(
xi_100,
_mm256_set_ps(0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f));
238 const __m256 xi_136 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0])),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
xi_102,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_113,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_118,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_124,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_95,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1]))),
_mm256_mul_ps(
_mm256_mul_ps(
rho,
xi_96),
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f)));
240 const __m256 xi_138 =
_mm256_mul_ps(
xi_137,
_mm256_set_ps(0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f));
245 const __m256 xi_143 =
_mm256_mul_ps(
xi_106,
_mm256_set_ps(0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f));
246 const __m256 xi_151 =
_mm256_mul_ps(
xi_106,
_mm256_set_ps(0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f));
248 const __m256 xi_163 =
_mm256_mul_ps(
xi_111,
_mm256_set_ps(0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f));
249 const __m256 xi_164 =
_mm256_mul_ps(
xi_103,
_mm256_set_ps(0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f));
252 const __m256 xi_167 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_133,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_162),
xi_163),
xi_165);
253 const __m256 xi_168 =
_mm256_mul_ps(
xi_111,
_mm256_set_ps(-0.003968253968253968f, -0.003968253968253968f, -0.003968253968253968f, -0.003968253968253968f, -0.003968253968253968f, -0.003968253968253968f, -0.003968253968253968f, -0.003968253968253968f));
254 const __m256 xi_169 =
_mm256_mul_ps(
xi_106,
_mm256_set_ps(-0.0071428571428571426f, -0.0071428571428571426f, -0.0071428571428571426f, -0.0071428571428571426f, -0.0071428571428571426f, -0.0071428571428571426f, -0.0071428571428571426f, -0.0071428571428571426f));
255 const __m256 xi_170 =
_mm256_mul_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
u_2,
xi_157),
xi_123),
xi_128),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0])),
_mm256_set_ps(
xi_158,
xi_158,
xi_158,
xi_158,
xi_158,
xi_158,
xi_158,
xi_158));
256 const __m256 xi_171 =
_mm256_mul_ps(
xi_100,
_mm256_set_ps(0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f));
258 const __m256 xi_182 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_170,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_141),
xi_164),
xi_168),
xi_169),
xi_171);
259 const __m256 xi_183 =
_mm256_mul_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_mul_ps(
rho,
u_0),
u_2),
xi_114),
xi_144),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1])),
_mm256_set_ps(
xi_158,
xi_158,
xi_158,
xi_158,
xi_158,
xi_158,
xi_158,
xi_158));
262 const __m256 xi_186 =
_mm256_mul_ps(
xi_106,
_mm256_set_ps(0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f));
264 const __m256 xi_193 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_155,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_165),
xi_168),
xi_185),
xi_186);
265 const __m256 forceTerm_0 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_17,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_18,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_19,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_17,
_mm256_set_ps(
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20))),
_mm256_mul_ps(
xi_18,
_mm256_set_ps(
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20))),
_mm256_mul_ps(
xi_19,
_mm256_set_ps(
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20)));
266 const __m256 forceTerm_1 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_23,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_21),
xi_32);
267 const __m256 forceTerm_2 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_21,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_23),
xi_32);
268 const __m256 forceTerm_3 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_33,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_38,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_35);
269 const __m256 forceTerm_4 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_35,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_38,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_33);
270 const __m256 forceTerm_5 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_41,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_39),
xi_44);
271 const __m256 forceTerm_6 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_39,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_41),
xi_44);
272 const __m256 forceTerm_7 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_49,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_57,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_67,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
273 const __m256 forceTerm_8 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_57,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_68,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_69,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
274 const __m256 forceTerm_9 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_49,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_69,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_71,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
275 const __m256 forceTerm_10 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_67,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_68,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_71,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
276 const __m256 forceTerm_11 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_74,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_76,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_81,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
277 const __m256 forceTerm_12 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_74,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_82,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_83,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
278 const __m256 forceTerm_13 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_49,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_84,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_91,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
279 const __m256 forceTerm_14 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_68,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_84,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_92,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
280 const __m256 forceTerm_15 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_76,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_83,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_93,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
281 const __m256 forceTerm_16 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_81,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_82,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_93,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
282 const __m256 forceTerm_17 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_49,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_92,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_94,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
283 const __m256 forceTerm_18 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_68,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_91,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_94,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
284 _mm256_store_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_111,
_mm256_set_ps(0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f)),
_mm256_mul_ps(
xi_106,
_mm256_set_ps(0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f))),
_mm256_mul_ps(
xi_100,
_mm256_set_ps(0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f))),
_mm256_mul_ps(
xi_103,
_mm256_set_ps(-0.5f, -0.5f, -0.5f, -0.5f, -0.5f, -0.5f, -0.5f, -0.5f))),
forceTerm_0),
_mm256_load_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 +
ctr_0])));
285 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_112,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_113,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_121,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_134,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_139,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_mul_ps(
xi_105,
_mm256_set_ps(0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f)),
_mm256_set_ps(omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even))),
_mm256_blendv_ps(
_mm256_set_ps(0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f),
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
rho,
_mm256_add_ps(
_mm256_mul_ps(
u_0,
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f)),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s))),
_mm256_set_ps(0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f)),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s)),
_mm256_cmp_ps(
_mm256_set_ps(((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1))),
_mm256_add_ps(
_mm256_set_ps(-0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f),
_mm256_set_ps(((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)))),
_CMP_GE_OQ))),
forceTerm_1));
286 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 2 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_106,
_mm256_set_ps(0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f)),
_mm256_blendv_ps(
_mm256_set_ps(0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f),
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
rho,
_mm256_add_ps(
_mm256_mul_ps(
u_0,
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f)),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s))),
_mm256_set_ps(0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f)),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s)),
_mm256_cmp_ps(
_mm256_set_ps(((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1))),
_mm256_add_ps(
_mm256_set_ps(1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f),
_mm256_set_ps(((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)))),
_CMP_LE_OQ))),
forceTerm_2),
xi_120),
xi_134),
xi_140),
xi_142),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0])));
287 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 3 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_137,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f)),
_mm256_mul_ps(
xi_143,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
forceTerm_3),
xi_140),
xi_150),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1])));
288 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 4 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_112,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_143,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_147,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_150,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_mul_ps(
xi_136,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear))),
forceTerm_4));
289 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 5 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_116,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_120,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_139,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_151,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_156,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_mul_ps(
xi_110,
_mm256_set_ps(0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f)),
_mm256_set_ps(omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even))),
forceTerm_5));
290 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 6 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_111,
_mm256_set_ps(0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f)),
_mm256_mul_ps(
xi_151,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
forceTerm_6),
xi_121),
xi_142),
xi_156),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0])));
291 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 7 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_blendv_ps(
_mm256_set_ps(0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f),
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
rho,
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s)),
_mm256_mul_ps(
u_1,
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f))),
_mm256_mul_ps(
u_0,
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f))),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f))),
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f)),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s)),
_mm256_cmp_ps(
_mm256_set_ps(((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1))),
_mm256_add_ps(
_mm256_set_ps(-0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f),
_mm256_set_ps(((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)))),
_CMP_GE_OQ)),
forceTerm_7),
xi_160),
xi_161),
xi_166),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1])));
292 _mm256_store_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 8 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_blendv_ps(
_mm256_set_ps(0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f),
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
rho,
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s)),
_mm256_mul_ps(
u_0,
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f))),
_mm256_mul_ps(
u_1,
_mm256_set_ps(-3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f))),
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f)),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s)),
_mm256_cmp_ps(
_mm256_set_ps(((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1))),
_mm256_add_ps(
_mm256_set_ps(-0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f, -0.10000000000000001f),
_mm256_set_ps(((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)), ((
float)(lebc_top_index)))),
_CMP_GE_OQ)),
forceTerm_8),
xi_149),
xi_159),
xi_166),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1])));
293 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 9 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_blendv_ps(
_mm256_set_ps(0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f),
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
rho,
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s)),
_mm256_mul_ps(
u_0,
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f))),
_mm256_mul_ps(
u_1,
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f))),
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f)),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s)),
_mm256_cmp_ps(
_mm256_set_ps(((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1))),
_mm256_add_ps(
_mm256_set_ps(1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f),
_mm256_set_ps(((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)))),
_CMP_LE_OQ)),
forceTerm_9),
xi_159),
xi_161),
xi_167),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1])));
294 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 10 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_blendv_ps(
_mm256_set_ps(0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f, 0.0f),
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
rho,
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s)),
_mm256_mul_ps(
u_0,
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f))),
_mm256_mul_ps(
u_1,
_mm256_set_ps(-3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f))),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f))),
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f)),
_mm256_set_ps(
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s,
v_s)),
_mm256_cmp_ps(
_mm256_set_ps(((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1)), ((
float)(
ctr_1))),
_mm256_add_ps(
_mm256_set_ps(1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f, 1.1000000000000001f),
_mm256_set_ps(((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)), ((
float)(lebc_bot_index)))),
_CMP_LE_OQ)),
forceTerm_10),
xi_149),
xi_160),
xi_167),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1])));
305 const float xi_2 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1];
306 const float xi_3 =
xi_2 + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 14 * _stride_pdfs_3 +
ctr_0 - 1];
307 const float xi_4 = _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0];
308 const float xi_5 = _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0] + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0];
309 const float xi_6 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0];
310 const float xi_7 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1];
311 const float xi_8 =
xi_7 + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1];
312 const float xi_9 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0];
313 const float xi_11 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1];
314 const float xi_12 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1] - _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1];
315 const float xi_13 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0];
316 const float xi_14 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0];
317 const float xi_15 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 14 * _stride_pdfs_3 +
ctr_0 - 1];
318 const float xi_16 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1];
329 const float xi_104 = 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0] + 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1] + 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1];
330 const float xi_107 = 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1];
331 const float xi_108 = 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 14 * _stride_pdfs_3 +
ctr_0 - 1];
332 const float xi_109 = 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1];
333 const float xi_113 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0];
334 const float xi_114 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1];
335 const float xi_115 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1];
336 const float xi_116 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0];
337 const float xi_117 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0];
338 const float xi_122 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0];
339 const float xi_123 =
xi_14 + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0];
340 const float xi_124 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0];
341 const float xi_125 =
xi_124 + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0];
343 const float xi_128 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0];
344 const float xi_129 = 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1];
345 const float xi_130 = -2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1];
349 const float xi_144 =
xi_15 + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1];
351 const float xi_146 =
xi_145 - _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1];
352 const float xi_147 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1];
356 const float xi_152 =
xi_122 +
xi_128 + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0];
357 const float xi_153 = -
xi_116 -
xi_152 - _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0] - _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0];
382 const float vel2Term =
xi_6 + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1];
385 const float xi_0 = ((1.0f) / (
rho));
389 const float xi_28 =
xi_17 * 0.16666666666666666f;
391 const float xi_30 =
xi_17 * 0.083333333333333329f;
406 const float xi_26 =
xi_18 * 0.16666666666666666f;
409 const float xi_43 =
xi_18 * 0.083333333333333329f;
422 const float xi_159 =
xi_158 * (
u_0 *
xi_157 +
xi_12 - _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1]);
426 const float xi_24 =
xi_19 * 0.16666666666666666f;
428 const float xi_27 =
xi_19 * 0.083333333333333329f;
456 const float xi_99 =
xi_97 +
xi_98 * 0.66666666666666663f + 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0] + 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0];
457 const float xi_100 = omega_even * (
rho *
xi_96 * 1.6666666666666667f +
xi_95 * 0.66666666666666663f +
xi_99 - 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0] - 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0] - 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0] - 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0] + 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0] + 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0]);
459 const float xi_105 =
xi_104 +
xi_95 * 2.3333333333333335f +
xi_99 - 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0] - 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0] - 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1] - 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1] - 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1] - 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 14 * _stride_pdfs_3 +
ctr_0 - 1];
461 const float xi_110 =
xi_104 +
xi_107 +
xi_108 +
xi_109 +
xi_97 +
xi_98 * 3.0f - 4.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0] - 4.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0] - 7.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1] - 7.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1] - 7.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1] - 7.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1] + 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0] + 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0];
469 const float xi_136 =
rho *
xi_96 * 2.0f -
xi_102 -
xi_113 -
xi_118 -
xi_124 -
xi_95 - 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1] - 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0] - _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1];
522 _data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 7 * _stride_pdfs_tmp_3 +
ctr_0] =
forceTerm_7 +
xi_160 +
xi_161 +
xi_166 + ((((
float)(
ctr_1)) >= -0.10000000000000001f + ((
float)(lebc_top_index))) ? (
rho *
v_s * (
u_0 * -2.0f +
u_1 * 3.0f -
v_s + 1.0f) * 0.083333333333333329f) : (0.0f)) + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1];
523 _data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 8 * _stride_pdfs_tmp_3 +
ctr_0] =
forceTerm_8 +
xi_149 +
xi_159 +
xi_166 + ((((
float)(
ctr_1)) >= -0.10000000000000001f + ((
float)(lebc_top_index))) ? (
rho *
v_s * (
u_0 * -2.0f +
u_1 * -3.0f -
v_s - 1.0f) * 0.083333333333333329f) : (0.0f)) + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1];
524 _data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 9 * _stride_pdfs_tmp_3 +
ctr_0] =
forceTerm_9 +
xi_159 +
xi_161 +
xi_167 + ((((
float)(
ctr_1)) <= 1.1000000000000001f + ((
float)(lebc_bot_index))) ? (
rho *
v_s * (
u_0 * 2.0f +
u_1 * 3.0f -
v_s - 1.0f) * 0.083333333333333329f) : (0.0f)) + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1];
525 _data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 10 * _stride_pdfs_tmp_3 +
ctr_0] =
forceTerm_10 +
xi_149 +
xi_160 +
xi_167 + ((((
float)(
ctr_1)) <= 1.1000000000000001f + ((
float)(lebc_bot_index))) ? (
rho *
v_s * (
u_0 * 2.0f +
u_1 * -3.0f -
v_s + 1.0f) * 0.083333333333333329f) : (0.0f)) + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1];