53static FUNC_PREFIX void streamcollidesweepthermalizedsingleprecisionavx_streamcollidesweepthermalizedsingleprecisionavx(
float *
RESTRICT const _data_force,
float *
RESTRICT const _data_pdfs,
float *
RESTRICT _data_pdfs_tmp,
int64_t const _size_force_0,
int64_t const _size_force_1,
int64_t const _size_force_2,
int64_t const _stride_force_1,
int64_t const _stride_force_2,
int64_t const _stride_force_3,
int64_t const _stride_pdfs_1,
int64_t const _stride_pdfs_2,
int64_t const _stride_pdfs_3,
int64_t const _stride_pdfs_tmp_1,
int64_t const _stride_pdfs_tmp_2,
int64_t const _stride_pdfs_tmp_3,
uint32_t block_offset_0,
uint32_t block_offset_1,
uint32_t block_offset_2,
float kT,
float omega_bulk,
float omega_even,
float omega_odd,
float omega_shear,
uint32_t seed,
uint32_t time_step) {
58 const float xi_20 = omega_bulk * 0.5f;
59 const float xi_47 = omega_shear * 0.041666666666666664f;
60 const float xi_51 = omega_bulk * 0.041666666666666664f;
61 const float xi_62 = omega_shear * 0.125f;
62 const float xi_97 = 3.7416573867739413f;
63 const float xi_100 = 5.4772255750516612f;
64 const float xi_104 = 2.4494897427831779f;
65 const float xi_107 = 8.3666002653407556f;
66 const float xi_150 = omega_odd * 0.25f;
67 const float xi_160 = omega_odd * 0.083333333333333329f;
68 const float xi_173 = 1.7320508075688772f;
69 const float xi_217 = omega_shear * 0.25f;
70 const float xi_223 = omega_odd * 0.041666666666666664f;
71 const float xi_226 = omega_odd * 0.125f;
72 const float rr_0 = 0.0f;
73 const float xi_45 =
rr_0 * 0.041666666666666664f;
75#pragma omp for schedule(static)
87 philox_float4(time_step,
_mm256_add_epi32(
_mm256_add_epi32(
_mm256_set_epi32(7, 6, 5, 4, 3, 2, 1, 0),
_mm256_set_epi32(
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0)),
_mm256_set_epi32(((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)))), block_offset_1 +
ctr_1, block_offset_2 +
ctr_2, 3, seed,
random_3_0,
random_3_1,
random_3_2,
random_3_3);
95 philox_float4(time_step,
_mm256_add_epi32(
_mm256_add_epi32(
_mm256_set_epi32(7, 6, 5, 4, 3, 2, 1, 0),
_mm256_set_epi32(
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0)),
_mm256_set_epi32(((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)))), block_offset_1 +
ctr_1, block_offset_2 +
ctr_2, 2, seed,
random_2_0,
random_2_1,
random_2_2,
random_2_3);
103 philox_float4(time_step,
_mm256_add_epi32(
_mm256_add_epi32(
_mm256_set_epi32(7, 6, 5, 4, 3, 2, 1, 0),
_mm256_set_epi32(
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0)),
_mm256_set_epi32(((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)))), block_offset_1 +
ctr_1, block_offset_2 +
ctr_2, 1, seed,
random_1_0,
random_1_1,
random_1_2,
random_1_3);
111 philox_float4(time_step,
_mm256_add_epi32(
_mm256_add_epi32(
_mm256_set_epi32(7, 6, 5, 4, 3, 2, 1, 0),
_mm256_set_epi32(
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0,
ctr_0)),
_mm256_set_epi32(((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)), ((
int64_t)(block_offset_0)))), block_offset_1 +
ctr_1, block_offset_2 +
ctr_2, 0, seed,
random_0_0,
random_0_1,
random_0_2,
random_0_3);
141 const __m256 xi_121 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0])),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1])));
144 const __m256 xi_126 =
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1])));
160 const __m256 xi_158 =
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1])),
_mm256_mul_ps(
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1])));
161 const __m256 xi_159 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_mul_ps(
xi_157,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_148),
xi_155),
xi_156),
xi_158),
xi_5);
167 const __m256 xi_187 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1])),
xi_186),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1])),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1]));
170 const __m256 xi_190 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_mul_ps(
xi_157,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_158,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_186,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_189,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_7,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
174 const __m256 xi_199 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_139,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_198,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0])));
176 const __m256 xi_201 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_124,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_125,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_126),
xi_140),
xi_198),
xi_6);
197 const __m256 xi_96 =
_mm256_sqrt_ps(
_mm256_mul_ps(
xi_95,
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_mul_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even)),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f)),
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even)),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f)))),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f))));
200 const __m256 xi_105 =
_mm256_sqrt_ps(
_mm256_mul_ps(
xi_95,
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_mul_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk)),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f)),
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk)),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f)))),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f))));
203 const __m256 xi_131 =
_mm256_mul_ps(
xi_99,
_mm256_set_ps(0.11904761904761904f, 0.11904761904761904f, 0.11904761904761904f, 0.11904761904761904f, 0.11904761904761904f, 0.11904761904761904f, 0.11904761904761904f, 0.11904761904761904f));
204 const __m256 xi_134 =
_mm256_sqrt_ps(
_mm256_mul_ps(
xi_95,
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_mul_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear)),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f)),
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear)),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f)))),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f))));
207 const __m256 xi_152 =
_mm256_sqrt_ps(
_mm256_mul_ps(
xi_95,
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_mul_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(omega_odd, omega_odd, omega_odd, omega_odd, omega_odd, omega_odd, omega_odd, omega_odd)),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f)),
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_set_ps(omega_odd, omega_odd, omega_odd, omega_odd, omega_odd, omega_odd, omega_odd, omega_odd)),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f)))),
_mm256_set_ps(1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f, 1.0f))));
208 const __m256 xi_153 =
_mm256_mul_ps(
xi_152,
_mm256_set_ps(1.4142135623730951f, 1.4142135623730951f, 1.4142135623730951f, 1.4142135623730951f, 1.4142135623730951f, 1.4142135623730951f, 1.4142135623730951f, 1.4142135623730951f));
211 const __m256 xi_164 =
_mm256_mul_ps(
xi_163,
_mm256_set_ps(0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f));
214 const __m256 xi_167 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_149,
_mm256_set_ps(
xi_150,
xi_150,
xi_150,
xi_150,
xi_150,
xi_150,
xi_150,
xi_150)),
_mm256_mul_ps(
xi_151,
xi_154)),
xi_166);
215 const __m256 xi_169 =
_mm256_mul_ps(
xi_102,
_mm256_set_ps(0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f));
217 const __m256 xi_176 =
_mm256_mul_ps(
xi_175,
_mm256_set_ps(0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f));
218 const __m256 xi_184 =
_mm256_mul_ps(
xi_109,
_mm256_set_ps(0.071428571428571425f, 0.071428571428571425f, 0.071428571428571425f, 0.071428571428571425f, 0.071428571428571425f, 0.071428571428571425f, 0.071428571428571425f, 0.071428571428571425f));
221 const __m256 xi_195 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_187,
_mm256_set_ps(
xi_150,
xi_150,
xi_150,
xi_150,
xi_150,
xi_150,
xi_150,
xi_150)),
_mm256_mul_ps(
xi_154,
xi_188)),
xi_194);
222 const __m256 xi_197 =
_mm256_mul_ps(
xi_109,
_mm256_set_ps(0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f));
225 const __m256 xi_206 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_199,
_mm256_set_ps(
xi_150,
xi_150,
xi_150,
xi_150,
xi_150,
xi_150,
xi_150,
xi_150)),
_mm256_mul_ps(
xi_154,
xi_200)),
xi_205);
227 const __m256 xi_210 =
_mm256_mul_ps(
xi_99,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f));
228 const __m256 xi_214 =
_mm256_add_ps(
_mm256_mul_ps(
xi_191,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_193,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
231 const __m256 xi_228 =
_mm256_mul_ps(
xi_163,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f));
237 const __m256 xi_237 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_233,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_235,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_234),
xi_236);
238 const __m256 xi_239 =
_mm256_mul_ps(
xi_109,
_mm256_set_ps(0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f));
239 const __m256 xi_241 =
_mm256_mul_ps(
xi_99,
_mm256_set_ps(0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f));
240 const __m256 xi_244 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_234,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_236,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_233),
xi_235);
242 const __m256 xi_249 =
_mm256_mul_ps(
xi_109,
_mm256_set_ps(0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f));
246 const __m256 xi_258 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_254,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_256,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_255),
xi_257);
247 const __m256 xi_260 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_255,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_257,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_254),
xi_256);
250 const __m256 u_0 =
_mm256_add_ps(
_mm256_mul_ps(
xi_0,
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_11,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_8,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
vel0Term)),
_mm256_mul_ps(
xi_10,
_mm256_load_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 +
ctr_0])));
252 const __m256 xi_28 =
_mm256_mul_ps(
xi_17,
_mm256_set_ps(0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f));
254 const __m256 xi_30 =
_mm256_mul_ps(
xi_17,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f));
257 const __m256 xi_49 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_46,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_34),
xi_48);
261 const __m256 xi_68 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_34,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_46),
xi_48);
262 const __m256 xi_75 =
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
u_0,
_mm256_set_ps(-0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear)),
_mm256_load_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 +
ctr_0]));
267 const __m256 u_1 =
_mm256_add_ps(
_mm256_mul_ps(
xi_0,
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_12,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_13,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_9,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
vel1Term)),
_mm256_mul_ps(
xi_10,
_mm256_loadu_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 + _stride_force_3 +
ctr_0])));
269 const __m256 xi_26 =
_mm256_mul_ps(
xi_18,
_mm256_set_ps(0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f));
270 const __m256 xi_36 =
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
u_1,
_mm256_set_ps(-0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear)),
_mm256_loadu_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 + _stride_force_3 +
ctr_0]));
272 const __m256 xi_43 =
_mm256_mul_ps(
xi_18,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f));
278 const __m256 xi_67 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_64,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_66,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_59),
xi_61);
279 const __m256 xi_69 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_59,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_61,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_64),
xi_66);
285 const __m256 xi_218 =
_mm256_mul_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_mul_ps(
u_0,
xi_216)),
xi_12),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_set_ps(
xi_217,
xi_217,
xi_217,
xi_217,
xi_217,
xi_217,
xi_217,
xi_217));
286 const __m256 xi_219 =
_mm256_add_ps(
_mm256_mul_ps(
xi_215,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_218,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
288 const __m256 u_2 =
_mm256_add_ps(
_mm256_mul_ps(
xi_0,
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_14,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_15,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_16,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1]))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0]))),
vel2Term)),
_mm256_mul_ps(
xi_10,
_mm256_loadu_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 + 2 * _stride_force_3 +
ctr_0])));
290 const __m256 xi_24 =
_mm256_mul_ps(
xi_19,
_mm256_set_ps(0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f, 0.16666666666666666f));
292 const __m256 xi_27 =
_mm256_mul_ps(
xi_19,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f));
293 const __m256 xi_32 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_18,
_mm256_set_ps(0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f)),
_mm256_mul_ps(
xi_27,
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear))),
_mm256_mul_ps(
_mm256_mul_ps(
xi_26,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear))),
xi_25),
xi_31);
294 const __m256 xi_37 =
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
u_2,
_mm256_set_ps(-0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear)),
_mm256_loadu_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 + 2 * _stride_force_3 +
ctr_0]));
295 const __m256 xi_38 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_28,
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear)),
_mm256_mul_ps(
_mm256_mul_ps(
u_0,
_mm256_set_ps(-0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f, -0.33333333333333331f)),
_mm256_load_ps(&
_data_force[_stride_force_1 *
ctr_1 + _stride_force_2 *
ctr_2 +
ctr_0]))),
xi_24),
xi_26),
xi_36),
xi_37);
296 const __m256 xi_44 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_19,
_mm256_set_ps(0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f)),
_mm256_mul_ps(
xi_43,
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear))),
_mm256_mul_ps(
_mm256_mul_ps(
xi_24,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear))),
xi_31),
xi_42);
298 const __m256 xi_55 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_18,
_mm256_set_ps(
xi_47,
xi_47,
xi_47,
xi_47,
xi_47,
xi_47,
xi_47,
xi_47)),
xi_42),
xi_52),
xi_53),
xi_54);
299 const __m256 xi_56 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_22,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_50),
xi_55);
301 const __m256 xi_70 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_50,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_22),
xi_55);
304 const __m256 xi_74 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_40,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_72),
xi_73);
308 const __m256 xi_81 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_77,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_78,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_79),
xi_80);
310 const __m256 xi_83 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_79,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_80,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_77),
xi_78);
315 const __m256 xi_91 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_89,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_90,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_86),
xi_88);
316 const __m256 xi_92 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_86,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_88,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_89),
xi_90);
317 const __m256 xi_93 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_72,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_40),
xi_73);
320 const __m256 xi_114 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0])),
_mm256_mul_ps(
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
xi_113,
_mm256_set_ps(0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f))),
xi_112);
321 const __m256 xi_115 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0])),
_mm256_mul_ps(
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
xi_110,
_mm256_set_ps(0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f, 0.66666666666666663f))),
_mm256_mul_ps(
_mm256_set_ps(-3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f, -3.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_mul_ps(
rho,
xi_111),
_mm256_set_ps(1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f, 1.6666666666666667f))),
xi_114);
323 const __m256 xi_119 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_112,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_117,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_118,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_13,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_16,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_5,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
rho,
xi_111)),
xi_113);
325 const __m256 xi_122 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_110,
_mm256_set_ps(2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f, 2.3333333333333335f)),
_mm256_mul_ps(
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 14 * _stride_pdfs_3 +
ctr_0 - 1]))),
_mm256_mul_ps(
_mm256_set_ps(-5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f, -5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1]))),
xi_114),
xi_121);
327 const __m256 xi_127 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_113,
_mm256_set_ps(3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f, 3.0f)),
_mm256_mul_ps(
_mm256_set_ps(5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f, 5.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f, -4.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(-7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1]))),
_mm256_mul_ps(
_mm256_set_ps(-7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f, -7.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1]))),
xi_112),
xi_121),
xi_124),
xi_125),
xi_126);
329 const __m256 xi_130 =
_mm256_mul_ps(
xi_128,
_mm256_set_ps(0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f, 0.01984126984126984f));
332 const __m256 xi_142 =
_mm256_mul_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_117,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_137,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_138,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_141,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_15,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_2,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_4,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0]))),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1])),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear));
334 const __m256 xi_144 =
_mm256_add_ps(
_mm256_mul_ps(
xi_136,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_143,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
335 const __m256 xi_168 =
_mm256_mul_ps(
xi_116,
_mm256_set_ps(0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f));
336 const __m256 xi_170 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0])),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0]))),
_mm256_mul_ps(
xi_110,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_118,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_129,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_141,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_147,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1]))),
_mm256_mul_ps(
_mm256_set_ps(-2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f, -2.0f),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1]))),
_mm256_mul_ps(
_mm256_mul_ps(
rho,
xi_111),
_mm256_set_ps(2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f, 2.0f)));
338 const __m256 xi_172 =
_mm256_mul_ps(
xi_171,
_mm256_set_ps(0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f));
341 const __m256 xi_179 =
_mm256_add_ps(
_mm256_mul_ps(
xi_130,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_131,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
343 const __m256 xi_181 =
_mm256_add_ps(
_mm256_mul_ps(
xi_172,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_176,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
344 const __m256 xi_182 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_168,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_169,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_181);
345 const __m256 xi_183 =
_mm256_mul_ps(
xi_123,
_mm256_set_ps(0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f, 0.035714285714285712f));
346 const __m256 xi_196 =
_mm256_mul_ps(
xi_123,
_mm256_set_ps(0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f, 0.021428571428571429f));
348 const __m256 xi_209 =
_mm256_mul_ps(
xi_128,
_mm256_set_ps(0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f, 0.013888888888888888f));
349 const __m256 xi_211 =
_mm256_add_ps(
_mm256_mul_ps(
xi_120,
_mm256_set_ps(0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f, 0.041666666666666664f)),
_mm256_mul_ps(
xi_106,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f)));
350 const __m256 xi_212 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_171,
_mm256_set_ps(0.020833333333333332f, 0.020833333333333332f, 0.020833333333333332f, 0.020833333333333332f, 0.020833333333333332f, 0.020833333333333332f, 0.020833333333333332f, 0.020833333333333332f)),
_mm256_mul_ps(
xi_175,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f))),
xi_211);
352 const __m256 xi_221 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_161,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_165,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_207),
xi_208),
xi_209),
xi_210),
xi_212);
353 const __m256 xi_225 =
_mm256_mul_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
u_2,
xi_216),
xi_146),
xi_155),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0])),
_mm256_set_ps(
xi_217,
xi_217,
xi_217,
xi_217,
xi_217,
xi_217,
xi_217,
xi_217));
354 const __m256 xi_232 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_224,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_229,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_222),
xi_225),
xi_227),
xi_231);
355 const __m256 xi_238 =
_mm256_mul_ps(
xi_123,
_mm256_set_ps(0.0071428571428571426f, 0.0071428571428571426f, 0.0071428571428571426f, 0.0071428571428571426f, 0.0071428571428571426f, 0.0071428571428571426f, 0.0071428571428571426f, 0.0071428571428571426f));
356 const __m256 xi_240 =
_mm256_mul_ps(
xi_128,
_mm256_set_ps(0.003968253968253968f, 0.003968253968253968f, 0.003968253968253968f, 0.003968253968253968f, 0.003968253968253968f, 0.003968253968253968f, 0.003968253968253968f, 0.003968253968253968f));
357 const __m256 xi_242 =
_mm256_add_ps(
_mm256_mul_ps(
xi_240,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_241,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
358 const __m256 xi_243 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_116,
_mm256_set_ps(0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f, 0.025000000000000001f)),
_mm256_mul_ps(
xi_102,
_mm256_set_ps(0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f, 0.050000000000000003f))),
_mm256_mul_ps(
xi_238,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_239,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_181),
xi_211),
xi_242);
359 const __m256 xi_245 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_mul_ps(
xi_115,
_mm256_set_ps(-0.025000000000000001f, -0.025000000000000001f, -0.025000000000000001f, -0.025000000000000001f, -0.025000000000000001f, -0.025000000000000001f, -0.025000000000000001f, -0.025000000000000001f)),
_mm256_set_ps(omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even)),
_mm256_mul_ps(
_mm256_mul_ps(
xi_119,
_mm256_set_ps(-0.041666666666666664f, -0.041666666666666664f, -0.041666666666666664f, -0.041666666666666664f, -0.041666666666666664f, -0.041666666666666664f, -0.041666666666666664f, -0.041666666666666664f)),
_mm256_set_ps(omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk, omega_bulk))),
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
xi_101,
xi_96),
_mm256_set_ps(-0.050000000000000003f, -0.050000000000000003f, -0.050000000000000003f, -0.050000000000000003f, -0.050000000000000003f, -0.050000000000000003f, -0.050000000000000003f, -0.050000000000000003f)),
_mm256_set_ps(
xi_100,
xi_100,
xi_100,
xi_100,
xi_100,
xi_100,
xi_100,
xi_100))),
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
xi_103,
xi_105),
_mm256_set_ps(-0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f, -0.083333333333333329f)),
_mm256_set_ps(
xi_104,
xi_104,
xi_104,
xi_104,
xi_104,
xi_104,
xi_104,
xi_104))),
xi_177),
xi_238),
xi_239),
xi_240),
xi_241);
361 const __m256 xi_248 =
_mm256_mul_ps(
xi_123,
_mm256_set_ps(0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f, 0.017857142857142856f));
363 const __m256 xi_252 =
_mm256_mul_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
_mm256_mul_ps(
rho,
u_0),
u_2),
xi_137),
xi_185),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1])),
_mm256_set_ps(
xi_217,
xi_217,
xi_217,
xi_217,
xi_217,
xi_217,
xi_217,
xi_217));
364 const __m256 xi_253 =
_mm256_add_ps(
_mm256_mul_ps(
xi_251,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_252,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
366 const __m256 xi_261 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_227,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_231,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_222),
xi_224),
xi_225),
xi_229);
367 const __m256 xi_262 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_202,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_204,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_212),
xi_242),
xi_246),
xi_247),
xi_248),
xi_249);
368 const __m256 forceTerm_0 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_17,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_18,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_19,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_17,
_mm256_set_ps(
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20))),
_mm256_mul_ps(
xi_18,
_mm256_set_ps(
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20))),
_mm256_mul_ps(
xi_19,
_mm256_set_ps(
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20,
xi_20)));
369 const __m256 forceTerm_1 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_23,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_21),
xi_32);
370 const __m256 forceTerm_2 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_21,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_23),
xi_32);
371 const __m256 forceTerm_3 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_33,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_38,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_35);
372 const __m256 forceTerm_4 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_35,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_38,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
xi_33);
373 const __m256 forceTerm_5 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_41,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_39),
xi_44);
374 const __m256 forceTerm_6 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_39,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
xi_41),
xi_44);
375 const __m256 forceTerm_7 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_49,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_57,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_67,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
376 const __m256 forceTerm_8 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_57,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_68,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_69,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
377 const __m256 forceTerm_9 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_49,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_69,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_71,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
378 const __m256 forceTerm_10 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_67,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_68,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_71,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
379 const __m256 forceTerm_11 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_74,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_76,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_81,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
380 const __m256 forceTerm_12 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_74,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_82,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_83,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
381 const __m256 forceTerm_13 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_49,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_84,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_91,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
382 const __m256 forceTerm_14 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_68,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_84,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_92,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
383 const __m256 forceTerm_15 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_76,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_83,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_93,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
384 const __m256 forceTerm_16 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_81,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_82,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_93,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
385 const __m256 forceTerm_17 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_49,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_92,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_94,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
386 const __m256 forceTerm_18 =
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_68,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_91,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_94,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)));
387 _mm256_store_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_128,
_mm256_set_ps(0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f, 0.023809523809523808f)),
_mm256_mul_ps(
xi_99,
_mm256_set_ps(0.14285714285714285f, 0.14285714285714285f, 0.14285714285714285f, 0.14285714285714285f, 0.14285714285714285f, 0.14285714285714285f, 0.14285714285714285f, 0.14285714285714285f))),
_mm256_mul_ps(
xi_123,
_mm256_set_ps(0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f, 0.042857142857142858f))),
_mm256_mul_ps(
xi_109,
_mm256_set_ps(0.085714285714285715f, 0.085714285714285715f, 0.085714285714285715f, 0.085714285714285715f, 0.085714285714285715f, 0.085714285714285715f, 0.085714285714285715f, 0.085714285714285715f))),
_mm256_mul_ps(
xi_116,
_mm256_set_ps(0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f, 0.10000000000000001f))),
_mm256_mul_ps(
xi_102,
_mm256_set_ps(0.20000000000000001f, 0.20000000000000001f, 0.20000000000000001f, 0.20000000000000001f, 0.20000000000000001f, 0.20000000000000001f, 0.20000000000000001f, 0.20000000000000001f))),
_mm256_mul_ps(
xi_120,
_mm256_set_ps(-0.5f, -0.5f, -0.5f, -0.5f, -0.5f, -0.5f, -0.5f, -0.5f))),
_mm256_mul_ps(
xi_106,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
forceTerm_0),
_mm256_load_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 +
ctr_0])));
388 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_129,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_132,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_144,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_167,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_178,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_mul_ps(
xi_122,
_mm256_set_ps(0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f)),
_mm256_set_ps(omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even))),
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
xi_108,
xi_96),
_mm256_set_ps(0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f)),
_mm256_set_ps(
xi_107,
xi_107,
xi_107,
xi_107,
xi_107,
xi_107,
xi_107,
xi_107))),
forceTerm_1));
389 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 2 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_123,
_mm256_set_ps(0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f, 0.014285714285714285f)),
_mm256_mul_ps(
xi_109,
_mm256_set_ps(0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f, 0.028571428571428571f))),
forceTerm_2),
xi_167),
xi_179),
xi_180),
xi_182),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0])));
390 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 3 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_171,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f)),
_mm256_mul_ps(
xi_175,
_mm256_set_ps(0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f))),
_mm256_mul_ps(
xi_183,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_184,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
forceTerm_3),
xi_179),
xi_195),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1])));
391 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 4 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_132,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_183,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_184,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_189,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_195,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_mul_ps(
xi_170,
_mm256_set_ps(0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f, 0.083333333333333329f)),
_mm256_set_ps(omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear, omega_shear))),
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
xi_134,
xi_174),
_mm256_set_ps(0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f, 0.33333333333333331f)),
_mm256_set_ps(
xi_173,
xi_173,
xi_173,
xi_173,
xi_173,
xi_173,
xi_173,
xi_173))),
forceTerm_4));
392 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 5 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_139,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_178,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_180,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_196,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_197,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_206,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
_mm256_mul_ps(
xi_127,
_mm256_set_ps(0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f)),
_mm256_set_ps(omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even, omega_even))),
_mm256_mul_ps(
_mm256_mul_ps(
_mm256_mul_ps(
xi_96,
xi_98),
_mm256_set_ps(0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f)),
_mm256_set_ps(
xi_97,
xi_97,
xi_97,
xi_97,
xi_97,
xi_97,
xi_97,
xi_97))),
forceTerm_5));
393 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 6 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_128,
_mm256_set_ps(0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f, 0.015873015873015872f)),
_mm256_mul_ps(
xi_99,
_mm256_set_ps(0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f, 0.095238095238095233f))),
_mm256_mul_ps(
xi_196,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_197,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
forceTerm_6),
xi_144),
xi_182),
xi_206),
_mm256_loadu_ps(&_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0])));
399 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 12 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_156,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_232,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_244,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_245,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
forceTerm_12));
402 _mm256_storeu_ps(&_data_pdfs_tmp[_stride_pdfs_tmp_1 *
ctr_1 + _stride_pdfs_tmp_2 *
ctr_2 + 15 * _stride_pdfs_tmp_3 +
ctr_0],
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_add_ps(
_mm256_mul_ps(
xi_145,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f)),
_mm256_mul_ps(
xi_237,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_245,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
_mm256_mul_ps(
xi_261,
_mm256_set_ps(-1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f, -1.0f))),
forceTerm_15));
440 const float xi_2 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1];
441 const float xi_3 =
xi_2 + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 14 * _stride_pdfs_3 +
ctr_0 - 1];
442 const float xi_4 = _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0];
443 const float xi_5 = _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0] + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0];
444 const float xi_6 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0];
445 const float xi_7 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1];
446 const float xi_8 =
xi_7 + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1];
447 const float xi_9 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0];
448 const float xi_11 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1];
449 const float xi_12 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1] - _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1];
450 const float xi_13 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0];
451 const float xi_14 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0];
452 const float xi_15 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 14 * _stride_pdfs_3 +
ctr_0 - 1];
453 const float xi_16 = _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1];
468 const float xi_121 = 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0] + 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1] + 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1];
469 const float xi_124 = 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1];
470 const float xi_125 = 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 14 * _stride_pdfs_3 +
ctr_0 - 1];
471 const float xi_126 = 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1];
472 const float xi_129 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0];
474 const float xi_137 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1];
475 const float xi_138 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1];
476 const float xi_139 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0];
477 const float xi_140 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0];
478 const float xi_145 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0];
479 const float xi_146 =
xi_14 + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0];
480 const float xi_147 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0];
481 const float xi_148 =
xi_147 + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0];
484 const float xi_155 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0];
485 const float xi_156 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0];
486 const float xi_157 = 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1];
487 const float xi_158 = -2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1];
492 const float xi_185 =
xi_15 + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1];
494 const float xi_187 =
xi_186 - _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1];
496 const float xi_189 = -_data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1];
500 const float xi_198 =
xi_145 +
xi_155 + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0];
501 const float xi_199 = -
xi_139 -
xi_198 - _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0] - _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0];
520 const float vel2Term =
xi_6 + _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1];
524 const float xi_96 =
powf(
xi_95 * (1.0f - ((-omega_even + 1.0f) * (-omega_even + 1.0f))), 0.5f);
527 const float xi_105 =
powf(
xi_95 * (1.0f - ((-omega_bulk + 1.0f) * (-omega_bulk + 1.0f))), 0.5f);
531 const float xi_134 =
powf(
xi_95 * (1.0f - ((-omega_shear + 1.0f) * (-omega_shear + 1.0f))), 0.5f);
534 const float xi_152 =
powf(
xi_95 * (1.0f - ((-omega_odd + 1.0f) * (-omega_odd + 1.0f))), 0.5f);
554 const float xi_210 =
xi_99 * 0.083333333333333329f;
566 const float xi_241 =
xi_99 * 0.023809523809523808f;
575 const float xi_0 = ((1.0f) / (
rho));
579 const float xi_28 =
xi_17 * 0.16666666666666666f;
581 const float xi_30 =
xi_17 * 0.083333333333333329f;
596 const float xi_26 =
xi_18 * 0.16666666666666666f;
599 const float xi_43 =
xi_18 * 0.083333333333333329f;
612 const float xi_218 =
xi_217 * (
u_0 *
xi_216 +
xi_12 - _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1] + _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1]);
617 const float xi_24 =
xi_19 * 0.16666666666666666f;
619 const float xi_27 =
xi_19 * 0.083333333333333329f;
647 const float xi_114 =
xi_112 +
xi_113 * 0.66666666666666663f + 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0] + 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0];
648 const float xi_115 =
rho *
xi_111 * 1.6666666666666667f +
xi_110 * 0.66666666666666663f +
xi_114 - 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0] - 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0] - 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0] - 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0] + 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0] + 3.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0];
652 const float xi_122 =
xi_110 * 2.3333333333333335f +
xi_114 +
xi_121 - 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0] - 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0] - 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1] - 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 18 * _stride_pdfs_3 +
ctr_0 - 1] - 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 13 * _stride_pdfs_3 +
ctr_0 + 1] - 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 14 * _stride_pdfs_3 +
ctr_0 - 1];
654 const float xi_127 =
xi_112 +
xi_113 * 3.0f +
xi_121 +
xi_124 +
xi_125 +
xi_126 - 4.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 6 * _stride_pdfs_3 +
ctr_0] - 4.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 5 * _stride_pdfs_3 +
ctr_0] - 7.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 10 * _stride_pdfs_3 +
ctr_0 - 1] - 7.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 9 * _stride_pdfs_3 +
ctr_0 + 1] - 7.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 7 * _stride_pdfs_3 +
ctr_0 + 1] - 7.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 8 * _stride_pdfs_3 +
ctr_0 - 1] + 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + 2 * _stride_pdfs_3 +
ctr_0] + 5.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_3 +
ctr_0];
663 const float xi_170 =
rho *
xi_111 * 2.0f -
xi_110 -
xi_118 -
xi_129 -
xi_141 -
xi_147 - 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 3 * _stride_pdfs_3 +
ctr_0 + 1] - 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + 4 * _stride_pdfs_3 +
ctr_0 - 1] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 16 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 12 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 15 * _stride_pdfs_3 +
ctr_0] + 2.0f * _data_pdfs[_stride_pdfs_1 *
ctr_1 - _stride_pdfs_1 + _stride_pdfs_2 *
ctr_2 - _stride_pdfs_2 + 11 * _stride_pdfs_3 +
ctr_0] - _data_pdfs[_stride_pdfs_1 *
ctr_1 + _stride_pdfs_2 *
ctr_2 + _stride_pdfs_2 + 17 * _stride_pdfs_3 +
ctr_0 + 1];