The method is based on [9]. More...

#include "config/config.hpp"
#include "magnetostatics/barnes_hut_gpu_cuda.cuh"
#include "cuda/init.hpp"
#include "cuda/utils.cuh"
#include <thrust/device_ptr.h>
#include <thrust/reduce.h>
#include <cuda.h>
#include <algorithm>
#include <cstdio>
#include <stdexcept>

Include dependency graph for barnes_hut_gpu_cuda.cu:

Go to the source code of this file.

Functions
__device__ void	dds_sumReduction_BH (float input, float sum)

__global__ void	initializationKernel ()

__global__	__launch_bounds__ (THREADS1, FACTOR1) void boundingBoxKernel()

__global__	__launch_bounds__ (THREADS2, FACTOR2) void treeBuildingKernel()

__global__	__launch_bounds__ (THREADS3, FACTOR3) void summarizationKernel()

__global__	__launch_bounds__ (THREADS4, FACTOR4) void sortKernel()

__global__	__launch_bounds__ (THREADS5, FACTOR5) void forceCalculationKernel(float pf

	if (threadIdx.x==0)

	__syncthreads ()

	if (maxdepthd<=MAXDEPTH)

	dds_sumReduction_BH (res, &(energySum[blockIdx.x]))

void	initBHgpu (int blocks)
	Barnes-Hut CUDA initialization.

void	buildBoxBH (int blocks)
	Building Barnes-Hut spatial min/max position box.

void	buildTreeBH (int blocks)
	Building Barnes-Hut tree in a linear child array representation of octant cells and particles inside.

void	summarizeBH (int blocks)
	Calculate octant cells masses and cell index counts. Determine cells centers of mass and total dipole moments on all possible levels of the Barnes-Hut tree.

void	sortBH (int blocks)
	Sort particle indexes according to the Barnes-Hut tree representation. Crucial for the per-warp performance tuning of `forceCalculationKernel` and `energyCalculationKernel`.

void	forceBH (BHData bh_data, float k, float f, float *torque)
	Barnes-Hut force calculation.

void	energyBH (BHData bh_data, float k, float E)
	Barnes-Hut energy calculation.

void	setBHPrecision (float epssq, float itolsq)
	Barnes-Hut parameters setter.

void	deallocBH (BHData *bh_data)
	A deallocation of the GPU device memory.

void	allocBHmemCopy (int nbodies, BHData *bh_data)
	An allocation of the GPU device memory and an initialization where it is needed.

void	fill_bh_data (float const r, float const dip, BHData const *bh_data)
	Copy Barnes-Hut data to bhpara and copy particle data.

Variables
__constant__ float	epssqd [1]

__constant__ float	itolsqd [1]

__device__ volatile int	bottomd

__device__ volatile int	maxdepthd

__device__ volatile int	blkcntd

__device__ volatile float	radiusd

__device__ __constant__ volatile BHData	bhpara [1]

__global__ float *	force

__global__ float float *	torque

float	dr [3]

float	f [3]

float	h [3]

float	u [3]

float	uc [3]

float	N [3]

__shared__ int	pos [MAXDEPTH *THREADS5/WARPSIZE]

__shared__ int	node [MAXDEPTH *THREADS5/WARPSIZE]

__shared__ float	dq [MAXDEPTH *THREADS5/WARPSIZE]

__global__ float *	energySum

float	sum = 0.0

__shared__ float	res [] = sum

Detailed Description

The method is based on [9].

Definition in file barnes_hut_gpu_cuda.cu.

Function Documentation

◆ __launch_bounds__() [1/5]

__global__ __launch_bounds__	(	THREADS1	,
		FACTOR1
	)

Definition at line 91 of file barnes_hut_gpu_cuda.cu.

References __syncthreads(), bhpara, blkcntd, bottomd, BHData::child, BHData::mass, BHData::maxp, BHData::minp, BHData::nbodies, BHData::nnodes, BHData::r, radiusd, BHData::start, and THREADS1.

◆ __launch_bounds__() [2/5]

__global__ __launch_bounds__	(	THREADS2	,
		FACTOR2
	)

Definition at line 206 of file barnes_hut_gpu_cuda.cu.

References bhpara, bottomd, BHData::child, BHData::err, BHData::mass, BHData::max_lps, maxdepthd, BHData::nbodies, BHData::nnodes, pos, BHData::r, radiusd, BHData::start, and THREADS2.

◆ __launch_bounds__() [3/5]

__global__ __launch_bounds__	(	THREADS3	,
		FACTOR3
	)

Definition at line 452 of file barnes_hut_gpu_cuda.cu.

References __syncthreads(), bhpara, bottomd, BHData::child, BHData::count, BHData::mass, BHData::max_lps, BHData::nbodies, BHData::nnodes, BHData::r, THREADS3, u, and BHData::u.

◆ __launch_bounds__() [4/5]

__global__ __launch_bounds__	(	THREADS4	,
		FACTOR4
	)

Definition at line 630 of file barnes_hut_gpu_cuda.cu.

References bhpara, bottomd, BHData::child, BHData::count, BHData::max_lps, BHData::nbodies, BHData::nnodes, BHData::sort, BHData::start, and THREADS4.

◆ __launch_bounds__() [5/5]

__global__ __launch_bounds__	(	THREADS5	,
		FACTOR5
	)

◆ __syncthreads()

__syncthreads ( )

Referenced by __launch_bounds__(), __launch_bounds__(), assign_charge_kernel(), assign_forces_kernel(), dds_sumReduction(), dds_sumReduction_BH(), DipolarDirectSum_kernel_energy(), energiesKernel(), if(), and sumReduction().

◆ allocBHmemCopy()

void allocBHmemCopy	(	int	nbodies,
		BHData *	bh_data
	)

An allocation of the GPU device memory and an initialization where it is needed.

Definition at line 1177 of file barnes_hut_gpu_cuda.cu.

References BHData::blocks, BHData::child, BHData::count, cuda_get_device(), cuda_get_device_props(), cuda_safe_mem, BHData::err, FACTOR1, BHData::mass, BHData::max_lps, BHData::maxp, BHData::minp, BHData::nbodies, BHData::nnodes, BHData::r, BHData::sort, BHData::start, and BHData::u.

◆ buildBoxBH()

void buildBoxBH ( int blocks )

Building Barnes-Hut spatial min/max position box.

Definition at line 1040 of file barnes_hut_gpu_cuda.cu.

References block(), cuda_safe_mem, FACTOR1, KERNELCALL, and THREADS1.

◆ buildTreeBH()

void buildTreeBH ( int blocks )

Building Barnes-Hut tree in a linear child array representation of octant cells and particles inside.

Definition at line 1054 of file barnes_hut_gpu_cuda.cu.

References block(), cuda_safe_mem, FACTOR2, KERNELCALL, and THREADS2.

◆ dds_sumReduction_BH() [1/2]

__device__ void dds_sumReduction_BH	(	float *	input,
		float *	sum
	)

Definition at line 58 of file barnes_hut_gpu_cuda.cu.

References __syncthreads(), and sum.

◆ dds_sumReduction_BH() [2/2]

dds_sumReduction_BH	(	res	,
		&	energySum[blockIdx.x]
	)

◆ deallocBH()

void deallocBH ( BHData * bh_data )

A deallocation of the GPU device memory.

Definition at line 1152 of file barnes_hut_gpu_cuda.cu.

References BHData::child, BHData::count, cuda_safe_mem, BHData::err, BHData::mass, BHData::max_lps, BHData::maxp, BHData::minp, BHData::r, BHData::sort, BHData::start, and BHData::u.

Referenced by DipolarBarnesHutGpu::~DipolarBarnesHutGpu().

◆ energyBH()

void energyBH	(	BHData *	bh_data,
		float	k,
		float *	E
	)

Barnes-Hut energy calculation.

Definition at line 1113 of file barnes_hut_gpu_cuda.cu.

References block(), BHData::blocks, cuda_safe_mem, energySum, BHData::err, FACTOR5, KERNELCALL_shared, and THREADS5.

Referenced by DipolarBarnesHutGpu::long_range_energy().

◆ fill_bh_data()

void fill_bh_data	(	float const *	r,
		float const *	dip,
		BHData const *	bh_data
	)

Copy Barnes-Hut data to bhpara and copy particle data.

Parameters

r	device particle positions to copy
dip	device particle dipoles to copy
bh_data	Barnes-Hut container

Definition at line 1258 of file barnes_hut_gpu_cuda.cu.

References bhpara, cuda_safe_mem, BHData::nbodies, BHData::r, and BHData::u.

◆ forceBH()

void forceBH	(	BHData *	bh_data,
		float	k,
		float *	f,
		float *	torque
	)

Barnes-Hut force calculation.

Definition at line 1094 of file barnes_hut_gpu_cuda.cu.

References block(), BHData::blocks, cuda_safe_mem, BHData::err, f, FACTOR5, KERNELCALL, THREADS5, and torque.

Referenced by DipolarBarnesHutGpu::add_long_range_forces().

◆ if() [1/2]

if ( maxdepthd<= MAXDEPTH )

Definition at line 731 of file barnes_hut_gpu_cuda.cu.

References __syncthreads(), bhpara, BHData::child, dq, dr, f, force, h, MAXDEPTH, N, BHData::nbodies, BHData::nnodes, node, pos, BHData::r, BHData::sort, torque, u, BHData::u, uc, and WARPSIZE.

◆ if() [2/2]

if ( threadIdx. x = = 0 )

Definition at line 701 of file barnes_hut_gpu_cuda.cu.

References bhpara, dq, epssqd, BHData::err, itolsqd, MAXDEPTH, maxdepthd, and radiusd.

◆ initBHgpu()

void initBHgpu ( int blocks )

Barnes-Hut CUDA initialization.

Definition at line 1019 of file barnes_hut_gpu_cuda.cu.

References block(), FACTOR5, initializationKernel(), KERNELCALL, and THREADS5.

◆ initializationKernel()

__global__ void initializationKernel ( )

Definition at line 77 of file barnes_hut_gpu_cuda.cu.

References bhpara, blkcntd, BHData::err, BHData::max_lps, and maxdepthd.

Referenced by initBHgpu().

◆ setBHPrecision()

void setBHPrecision	(	float	epssq,
		float	itolsq
	)

Barnes-Hut parameters setter.

Definition at line 1145 of file barnes_hut_gpu_cuda.cu.

References cuda_safe_mem, epssqd, and itolsqd.

Referenced by DipolarBarnesHutGpu::on_activation().

◆ sortBH()

void sortBH ( int blocks )

Sort particle indexes according to the Barnes-Hut tree representation. Crucial for the per-warp performance tuning of forceCalculationKernel and energyCalculationKernel.

Definition at line 1082 of file barnes_hut_gpu_cuda.cu.

References block(), cuda_safe_mem, FACTOR4, KERNELCALL, and THREADS4.

◆ summarizeBH()

void summarizeBH ( int blocks )

Calculate octant cells masses and cell index counts. Determine cells centers of mass and total dipole moments on all possible levels of the Barnes-Hut tree.

Definition at line 1068 of file barnes_hut_gpu_cuda.cu.

References block(), cuda_safe_mem, FACTOR3, KERNELCALL, and THREADS3.