ashafq/simd_biquad.c

## simd_biquad.c
#include <stddef.h>
#include <xmmintrin.h>

void biquad_proc_x4(const float *coeff,
			   float *state,
			   float *io,
			   size_t len)
{
	// Set up pointers
	const __m128 *vcoeff = (__m128 *) __builtin_assume_aligned(coeff, 16);
	__m128 *vstate = (__m128 *) __builtin_assume_aligned(state, 16);
	__m128 *vio = (__m128 *) __builtin_assume_aligned(io, 16);

	// Load coefficients
	const __m128 vb0 = _mm_load_ps((float *) vcoeff++);
	const __m128 vb1 = _mm_load_ps((float *) vcoeff++);
	const __m128 vb2 = _mm_load_ps((float *) vcoeff++);

	const __m128 va1 = _mm_load_ps((float *) vcoeff++);
	const __m128 va2 = _mm_load_ps((float *) vcoeff++);

	// Load states
	__m128 vw1 = _mm_load_ps((float *) vstate++);
	__m128 vw2 = _mm_load_ps((float *) vstate++);

	// Process samples
	for (size_t i = 0; i < len; i++) {

		// Load input
		__m128 vx = _mm_load_ps((float *) vio);

		// Compute output
		// y = b0 * x + w1
		__m128 vb0_vx = _mm_mul_ps(vb0, vx);
		__m128 vy = _mm_add_ps(vb0_vx, vw1);

		// Update state: w1
		// w1 = b1 * x - a1 * y + w2
		__m128 vb1_vx = _mm_mul_ps(vb1, vx);
		__m128 va1_vy = _mm_mul_ps(va1, vy);
		vw1 = _mm_sub_ps(vb1_vx, va1_vy);
		vw1 = _mm_add_ps(vw1, vw2);

		// Update state: w2
		// w2 = b2 * x - a2 * y
		__m128 vb2_vx = _mm_mul_ps(vb2, vx);
		__m128 va2_vy = _mm_mul_ps(va2, vy);
		vw2 = _mm_sub_ps(vb2_vx, va2_vy);

		// Store output to buffer, and update pointer
		_mm_store_ps((float *) vio, vy);

		++vio;
	}

	// Store state in state buffer
	_mm_store_ps((float *) --vstate, vw2);
	_mm_store_ps((float *) --vstate, vw1);
}
	#include <stddef.h>
	#include <xmmintrin.h>

	void biquad_proc_x4(const float *coeff,
	float *state,
	float *io,
	size_t len)
	{
	// Set up pointers
	const __m128 vcoeff = (__m128 ) __builtin_assume_aligned(coeff, 16);
	__m128 vstate = (__m128 ) __builtin_assume_aligned(state, 16);
	__m128 vio = (__m128 ) __builtin_assume_aligned(io, 16);

	// Load coefficients
	const __m128 vb0 = _mm_load_ps((float *) vcoeff++);
	const __m128 vb1 = _mm_load_ps((float *) vcoeff++);
	const __m128 vb2 = _mm_load_ps((float *) vcoeff++);

	const __m128 va1 = _mm_load_ps((float *) vcoeff++);
	const __m128 va2 = _mm_load_ps((float *) vcoeff++);

	// Load states
	__m128 vw1 = _mm_load_ps((float *) vstate++);
	__m128 vw2 = _mm_load_ps((float *) vstate++);

	// Process samples
	for (size_t i = 0; i < len; i++) {

	// Load input
	__m128 vx = _mm_load_ps((float *) vio);

	// Compute output
	// y = b0 * x + w1
	__m128 vb0_vx = _mm_mul_ps(vb0, vx);
	__m128 vy = _mm_add_ps(vb0_vx, vw1);

	// Update state: w1
	// w1 = b1 * x - a1 * y + w2
	__m128 vb1_vx = _mm_mul_ps(vb1, vx);
	__m128 va1_vy = _mm_mul_ps(va1, vy);
	vw1 = _mm_sub_ps(vb1_vx, va1_vy);
	vw1 = _mm_add_ps(vw1, vw2);

	// Update state: w2
	// w2 = b2 * x - a2 * y
	__m128 vb2_vx = _mm_mul_ps(vb2, vx);
	__m128 va2_vy = _mm_mul_ps(va2, vy);
	vw2 = _mm_sub_ps(vb2_vx, va2_vy);

	// Store output to buffer, and update pointer
	_mm_store_ps((float *) vio, vy);

	++vio;
	}

	// Store state in state buffer
	_mm_store_ps((float *) --vstate, vw2);
	_mm_store_ps((float *) --vstate, vw1);
	}