perf(native): use simd to speedup audio buffer mix (#11717)

Run `cargo bench -p affine_media_capture` ``` test result: ok. 0 passed; 0 failed; 6 ignored; 0 measured; 0 filtered out; finished in 0.00s Running benches/mix_audio_samples.rs (target/release/deps/mix_audio_samples-ffbc55dcf90d3468) audio mix/simd time: [98.380 ns 99.339 ns 100.57 ns] change: [−19.199% −16.928% −14.569%] (p = 0.00 < 0.05) Performance has improved. Found 12 outliers among 100 measurements (12.00%) 6 (6.00%) high mild 6 (6.00%) high severe audio mix/scalar time: [123.99 ns 126.11 ns 128.71 ns] change: [+0.2703% +1.2739% +2.5727%] (p = 0.02 < 0.05) Change within noise threshold. Found 11 outliers among 100 measurements (11.00%) 4 (4.00%) high mild 7 (7.00%) high severe ```
2025-04-16 00:42:30 +00:00 · 2025-04-16 00:42:30 +00:00 · fe86722845
commit fe86722845
parent e0970daa5a
6 changed files with 353 additions and 13 deletions
--- a/.cargo/config.toml
+++ b/.cargo/config.toml
@ -5,7 +5,7 @@ rustflags = ["-C", "target-feature=+crt-static"]
 [target.'cfg(target_os = "linux")']
 rustflags = ["-C", "link-args=-Wl,--warn-unresolved-symbols"]
 [target.'cfg(target_os = "macos")']
-rustflags = ["-C", "link-args=-all_load", "-C", "link-args=-weak_framework ScreenCaptureKit"]
+rustflags = ["-C", "link-args=-Wl,-undefined,dynamic_lookup,-no_fixup_chains", "-C", "link-args=-all_load", "-C", "link-args=-weak_framework ScreenCaptureKit"]
 # https://sourceware.org/bugzilla/show_bug.cgi?id=21032
 # https://sourceware.org/bugzilla/show_bug.cgi?id=21031
 # https://github.com/rust-lang/rust/issues/134820
--- a/Cargo.lock
+++ b/Cargo.lock
@ -79,6 +79,7 @@ dependencies = [
 "block2",
 "core-foundation",
 "coreaudio-rs",
 "criterion2",
 "dispatch2",
 "libc",
 "napi",
--- a/packages/frontend/native/media_capture/Cargo.toml
+++ b/packages/frontend/native/media_capture/Cargo.toml
@ -6,6 +6,10 @@ version = "0.0.0"
 [lib]
 crate-type = ["cdylib", "rlib"]
 [[bench]]
 harness = false
 name    = "mix_audio_samples"
 [dependencies]
 napi            = { workspace = true, features = ["napi4"] }
 napi-derive     = { workspace = true, features = ["type-def"] }
@ -24,5 +28,8 @@ objc2-foundation = { workspace = true }
 screencapturekit = { workspace = true }
 uuid             = { workspace = true, features = ["v4"] }
 [dev-dependencies]
 criterion2 = { workspace = true }
 [build-dependencies]
 napi-build = { workspace = true }
--- a/packages/frontend/native/media_capture/benches/mix_audio_samples.rs
+++ b/packages/frontend/native/media_capture/benches/mix_audio_samples.rs
@ -0,0 +1,55 @@
 #[cfg(target_os = "macos")]
 use std::hint::black_box;
 #[cfg(target_os = "macos")]
 use affine_media_capture::macos::audio_buffer::{mix_audio_samples, mix_audio_samples_scalar};
 #[cfg(target_os = "macos")]
 use criterion::{criterion_group, criterion_main, BenchmarkId, Criterion};
 #[cfg(target_os = "macos")]
 fn generate_test_samples() -> [f32; 1024] {
  let mut samples = [0.0; 1024];
  // Generate a simple sine wave with some variation
  for (i, sample) in samples.iter_mut().enumerate() {
    let t = i as f32 / 1024.0;
    // Create a complex waveform with multiple frequencies
    let value = 0.008 * (2.0 * std::f32::consts::PI * t * 5.0).sin()
      + 0.004 * (2.0 * std::f32::consts::PI * t * 10.0).cos()
      + 0.002 * (2.0 * std::f32::consts::PI * t * 20.0).sin();
    *sample = value;
  }
  samples
 }
 #[cfg(target_os = "macos")]
 fn bench_audio_mix(c: &mut Criterion) {
  let mut group = c.benchmark_group("audio mix");
  let input = generate_test_samples();
  let output = generate_test_samples();
  group.bench_function(BenchmarkId::from_parameter("simd"), |b| {
    b.iter(|| {
      let mixed = mix_audio_samples(&input, &output);
      black_box(mixed);
    });
  });
  group.bench_function(BenchmarkId::from_parameter("scalar"), |b| {
    b.iter(|| {
      let mut mixed = vec![0.0; 1024];
      mix_audio_samples_scalar(&input, &output, &mut mixed, 0, input.len());
      black_box(mixed);
    });
  });
 }
 #[cfg(target_os = "macos")]
 criterion_group!(benches, bench_audio_mix);
 #[cfg(target_os = "macos")]
 criterion_main!(benches);
 #[cfg(not(target_os = "macos"))]
 fn main() {}
--- a/packages/frontend/native/media_capture/src/macos/audio_buffer.rs
+++ b/packages/frontend/native/media_capture/src/macos/audio_buffer.rs
@ -5,6 +5,141 @@ use objc2::{Encode, Encoding, RefEncode};
 use crate::{error::CoreAudioError, utils::process_audio_frame};
 pub const AUDIO_MIX_OUTPUT_WEIGHT: f32 = 0.75;
 /// Mix audio samples using scalar operations (no SIMD)
 ///
 /// # Arguments
 /// * `input_samples` - Samples from the input stream
 /// * `output_samples` - Samples from the output stream
 /// * `mixed_samples` - Buffer to store the result (must be pre-allocated)
 /// * `start_index` - Starting index in the buffers
 /// * `end_index` - Ending index in the buffers (exclusive)
 pub fn mix_audio_samples_scalar(
  input_samples: &[f32],
  output_samples: &[f32],
  mixed_samples: &mut [f32],
  start_index: usize,
  end_index: usize,
 ) {
  // performance downgraded 4x if apply suggestion from this lint rule
  #[allow(clippy::needless_range_loop)]
  for sample_index in start_index..end_index {
    let sample_in = input_samples.get(sample_index).unwrap_or(&0.0);
    let sample_out = output_samples.get(sample_index).unwrap_or(&0.0);
    mixed_samples[sample_index] = sample_in + sample_out * AUDIO_MIX_OUTPUT_WEIGHT;
  }
 }
 /// Mix audio samples from input and output streams with specified weights
 /// Uses NEON SIMD acceleration on supported platforms
 ///
 /// # Arguments
 /// * `input_samples` - Samples from the input stream
 /// * `output_samples` - Samples from the output stream
 ///
 /// # Returns
 /// A vector of mixed audio samples
 pub fn mix_audio_samples(input_samples: &[f32], output_samples: &[f32]) -> Vec<f32> {
  let mixed_samples_length = input_samples.len();
  let mut mixed_samples = vec![0.0; mixed_samples_length];
  // For very small arrays, use scalar implementation
  if mixed_samples_length < 16 {
    mix_audio_samples_scalar(
      input_samples,
      output_samples,
      &mut mixed_samples,
      0,
      mixed_samples_length,
    );
    return mixed_samples;
  }
  #[cfg(any(target_arch = "aarch64", target_arch = "arm"))]
  unsafe {
    use std::arch::aarch64::{vdupq_n_f32, vld1q_f32, vmlaq_f32, vst1q_f32};
    let output_weight_vec = vdupq_n_f32(AUDIO_MIX_OUTPUT_WEIGHT);
    // Process the common length where both arrays have data
    let common_length = input_samples.len();
    // Main SIMD loop - process each block of 4 samples
    let input_ptr = input_samples.as_ptr();
    let output_ptr = output_samples.as_ptr();
    let result_ptr = mixed_samples.as_mut_ptr();
    let mut offset: usize = 0;
    let mut remaining_offset: Option<usize> = None;
    // Process 16 samples at a time (4 SIMD vectors)
    while offset < common_length {
      // Load 4 vectors of 4 floats each
      let in_vec1 = vld1q_f32(input_ptr.add(offset));
      let out_vec1 = vld1q_f32(output_ptr.add(offset));
      let in_vec2 = vld1q_f32(input_ptr.add(offset + 4));
      let out_vec2 = vld1q_f32(output_ptr.add(offset + 4));
      let in_vec3 = vld1q_f32(input_ptr.add(offset + 8));
      let out_vec3 = vld1q_f32(output_ptr.add(offset + 8));
      let in_vec4 = vld1q_f32(input_ptr.add(offset + 12));
      let out_vec4 = vld1q_f32(output_ptr.add(offset + 12));
      // Using fused multiply-add: (a * b) + c in one operation
      // First multiply input by weight
      let result1 = vmlaq_f32(in_vec1, out_vec1, output_weight_vec);
      let result2 = vmlaq_f32(in_vec2, out_vec2, output_weight_vec);
      let result3 = vmlaq_f32(in_vec3, out_vec3, output_weight_vec);
      let result4 = vmlaq_f32(in_vec4, out_vec4, output_weight_vec);
      // Store results
      vst1q_f32(result_ptr.add(offset), result1);
      vst1q_f32(result_ptr.add(offset + 4), result2);
      vst1q_f32(result_ptr.add(offset + 8), result3);
      vst1q_f32(result_ptr.add(offset + 12), result4);
      offset += 16;
      // accept clippy lint suggestion would downgrade the performance by 15%
      #[allow(clippy::comparison_chain)]
      // fast path for aligned length
      if offset == common_length {
        break;
      } else if offset > common_length {
        remaining_offset = Some(offset - 16);
      } else {
        let remaining = common_length - offset;
        if remaining < 16 {
          remaining_offset = Some(offset);
          break;
        }
      }
    }
    if let Some(remaining_offset) = remaining_offset {
      mix_audio_samples_scalar(
        input_samples,
        output_samples,
        &mut mixed_samples,
        remaining_offset,
        common_length,
      );
    }
  }
  #[cfg(not(any(target_arch = "aarch64", target_arch = "arm")))]
  {
    // Fallback for non-ARM architectures
    mix_audio_samples_scalar(
      input_samples,
      output_samples,
      &mut mixed_samples,
      0,
      mixed_samples_length,
    );
  }
  mixed_samples
 }
 /// [Apple's documentation](https://developer.apple.com/documentation/coreaudiotypes/audiobuffer?language=objc)
 #[repr(C)]
 #[derive(Clone, Copy, Debug, PartialEq)]
@ -50,6 +185,9 @@ unsafe impl RefEncode for AudioBufferList {
 pub struct InputAndOutputAudioBufferList(pub AudioBufferList);
 impl InputAndOutputAudioBufferList {
  /// # Safety
  ///
  /// The caller must ensure that the input data is a valid AudioBufferList
  pub unsafe fn from_raw(in_input_data: *mut c_void) -> Result<Self, i32> {
    let buffer_list: AudioBufferList = unsafe { *in_input_data.cast() };
    if buffer_list.mNumberBuffers != 2 {
@ -93,18 +231,157 @@ impl InputAndOutputAudioBufferList {
      return Err(CoreAudioError::ProcessAudioFrameFailed("output"));
    };
-    let mixed_samples_length = processed_samples_input
+    // Use the extracted mixing function with the const weights
-      .len()
+    let mixed_samples = mix_audio_samples(&processed_samples_input, &processed_samples_output);
      .max(processed_samples_output.len());
    let mut mixed_samples = vec![0.0; mixed_samples_length];
    for (sample_index, mixed_sample) in mixed_samples.iter_mut().enumerate() {
      let sample_in = processed_samples_input.get(sample_index).unwrap_or(&0.0);
      let sample_out = processed_samples_output.get(sample_index).unwrap_or(&0.0);
      *mixed_sample = (sample_in * 2.0 + sample_out * 1.5) / 2.0;
    }
    Ok(mixed_samples)
  }
 }
 #[cfg(test)]
 mod tests {
  use super::*;
  #[test]
  fn test_mix_audio_samples_empty() {
    let input: Vec<f32> = vec![];
    let output: Vec<f32> = vec![];
    let mixed = mix_audio_samples(&input, &output);
    assert_eq!(mixed.len(), 0);
  }
  #[test]
  fn test_mix_audio_samples_equal_length() {
    let input = vec![0.1, 0.2, 0.3, 0.4, 0.5];
    let output = vec![0.5, 0.4, 0.3, 0.2, 0.1];
    let mixed = mix_audio_samples(&input, &output);
    assert_eq!(mixed.len(), 5);
    // Verify calculations: (input + output * 0.75)
    let expected = [
      (0.1 + 0.5 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.2 + 0.4 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.3 + 0.3 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.4 + 0.2 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.5 + 0.1 * AUDIO_MIX_OUTPUT_WEIGHT),
    ];
    for i in 0..mixed.len() {
      assert!(
        (mixed[i] - expected[i]).abs() < 1e-6,
        "Mismatch at index {}: expected {}, got {}",
        i,
        expected[i],
        mixed[i]
      );
    }
  }
  #[test]
  fn test_mix_audio_samples_input_longer() {
    let input = vec![0.1, 0.2, 0.3, 0.4, 0.5];
    let output = vec![0.5, 0.4, 0.3];
    let mixed = mix_audio_samples(&input, &output);
    assert_eq!(mixed.len(), 5);
    // Verify calculations
    let expected = [
      (0.1 + 0.5 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.2 + 0.4 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.3 + 0.3 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.4 + 0.0 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.5 + 0.0 * AUDIO_MIX_OUTPUT_WEIGHT),
    ];
    for i in 0..mixed.len() {
      assert!(
        (mixed[i] - expected[i]).abs() < 1e-6,
        "Mismatch at index {}: expected {}, got {}",
        i,
        expected[i],
        mixed[i]
      );
    }
  }
  #[test]
  fn test_mix_audio_samples_custom_weights() {
    // Note: We're using the constant weights so we can't really test custom values
    // directly
    let input = vec![0.1, 0.2, 0.3];
    let output = vec![0.5, 0.4, 0.3];
    let mixed = mix_audio_samples(&input, &output);
    // Calculate expected values based on the constants
    let expected = [
      (0.1 + 0.5 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.2 + 0.4 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.3 + 0.3 * AUDIO_MIX_OUTPUT_WEIGHT),
    ];
    for i in 0..mixed.len() {
      assert!(
        (mixed[i] - expected[i]).abs() < 1e-6,
        "Mismatch at index {}: expected {}, got {}",
        i,
        expected[i],
        mixed[i]
      );
    }
  }
  #[cfg(any(target_arch = "aarch64", target_arch = "arm"))]
  #[test]
  fn test_simd_implementation_used() {
    const BUFFER_SIZES: [usize; 4] = [100, 127, 128, 512];
    for size in BUFFER_SIZES {
      // Create arrays large enough to trigger SIMD path
      let input: Vec<f32> = (0..size).map(|i| i as f32 * 0.01).collect();
      let output: Vec<f32> = (0..size).map(|i| (size - i) as f32 * 0.01).collect();
      // Mix with standard weights
      let mixed = mix_audio_samples(&input, &output);
      // Compute the same mix using scalar implementation for comparison
      let mut expected = vec![0.0; input.len()];
      mix_audio_samples_scalar(&input, &output, &mut expected, 0, input.len());
      // Verify results match between SIMD and scalar implementations
      for i in 0..mixed.len() {
        assert!(
          (mixed[i] - expected[i]).abs() < 1e-6,
          "SIMD and scalar implementations should produce identical results at index {}",
          i
        );
      }
    }
  }
  #[test]
  fn test_small_vector_uses_scalar() {
    // Create small arrays that should use scalar path even with SIMD available
    let input = vec![0.1, 0.2, 0.3];
    let output = vec![0.5, 0.4, 0.3];
    // Mix with standard weights
    let mixed = mix_audio_samples(&input, &output);
    // Calculate expected values manually
    let expected = [
      (0.1 + 0.5 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.2 + 0.4 * AUDIO_MIX_OUTPUT_WEIGHT),
      (0.3 + 0.3 * AUDIO_MIX_OUTPUT_WEIGHT),
    ];
    // Verify results
    for i in 0..mixed.len() {
      assert!(
        (mixed[i] - expected[i]).abs() < 1e-6,
        "Small vector mixing should be correct at index {}",
        i
      );
    }
  }
 }
--- a/packages/frontend/native/media_capture/src/macos/mod.rs
+++ b/packages/frontend/native/media_capture/src/macos/mod.rs
@ -1,4 +1,4 @@
-pub(crate) mod audio_buffer;
+pub mod audio_buffer;
 pub mod audio_stream_basic_desc;
 pub mod av_audio_file;
 pub mod av_audio_format;