WIP: cprep onnx

2023-07-15 06:07:33 +09:00 · 2023-07-15 06:07:33 +09:00 · 333e66786d
commit 333e66786d
parent 485a747d55
3 changed files with 29 additions and 30 deletions
--- a/server/voice_changer/DiffusionSVC/pitchExtractor/CrepeOnnxPitchExtractor.py
+++ b/server/voice_changer/DiffusionSVC/pitchExtractor/CrepeOnnxPitchExtractor.py
@ -4,6 +4,7 @@ from voice_changer.RVC.deviceManager.DeviceManager import DeviceManager
 from voice_changer.RVC.pitchExtractor.PitchExtractor import PitchExtractor
 import onnxruntime
 from voice_changer.RVC.pitchExtractor import onnxcrepe
+import torch


 class CrepeOnnxPitchExtractor(PitchExtractor):
@ -19,30 +20,26 @@ class CrepeOnnxPitchExtractor(PitchExtractor):
        self.onnx_session = onnxruntime.InferenceSession(
            file, providers=onnxProviders, provider_options=onnxProviderOptions
        )
+        self.f0_min = 50
+        self.f0_max = 1100
+        self.sapmle_rate = 16000
+        self.uv_interp = True

-    def extract(self, audio, pitchf, f0_up_key, sr, window, silence_front=0):
-        n_frames = int(len(audio) // window) + 1
-        start_frame = int(silence_front * sr / window)
-        real_silence_front = start_frame * window / sr
+    def extract(self, audio: torch.Tensor, pitch, f0_up_key, window, silence_front=0):
+        start_frame = int(silence_front * self.sapmle_rate / window)
+        real_silence_front = start_frame * window / self.sapmle_rate
+        audio = audio[int(np.round(real_silence_front * self.sapmle_rate)):]

-        silence_front_offset = int(np.round(real_silence_front * sr))
-        audio = audio[silence_front_offset:]
-
-        f0_min = 50
-        f0_max = 1100
-        f0_mel_min = 1127 * np.log(1 + f0_min / 700)
-        f0_mel_max = 1127 * np.log(1 + f0_max / 700)
-
-        precision = 10.0
+        precision = (1000 * window / self.sapmle_rate)

        audio_num = audio.cpu()
        onnx_f0, onnx_pd = onnxcrepe.predict(
            self.onnx_session,
            audio_num,
-            sr,
+            self.sapmle_rate,
            precision=precision,
-            fmin=f0_min,
-            fmax=f0_max,
+            fmin=self.f0_min,
+            fmax=self.f0_max,
            batch_size=256,
            return_periodicity=True,
            decoder=onnxcrepe.decode.weighted_argmax,
@ -53,14 +50,15 @@ class CrepeOnnxPitchExtractor(PitchExtractor):

        f0[pd < 0.1] = 0
        f0 = f0.squeeze()
+        pitch[-f0.shape[0]:] = f0[:pitch.shape[0]]
+        f0 = pitch

-        f0 *= pow(2, f0_up_key / 12)
-        pitchf[-f0.shape[0]:] = f0[:pitchf.shape[0]]
-        f0bak = pitchf.copy()
-        f0_mel = 1127.0 * np.log(1.0 + f0bak / 700.0)
-        f0_mel = np.clip(
-            (f0_mel - f0_mel_min) * 254.0 / (f0_mel_max - f0_mel_min) + 1.0, 1.0, 255.0
-        )
-        pitch_coarse = f0_mel.astype(int)
+        if self.uv_interp:
+            uv = f0 == 0
+            if len(f0[~uv]) > 0:
+                f0[uv] = np.interp(np.where(uv)[0], np.where(~uv)[0], f0[~uv])
+            f0[f0 < self.f0_min] = self.f0_min

-        return pitch_coarse, pitchf
+        f0 = f0 * 2 ** (float(f0_up_key) / 12)
+
+        return f0
--- a/server/voice_changer/DiffusionSVC/pitchExtractor/CrepePitchExtractor.py
+++ b/server/voice_changer/DiffusionSVC/pitchExtractor/CrepePitchExtractor.py
@ -24,7 +24,7 @@ class CrepePitchExtractor(PitchExtractor):
        start_frame = int(silence_front * self.sapmle_rate / window)
        real_silence_front = start_frame * window / self.sapmle_rate
        audio = audio[int(np.round(real_silence_front * self.sapmle_rate)):]
-        
+
        f0, pd = torchcrepe.predict(
            audio.unsqueeze(0),
            self.sapmle_rate,
--- a/server/voice_changer/DiffusionSVC/pitchExtractor/PitchExtractorManager.py
+++ b/server/voice_changer/DiffusionSVC/pitchExtractor/PitchExtractorManager.py
@ -1,5 +1,6 @@
 from typing import Protocol
 from const import PitchExtractorType
+from voice_changer.DiffusionSVC.pitchExtractor.CrepeOnnxPitchExtractor import CrepeOnnxPitchExtractor
 from voice_changer.DiffusionSVC.pitchExtractor.CrepePitchExtractor import CrepePitchExtractor
 from voice_changer.DiffusionSVC.pitchExtractor.DioPitchExtractor import DioPitchExtractor
 from voice_changer.DiffusionSVC.pitchExtractor.HarvestPitchExtractor import HarvestPitchExtractor
@ -32,10 +33,10 @@ class PitchExtractorManager(Protocol):
            return DioPitchExtractor()
        elif pitchExtractorType == "crepe":
            return CrepePitchExtractor()
-        # elif pitchExtractorType == "crepe_tiny":
-        #     return CrepeOnnxPitchExtractor(pitchExtractorType, cls.params.crepe_onnx_tiny, gpu)
-        # elif pitchExtractorType == "crepe_full":
-        #     return CrepeOnnxPitchExtractor(pitchExtractorType, cls.params.crepe_onnx_full, gpu)
+        elif pitchExtractorType == "crepe_tiny":
+            return CrepeOnnxPitchExtractor(pitchExtractorType, cls.params.crepe_onnx_tiny, gpu)
+        elif pitchExtractorType == "crepe_full":
+            return CrepeOnnxPitchExtractor(pitchExtractorType, cls.params.crepe_onnx_full, gpu)
        else:
            # return hubert as default
            raise RuntimeError(