Elimina perfectamente las voces de las canciones con inteligencia artificial (IA)

Empecé un pequeño estudio de grabación en el año 2008. Durante ese tiempo, además de trabajar en música y grabación de audio, también me extendí a los servicios de edición de audio.

Un trabajo de audio que recibía a menudo era eliminar las voces de la música. Mis clientes eran personas que querían convertir sus canciones favoritas en versiones de karaoke para poder cantar encima.

En aquel entonces, para eliminar las voces de la música, usaba el efecto de reducción y aislamiento vocal de Audacity o una técnica de cancelación de fase de audio. El resultado final (escuchar a continuación) a menudo no fue tan bueno. Esto se debió a que los efectos de eliminación de voces dependían de las frecuencias y del audio central para funcionar (la mayoría de las pistas tienen las voces mezcladas en su centro).

En estos días, con la existencia de tecnologías de IA, es mucho más eficiente usar un removedor de voz basado en IA como PhonicMind, que usa un motor de audio de IA para separar las voces y los instrumentos de cualquier canción.

En esta publicación, le mostraré cómo eliminar las voces de una canción usando el método convencional y anticuado usando efectos de audio. Luego compararemos los resultados usando PhonicMind, un removedor de voz basado en IA.

¡Empecemos!

Eliminar voces usando efectos de audio (en Adobe Audition)

Muchos productores de música o entusiastas del karaoke todavía usan este antiguo método, que estoy a punto de mostrarles, para eliminar o aislar las voces de las canciones. Bueno, creo que es simplemente porque no conocen las nuevas herramientas basadas en IA que tenemos hoy.

De todos modos, así es como funciona.

Uso del efecto extractor de canal central (eliminación de voz)

La mayoría de los editores de audio como Adobe Audition o Audacity tendrían el efecto de eliminar las voces o aislarlas como acapellas. En Adobe Audition, esto se denomina efecto Extractor de canal central, y en Audacity, se etiqueta como efecto de Aislamiento y reducción vocal.

Efecto de reducción y aislamiento vocal (en realidad, un extractor de canal central) en Audacity.

En general, el efecto funciona eliminando el audio panorámico central, porque ahí es donde generalmente se mezclan las voces. Luego, utilizando los diales de frecuencia, puede elegir filtrar un rango de frecuencia, para apuntar a las frecuencias que pertenecen a las voces, lo más cerca posible.

Extractor de canal central en Adobe Audition

En el ejemplo, utilicé el Extractor de canal central de Adobe Audition y elegí el ajuste preestablecido ‘Eliminación de voz’.

Observe que el efecto en realidad atenúa el nivel del canal central en -40dB. El rango de frecuencia selecciona el rango de las frecuencias vocales en la canción para afectar. El rango predeterminado se selecciona de 120 Hz a 20 000 Hz. Esto significa que las frecuencias bajas, como los bombos y los bajos, por debajo de 120 Hz, no se atenúan.

Puede obtener una vista previa a medida que ajusta los parámetros. Y una vez que te guste lo que escuchas, simplemente haz clic en Aplicar y el efecto procesará tu canción.

Para hacer una acapella, simplemente haces lo contrario. En lugar de atenuar el canal central, atenúa los canales laterales. Esto te deja con las voces en el centro de la pista.

En Adobe Audition, inicie Center Channel Extractor y elija el ajuste preestablecido ‘Acapella’. Ahora, observe que el preajuste elige atenuar el nivel del canal lateral en lugar del nivel del canal central. Esto elimina los canales laterales y mantiene las voces en el centro.

Mire el video a continuación para ver un tutorial sobre el uso de Adobe Audition para eliminar voces y crear acapellas:

¡Pero todavía escucho algunas voces!

Y tienes razón.

Desafortunadamente, esto es una limitación si tuviéramos que usar efectos de audio de eliminación de voces que se basan en la selección de frecuencia y la orientación del canal central para eliminar las voces. Los elementos musicales dentro de una pieza musical a menudo tienen superposiciones de frecuencia.

Entonces, a pesar de la cantidad de ecualización y filtrado que haga, nunca obtendrá una salida limpia.

Eliminación de voces de una canción con inteligencia artificial (IA)

En estos días, con la democratización de la IA y las tecnologías de aprendizaje automático, tenemos acceso a eliminadores de voz y creadores de tallos de audio de IA. Aquí es donde viene el removedor de voz AI como PhonicMind, que le brinda resultados que los efectos de audio convencionales nunca lograrían.

PhonicMind es, de hecho, más que un simple eliminador de voces, también es un creador de tallos de audio. El motor de audio separa la canción que subes en 4 partes de audio, voz, batería, bajo y otros instrumentos.

Sin profundizar demasiado en los detalles, la forma en que funciona el motor de audio AI es primero escuchando y entendiendo la música. Mediante el aprendizaje profundo, aprende escuchando música todos los días a una velocidad de 20 minutos de música por segundo. Esto dio origen a una tecnología de separación de fuentes de audio, basada en IA que entiende la música y, por lo tanto, puede lograr la separación de tallos con una calidad nunca antes ‘escuchada’.

Sorprendentemente, separar las voces, la batería y otros instrumentos de una canción lleva menos de un minuto. Veamos cómo usar PhonicMind para eliminar voces y crear temas de audio.

Cómo eliminar voces con IA usando PhonicMind.

Dirígete a PhonicMind.com y regístrate para obtener una cuenta gratuita.

Haga clic en ‘Subir’ y suelte una canción en un formato de audio de alta calidad. Es preferible utilizar un formato de audio sin pérdidas como .WAV, .AIFF o .FLAC para obtener los mejores resultados finales.

El motor de audio AI tardará menos de un minuto en procesar la canción. Una vez hecho esto, se le redirigirá a una página con un reproductor de audio multipista para obtener una vista previa de los fragmentos de audio.

Si está satisfecho con los resultados, simplemente haga clic en realizar la conversión completa. Le costará € 1.99 realizar una conversión de una canción cuando compre el paquete de 10 canciones. Puede obtener tan solo € 1.49 por canción con el paquete de 20 canciones.

Una vez que haya realizado la conversión de una canción, puede descargarla tantas veces como desee. PhonicMind le ofrece varias opciones de descarga, incluida la descarga de una versión de karaoke, solo voces o todos los temas.

¡Y eso es! ¿Puedes creer que es tan rápido y fácil?

La calidad de sonido que obtienes con un removedor de voz basado en IA como PhonicMind es mejor a pasos agigantados. Mire un video tutorial o use PhonicMind y escuche la calidad del sonido.

¿Es esto legal?

Este es un punto importante que quiero mencionar en este post.

PhonicMind es simplemente un procesador de audio que le permite realizar la separación de fuentes de audio. El hecho de que pueda eliminar las voces de cualquier canción, utilizando un creador de raíces de IA como PhonicMind, no hace que sea legalmente correcto hacerlo.

Aunque por lo general, no deberías tener nada de qué preocuparte si las pistas son para uso personal. Sin embargo, si planea volver a publicar las acapellas o muestras de una canción que ha procesado, debe obtener una licencia mecánica del propietario original de la canción.

¿Cuál es el mejor removedor de voz AI?

Después de haber utilizado muchas de las soluciones disponibles, como Spleeter, LALAL.Ai y PhonicMind, seré sincero para decirle que PhonicMind supera a todas las soluciones de eliminación de voz con IA del mercado.

Aquí están mis pensamientos sobre cada uno de ellos:

1 Mente fónica

Como mencioné anteriormente, PhonicMind no es solo un eliminador de voces, es un creador de plicas (más información sobre las plicas a continuación) que puede separar una canción en 4 plicas de audio. Esto hace que la herramienta sea mucho más útil, en comparación con otras soluciones en el mercado.

¿Por qué digo que PhonicMind tiene el mejor motor de audio?

Si ve el video de arriba, me verá usar PhonicMind para separar una canción en 4 temas de audio, antes de importarlos a un DAW y reproducirlos. Lo que es una locura es que los 4 temas de audio reproducidos juntos como una multipista suenan exactamente como la canción original.

No es lo mismo con los otros motores de audio como Spleeter. Escuchará que Spleeter silencia los elementos musicales que no reconoce durante el proceso de separación de audio.

¿Qué son los archivos STEM?

PhonicMind también genera archivos STEM, un formato único desarrollado por Native Instruments que contiene cuatro tallos individuales de una pista en un archivo. Usando una extensión de archivo .stem.mp4, la versión maestra (pista completa) se puede reproducir en estéreo con un reproductor de audio como iTunes como un archivo mp4.

Los archivos STEM generalmente se usan en software de DJ compatible como Traktor Pro o DJ como Traktor Kontrol S8, lo que permite a los DJ mezclar tallos de audio individuales sobre la marcha.

Mire el video a continuación para obtener información sobre los archivos STEM:

2 Más agotador

Spleeter no es en realidad una aplicación. Más bien, es una biblioteca de separación de fuentes de audio que se ha lanzado como un código de fuente abierta. Para usarlo, necesitaría conocimientos de programación en Python y Tensorflow.

A menos que sepa un poco de programación, no me molestaría en usar Spleeter. El tiempo que traté de hacer que funcionara, pasé cerca de medio día para resolver las cosas, solo para obtener fragmentos de audio que tampoco eran tan buenos.

Para mí, simplemente no vale la pena la molestia.

Claro, hay muchos proyectos creados por aficionados, construidos sobre el motor de audio de Spleeter que puede usar convenientemente. Sin embargo, con la falta de desarrollo activo en su motor de IA, falta la calidad que obtienes, en comparación con un motor de audio de IA que tiene un desarrollo constante, como PhonicMind.

3 LALAL.Ai

LALAI AI es otra aplicación de eliminación de voz impulsada por IA con un nombre único. Si bien funciona bien para eliminar voces, no es un creador de tallos, lo que significa que solo puede separar una canción en dos pistas: voces e instrumentales.

Esto es un inconveniente, dado que LALAL AI solo funciona como eliminador de voz. No tiene suerte si espera hacer un remuestreo o algún trabajo de producción creativa.

La compañía también afirma ser el mejor motor de división de audio del mundo que funciona con la tecnología de IA número 1 del mundo. Sin embargo, #1 en los términos de quién?

Al investigar para esta publicación, encontré muchas publicaciones en foros, comparando LALAI AI con otros removedores de voz AI. Lo que me molesta es que muchas de estas publicaciones fueron hechas por el propio equipo de marketing de LALAI AI. Para mí, preferiría que el equipo dedicara más tiempo a mejorar su motor de audio, en lugar de tratar de influir en las personas que buscan reseñas.

¿Vale la pena usar un eliminador de voz de pago?

Para mí, usar un removedor de voz pagado (yo uso PhonicMind) vale cada centavo. Este es el por qué:

Te ahorra tiempo.

¿Cuánto valoras tu tiempo? Nuestro tiempo es limitado y por lo tanto, el tiempo es dinero.

Las personas exitosas gastan dinero para recuperar tiempo: subcontratan el trabajo, contratan personal y usan herramientas que hacen el trabajo por ellos. Luego pueden concentrarse en trabajar en las cosas más importantes de su trabajo y su vida.

Claro, puede pasar las próximas 2 o 3 horas tratando de eliminar las voces de una canción usando efectos de audio convencionales. ¿Pero esas 2-3 horas de su tiempo solo valen € 1.99?

Es más inteligente dedicar su tiempo limitado a otro trabajo más significativo.

Calidad de audio sin precedentes.

No hay forma de que los complementos y los efectos de audio convencionales le brinden el tipo de calidad de audio que obtiene con los eliminadores de voz AI.

Ya sea que sea un entusiasta del karaoke, un productor musical o un investigador, probablemente desee la mejor calidad de audio, suponiendo que esté trabajando en algo significativo.

Recuerde, es caro ser barato.

Conclusión

Estoy realmente entusiasmado con la forma en que las tecnologías de IA allanan el camino para la producción musical. Ahora que los eliminadores de voces y los creadores de stems basados en IA son una realidad, solo podemos imaginar lo que depara el futuro a medida que se introduzcan más aplicaciones y soluciones.

¿Ha intentado eliminar voces o crear acapellas con un eliminador de voces AI? ¿El crecimiento de las nuevas tecnologías ha interrumpido su trabajo, como lo hizo con el otrora pequeño servicio de conversión de canciones de karaoke que una vez hice?

¡Comparte tus pensamientos y experiencia en la sección de comentarios a continuación!