líderes en noticias de marketing, publicidad y marcas

Las empresas tecnológicas buscan datos desesperadamente para entrenar la IA

La IA tiene un hambre voraz de datos y está dispuesta a todo (absolutamente todo) para aplacar la gazuza

La demanda de datos de calidad para entrenar los modelos de IA es tan absolutamente ingente que tales datos podrían agotarse en 2026.

Esther Lastra

Escrito por Esther Lastra

Los datos para entrenar los modelos de inteligencia artificial (IA) son el nuevo petróleo de internet y tales datos son paradójicamente cada vez más escasos (porque se explotan por encima de los recursos actualmente disponibles). De hecho, en gigantes tecnológicos como Meta, Google y OpenAI cunde en estos momentos la desesperación por avituallarse de datos exentos de «copyright» para entrenar sus sistemas de IA. La desesperación es tal que Meta estaría incluso dispuesto a ser confrontado con demandas y con las multas emanadas de tales demandas para nutrirse (ilegalmente) de datos protegidos por derechos de autor.

De acuerdo con un reciente estudio emprendida por la empresa especializada en IA Epoch, la demanda de datos de calidad para entrenar los modelos de inteligencia artificial es tan absolutamente ingente que tales datos podrían agotarse en 2026. Razón de más para que las grandes empresas del ramo de la tecnología tengan en cartera medidas absolutamente desesperadas para afrontar la carestía de datos.

Meta

En la empresa matriz de Facebook e Instagram el hambre de datos es tan insaciable que algunos de sus líderes más prominentes habrían mantenido reuniones diarias en 2023 para hacer frente al déficit de datos, según Business Insider.

Una de las ideas que Meta habría puesto sobre la mesa para aplacar su gazuza de datos es la compra de editorial estadounidense Simon & Schuster, que la firma de inversión KKR adquirió en octubre de 2023 por 1.620 millones de dólares. Si la adquisición se hubiera formalizado, Meta habría tenido acceso de manera legal a los textos de los libros publicados por Simon & Schuster (asumiendo que se hubieran alcanzado previamente los correspondientes acuerdos los autores).

Meta barajó también al parecer la posibilidad de abonar 10 dólares por cada libro de Simon & Schuster utilizado para entrenar sus sistemas de IA.

Actualmente la empresa liderada por Mark Zuckerberg contaría en África con varios empleados pobremente remunerados afanados en la redacción de resúmenes de libros de ficción y no ficción para entrenar los modelos de IA de Meta.

Este ardid es a todas luces dudoso desde el punto de vista de los derechos de autor, pero los ejecutivos de Meta habrían argumentado que implemente no disponen de otra alternativa y que están incluso dispuestos a bregar con eventuales demandas.

OpenaAI

Sabedora de que necesita datos cantidades industriales para entrenar sus modelos de IA, la empresa matriz de ChatGPT ha desarrollado Whisper, un software de reconocimiento de voz que es capaz de transcribir el texto contenido en vídeos y podcasts. Apoyándose en este sistema, OpenAI se habría aprovisionado de más de un millón de horas de contenido en YouTube. Si la empresa capitaneada por Sam Altman ha utilizado realmente ese contenido para entrenar sus modelos de IA es actualmente objeto de un acalorado debate allende los mares. De acuerdo con The New York Times, Mira Murati, la jefa de tecnología de OpenAI, dice no tener ninguna certeza a este respecto.

Por su parte, Neal Mohan, CEO de YouTube, no quiere lanzar acusaciones específicas contra OpenAI, pero sí deja claro que, si la matriz de ChatGPT hubiera utilizado realmente contenido de su plataforma para entrenar sus modelos de IA, ello habría constituido «una clara violación de nuestros términos de uso».

Google

La compañía de Mountain View lleva trabajando desde mediados del año pasado para echar el lazo a los derechos de los datos generados por sus propios usuarios para entrenar sus sistemas de IA. Y los datos de las versiones gratuitas de Google Docs, Google Sheets, Google Slides e incluso las reseñas de los restaurantes en Google Maps podrían terminar alimentando los modelos de IA de Google. Sin embargo, lo cierto es que el gigante de internet no ha hecho aún los ajustes necesarios en su política de privacidad, cuya última actualización data de julio de 2023, para poder hacer uso de esos datos en sus modelos de IA.

En tanto en cuanto la demanda de datos es tan absolutamente brutal y la oferta es, en cambio, extraordinariamente parva, las empresas tecnológicas contemplan asimismo la posibilidad de apoyarse en la generación artificial de textos para entrenar sus sistemas de IA. OpenAI está trabajando, no en vano, en los denominados «datos sintéticos», tal y como ha revelado su CEO Sam Altman. «Si un modelo de IA fuera suficientemente inteligente para generar datos sintéticos de calidad, sería francamente fantástico», asevera. El problema es que si los modelos de IA se entrenan a sí mismos, los errores y la información que brotan de tales sistemas podrían eventualmente multiplicarse. Por esta razón, OpenAI está desarrollando un sistema en el que una IA genera datos sintéticos y una segunda IA controla los resultados que esta pone sobre la mesa.

Newsletter ¡Suscríbete a nuestra newsletter! WhatsApp Sigue a MarketingDirecto.com en WhatsApp

 

Buzoneo efectivo: llega donde está tu target y deja de despilfarrar recursosAnteriorSigueinteEstas son las tendencias digitales que impulsarán el sector del Gran Consumo

Contenido patrocinado