Reddit data DAO y todo lo que necesitas saber sobre el entrenamiento de modelos de Gen AI

20 julio 2024

El Cryptonomist entrevistó a Anna Kazlauskas, CEO y cofundadora de Vana’s, que Reddit Data DAO, que en la primera semana vio a 140k usuarios registrarse con cuentas verificadas de Reddit. Anna ahora está trabajando con desarrolladores para construir Data DAOs para otras plataformas, como LinkedIn y ChatGPT.

Además de las DAOs, tienen otros medios para que los usuarios agrupen sus datos en conjuntos de datos que luego pueden ser utilizados para el entrenamiento de modelos GenAI, como la creación de retratos o avatares.

Más allá de lo que Vana está haciendo, con Anna hablamos sobre el crecimiento del espacio de IA descentralizada, ya que las plataformas ayudan a las personas a usar y monetizar sus datos para nuevas aplicaciones.

Summary

¿Puedes proporcionar una visión general de Vana y su misión en el espacio de IA descentralizada?

Vana es una plataforma de IA propiedad de los usuarios impulsada por datos propiedad de los usuarios. Nuestra misión es que los usuarios sean dueños de sus datos y del valor que crean a través de modelos de IA. Hay una necesidad creciente de más datos de entrenamiento para mejorar el rendimiento de los modelos de IA, ya que, en última instancia, los modelos de IA son tan buenos como sus datos.

Por ejemplo, LLaMA 3 está entrenado con aproximadamente 15 billones de palabras, que es aproximadamente la cantidad de datos disponibles en el internet público. Las empresas ahora están tratando de adquirir más datos, a veces pagando cientos de millones de dólares por ellos. Las principales plataformas tecnológicas están acumulando datos valiosos de los usuarios y construyendo nuevas tecnologías sin considerar los permisos de los usuarios, lo que está frenando la innovación.

En Vana, estamos liberando datos de estos jardines amurallados al ponerlos bajo el control del usuario. Permitimos a los usuarios contribuir directamente a los modelos de IA, elegir cómo se utiliza su información y cómo se usa la IA. Creemos que podemos superar a los modelos líderes si podemos acceder a los mejores datos, superando el rendimiento de modelos como GPT-6 al acceder a datos disponibles directamente de los usuarios. Vana está diseñada como una blockchain de capa 1 diseñada desde cero para datos privados y propiedad del usuario.

El Reddit Data DAO vio a 140k usuarios registrarse en su primera semana. ¿Qué crees que impulsó esta rápida adopción, y qué lecciones aprendiste de este lanzamiento?

El Reddit Data DAO fue un éxito increíble desde una perspectiva de adopción, con más de 140k usuarios registrándose en la primera semana. Este nivel de adopción es inusual para DAOs–ahora es el data DAO más grande de la historia.

Una de las cosas que impulsó la adopción rápida es que gran parte de la historia ya había sido establecida, ya que los usuarios se están volviendo cada vez más conscientes del valor de sus datos a través de la cobertura de prensa sobre la venta de datos. Darse cuenta de que Reddit está vendiendo tus datos por $200M o que Apple está comprando datos por $50M te hace mucho más consciente de su valor.

También hay un fuerte apetito por productos propiedad de los usuarios construidos en web3 que van más allá de los productos familiares de DeFi hacia una nueva frontera de propiedad. Estamos viendo esta tendencia en proyectos como Farcaster, redes DePIN y DAOs de datos construidos en Vana, que representan una nueva ola de productos propiedad de los usuarios.

Una lección importante fue la necesidad de requisitos de prueba de contribución. Más de un millón de personas intentaron unirse al Reddit Data DAO, pero muchas no cumplían con los criterios de tener una cuenta de Reddit que haya existido por un cierto tiempo y tenga una cantidad mínima de datos. Esto resalta la importancia de tener mecanismos para asegurar contribuciones de calidad.

Mencionaste planes para crear Data DAOs para plataformas como LinkedIn y Chat GPT. ¿Qué desafíos y oportunidades únicos ves en expandirse a estas plataformas?

Vana es una red de igual a igual para datos propiedad de los usuarios, y los constructores han creado varios DAOs de datos como el Reddit Data DAO, LinkedIn Data DAO y ChatGPT Data DAO.

Estas diferentes fuentes de datos son increíblemente valiosas para entrenar modelos de AI, pero actualmente están encerradas en jardines amurallados. Cada una de estas plataformas puede ser complicada para extraer datos, pero siempre es posible debido a la regulación de datos.

¿Cómo empodera Vana a los usuarios para monetizar sus datos, y cuáles son algunos ejemplos de cómo los usuarios se han beneficiado de esto?

Nuestro objetivo es ayudar a los usuarios a monetizar y proteger sus datos simultáneamente. Por ejemplo, con el Reddit Data DAO, ahora están entrenando un modelo propiedad de los usuarios (principalmente enfocado en shitposting en esta etapa, pero es un comienzo). Los usuarios reciben pagos cada vez que se utiliza el modelo, creando un incentivo económico para la propiedad conjunta del modelo.

Y los datos del usuario permanecen completamente privados – en lugar de vender los datos, los datos solo se “alquilan” donde los datos subyacentes nunca salen del entorno seguro.

Con la creciente preocupación por la privacidad de los datos, ¿cómo asegura Vana que los datos de los usuarios estén seguros y se utilicen de manera ética dentro de Data DAOs?

La privacidad de los datos ha pasado de ser solo una cuestión ideológica o de preferencia a una cuestión económica. Si alguien tiene tus datos, potencialmente pueden crear una versión de IA de ti que sea económicamente valiosa, generando ingresos y potencialmente compitiendo contigo. Es por eso que la privacidad es tan importante y fundamental para Vana.

Inventamos un concepto llamado “datos no custodiales”, que es similar a una billetera no custodial pero para tus datos personales. Mantiene tus datos bajo tu control total, autorizados por tu clave privada. Esto permite que tus datos sean portátiles a través de aplicaciones y agrega una capa financiera nativa encima, permitiendo que se construyan cosas como DAOs de datos.

¿Cómo mejoran los conjuntos de datos creados a través de los Data DAOs de Vana el entrenamiento de modelos de IA generativa, y qué ventajas ofrecen sobre los conjuntos de datos tradicionales?

Normalmente, los modelos de IA se entrenan con datos extraídos de internet público, datos que están disponibles sin necesidad de iniciar sesión en ningún sitio. Pero si lo piensas desde la perspectiva de enseñar a un niño sobre el mundo, no querrías que simplemente deambulara por internet público al azar. Querrías darle información de alta calidad que podría no estar disponible públicamente, cosas como escritura de alta calidad, procesos de pensamiento o mensajes. La IA se entrena principalmente con datos públicos, pero realmente necesita datos privados para empujar las fronteras. Esto es lo que permiten los DAOs de datos: usuarios que contribuyen con sus datos privados para crear IA propiedad de los usuarios.

Creemos que la IA debería ser creada más como software de código abierto, por una comunidad. Nuestro objetivo es dar a los investigadores acceso a los mejores conjuntos de datos que actualmente están retenidos dentro de jardines amurallados para impulsar las fronteras del rendimiento de la IA.

¿Qué tendencias prevé en el espacio de IA descentralizada durante los próximos 5-10 años, y cómo se está posicionando Vana para liderar en este panorama en evolución?

El espacio de IA descentralizada realmente se ha acelerado en el último año. Por ejemplo, en EthCC este año, hubo un evento de IA descentralizada casi todos los días, en comparación con ninguno el año pasado. La gente está descubriendo cómo aplicar tecnologías soberanas que han funcionado bien para las finanzas al espacio de IA. En Vana, creemos que la base fundamental de todo esto es los datos. Para construir IA de propiedad del usuario y IA soberana, necesitas datos de propiedad del usuario, por lo que nuestro enfoque está en esa pieza de datos.

En los próximos 5-10 años, estoy emocionado por algunos hitos: 1) Un modelo de fundación propiedad de los usuarios, colectivamente propiedad de 100 millones de personas. 2) Más agentes de IA autónomos que puedan ganar por sí mismos, y asegurar que esos agentes sean verdaderamente propiedad de los usuarios que contribuyeron a entrenarlos.

A medida que la IA desempeña un papel económico cada vez más importante, es fundamental garantizar que el poder esté ampliamente distribuido tanto desde una perspectiva técnica como social.

¿Puedes compartir más sobre tu colaboración con desarrolladores para construir Data DAOs? ¿Cuáles son algunos de los proyectos innovadores que están actualmente en desarrollo?

Vana es una red sin permisos, por lo que cualquiera puede construir un data DAO. Es una blockchain de capa uno diseñada desde cero para datos privados y propiedad del usuario. Hay más de 100 data DAOs desplegados en la testnet de Satori hoy en día. Muchos de los constructores son participantes tempranos en el ecosistema de Bittensor que entienden profundamente la intersección de crypto y AI. Algunos proyectos notables incluyen el Twitter Data DAO, LinkedIn Data DAO y GitHub Data DAO. También estamos asociándonos con proyectos en el espacio ZK y el espacio de herramientas DAO para hacer que los data DAOs sean aún más fáciles de crear y gestionar.

¿Cuáles son las consideraciones éticas más urgentes en el desarrollo de IA descentralizada, y cómo aborda Vana estos problemas?

Creo que una de las preguntas más importantes en la IA hoy en día es quién debería poseer los modelos y decidir qué datos se incluyen en ellos. A medida que comenzamos a depender más y más de la IA para obtener información, se convierten en nuestra fuente de verdad. Quien decida qué entra en la IA está esencialmente decidiendo la verdad. Es aterrador tener una sola entidad controlando esto. Nuestra visión en Vana es que la comunidad, no una sola empresa, debería tomar estas decisiones.

Otra pregunta que surge en la IA descentralizada es: si la IA está completamente descentralizada, ¿qué pasa si la IA se vuelve rebelde y no hay un botón de apagado? La forma en que abordamos esto en Vana es que los modelos de IA son en última instancia propiedad de los usuarios que han contribuido a ellos, por lo que siempre permanecen bajo su control total.

¿Qué consejo le darías a los emprendedores aspirantes que buscan ingresar al espacio de IA descentralizada, basándote en tus experiencias con Vana y Data DAOs?

Es un gran momento para comenzar a construir en el espacio de IA descentralizada. Hay muchas oportunidades para aplicar algunos de los primitivos económicos de cripto que han funcionado bien para DeFi a la nueva categoría emergente de datos y IA descentralizados. También recomendaría pasar algún tiempo explorando el espacio de IA de código abierto no cripto para aprender sobre algunos de los enfoques que las personas están tomando fuera de un contexto cripto. Me sumergiría de lleno en algunos de los proyectos existentes para ver qué tipo de primitivos están disponibles para construir, incluyendo probar iniciar un DAO de datos en Vana.

Artículo anterior

Bitcoin Depot: todo lo que necesitas saber sobre los cajeros automáticos de criptomonedas

Artículo siguiente

WalletConnect: entrevista con el CEO de uno de los más famosos crypto OG

Reddit data DAO y todo lo que necesitas saber sobre el entrenamiento de modelos de Gen AI

¿Puedes proporcionar una visión general de Vana y su misión en el espacio de IA descentralizada?

El Reddit Data DAO vio a 140k usuarios registrarse en su primera semana. ¿Qué crees que impulsó esta rápida adopción, y qué lecciones aprendiste de este lanzamiento?

Mencionaste planes para crear Data DAOs para plataformas como LinkedIn y Chat GPT. ¿Qué desafíos y oportunidades únicos ves en expandirse a estas plataformas?

¿Cómo empodera Vana a los usuarios para monetizar sus datos, y cuáles son algunos ejemplos de cómo los usuarios se han beneficiado de esto?

Con la creciente preocupación por la privacidad de los datos, ¿cómo asegura Vana que los datos de los usuarios estén seguros y se utilicen de manera ética dentro de Data DAOs?

¿Cómo mejoran los conjuntos de datos creados a través de los Data DAOs de Vana el entrenamiento de modelos de IA generativa, y qué ventajas ofrecen sobre los conjuntos de datos tradicionales?

¿Qué tendencias prevé en el espacio de IA descentralizada durante los próximos 5-10 años, y cómo se está posicionando Vana para liderar en este panorama en evolución?

¿Puedes compartir más sobre tu colaboración con desarrolladores para construir Data DAOs? ¿Cuáles son algunos de los proyectos innovadores que están actualmente en desarrollo?

¿Cuáles son las consideraciones éticas más urgentes en el desarrollo de IA descentralizada, y cómo aborda Vana estos problemas?

¿Qué consejo le darías a los emprendedores aspirantes que buscan ingresar al espacio de IA descentralizada, basándote en tus experiencias con Vana y Data DAOs?

Acciones Mara Holdings: consolidación por encima del pivote 13,15, objetivo 13,58

Los acuerdos de compra de energía meta de DESRI añaden 850 MW para 2026, el total alcanza 2.575

Migración CCIP de Kraken: ¿por qué el exchange dejó de usar LayerZero?

Featured video

LATEST

Don't miss out on any updates