@ErickSky
NECESITO URGENTEMENTE QUE LEAS ESTO: Acabo de ver la IA del FUTURO... y cabe en un pendrive de 512GB que te sobra del 2018. No es hype de YouTuber con la estúpida cara de sorprendida que ponen los imbéciles (golpéenme fuerte si un día hago esa idiotez). No es "pronto". Es YA. @xenovacom publicó la prueba de que los LLMs de 1-bit reales (no la cuantización) acaban de explotar el juego entero. Se llama Bonsai 1.7B de PrismML. - 1.7 mil millones de parámetros. - 290 MB. - ~100 tokens por segundo en el navegador. - Todo con WebGPU. - Todo true 1-bit end-to-end. Y sí, lo puedes probar ahora mismo en Hugging Face. ¿Por qué esto es absurdamente genial y no solo otro modelo raro? Déjame explicártelo como si estuviéramos tomando café y yo estuviera perdiendo la cabeza (porque lo estoy): Antes si querías correr Llama 3 8B localmente ibas y descargabas 5-6 GB, rezabas para que tu GPU no se muera y terminas usando 16 GB de RAM. Ahora: solo unos putísimos 290 MB. Sí, menos que una temporada de The Office en 1080p. Puedes tenerlo descargado en 3 segundos con conexión de hotel. Tu abuela podría correrlo en su laptop del 2015 sin que se ponga a llorar. La velocidad es insultante: 100 tokens/seg en Chrome. En Chrome. Sin instalar nada. Sin cuenta de OpenAI. Sin pagar API. Es más rápido que muchos setups locales caros que la gente presume en Twitter. Imagínate: estás en un avión sin wifi, abres una pestaña y tienes un modelo que razona casi en tiempo real. La gente va a empezar a hacer prompts en el metro y nadie va a entender qué carajo está pasando. Ah, y esto no es solo "corre más rápido". Es "puedo poner IA en un smartwatch, en un dron, en un Raspberry Pi, en un teléfono viejo… y no se va a quemar la batería en 8 minutos". Solo necesitas un navegador. Cualquiera. En cualquier parte del mundo. Estudiantes en países con internet lento, devs indie, makers, gente que solo quiere jugar… todos ganan. La barrera acaba de desaparecer. PrismML no hizo "otro modelo cuantizado". Hicieron el primer LLM 1-bit que realmente funciona bien y lo aceleraron con WebGPU como si fuera un juego de Unreal Engine 5. Es ingeniería de otro nivel. Esto es el equivalente a cuando pasamos de los celulares con batería de 3 días a los iPhone que duran medio día… pero al revés: volvimos a la eficiencia brutal pero con 1000x más potencia. El futuro no es "IA en la nube más barata". El futuro es IA en tu bolsillo, en tu laptop vieja, en tu smart TV, en tu refrigerador si quieres. Todo local. Todo privado. Todo rápido. Y Bonsai es solo el principio. Si esto escala (y va a escalar), en meses vamos a tener modelos de 7B-13B corriendo a velocidad loca en cualquier dispositivo mediocre. La era del "todo en el browser" acaba de comenzar. Ve, prueba. DEMOOO👇