Acabo de salir de una reunión, porque resulta que había un departamento con un proyecto similar, y parece que vamos a comprar un servidor con una GPU para el piloto, nada de reutilizar material de hace 15 años.wendigo escribió: ↑13 Dic 2024 12:00Mola, es complicado de instalar? Yo estay planificando hacer unas cuantas automatizaciones con Home Assistant en la casa nueva y de poner algún asistente de voz lo haría en local con un modelo ultraligero o algo así.rianxeira escribió: ↑13 Dic 2024 11:47 Update:
Pues me hice una instancia de ollama con open webui en una maquinita virtual en casa y ni tan mal. Lenta, pero es esperable. El caso es que lo comente en el trabajo y a los dos días me llaman de dirección y me dicen que por que no monto un piloto en la empresa a ver que tal, así que he montado lo mismo en un servidor viejo con 64 núcleos y medio tera de RAM... y va casi igual de lento. Tenemos unas gráficas viejas que creíamos que eran de ese servidor pero nop. Npo sabemos de donde han salido realmente ni donde ponemos enchufarlas, asi que voy haciendo mis pequeñas pruebas a ritmo de un par de preguntas cada media hora.
Sí, casi todas las aplicaciones de IA tiran principalmente de VRAM. Por eso me pillé la gráfica de intel que trae 16 gibas, En cuanto a las que tienes, depende de qué graficas sean y si merece la pena igual puedes mirar si existen adaptadores.
Dile a los de dirección que se estiren y pillen un par de A100 para ese servidor.
Desplegar esto es muy muy sencillo, lo difícil es la continuación, entrenar la IA para tu objetivo. Es tan fácil que te lo puedes descargar todo de mano con un solo comando de docker, y ya te viene el ollama embebido en una interfaz open webui, que visualmente es como ponerte a trastear directamente con chatgpt. Hay otras opciones igual de fáciles pero yo me he lanzado ya por el camino de ollama.
Aquí mas detallado https://github.com/open-webui/open-webuidocker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama
Después te bajas los modelos que veas según tu capacidad y ya puedes empezar. Tiempo total de todo el proceso, sobre una hora, del cual 50 minutos serán esperar por las descargas. He probado con llama3.2 y mistral, ambos de 7B para no sobrecargar mucho.
Después, para entender un poco lo que quiero montar, encontré un este vídeo que explica bien los conceptos. Lo bueno empieza sobre el 10:30 (antes habla un poco de ias comerciales para mejorar videos y sacar transcripciones). El utiliza otro despliegue, pero los conceptos son los mismos.