ChatGPT

Administrator

scaramouche

No paper do Llama do Meta:

"When training a 65B-parameter model, our code processes around 380 tokens/sec/GPU on 2048 A100 GPU with 80GB of RAM. This means that training over our dataset containing 1.4T tokens takes approximately 21 days."

"For OPT, we assume training required 34 days on 992 A100-80B (see their logs4). Finally, we estimate that we used 2048 A100-80GB for a period of approximately 5 months to develop our models. This means that developing these models would have cost around 2,638 MWh under our assumptions, and a total emission of 1,015 tCO2eq."

Do que me lembro das redes neuronais em que trabalhei na faculdade, tens de correr os dados todos novamente quando quiseres introduzir algo novo. Isto é, não podes pegar numa nova informação e pô-la individualmente na rede neuronal. Tens de a introduzir nos dados iniciais e depois treinar a RN com tudo. Isto é altamente dispendioso energeticamente e em tempo, mas à falta de outro método mais eficiente, provavelmente resultará em que estas novas LLM sejam treinadas completamente regularmente.

March 31, 2023 6:59 AM

Related Threads:

scaramouche aqui

100 anos de solidão