Malaking modelong pangwika

Ang isang malaking modelong pangwika o large language model ( LLM ) ay isang modelo ng wika na kapansin-pansin para sa kakayahang makamit ang pangkalahatang layunin ng pagbuo ng wika at iba pang mga natural na gawain sa pagproseso ng wika tulad ng pag-uuri . Nakukuha ng mga LLM ang mga kakayahang ito sa pamamagitan ng pag-aaral ng mga relasyong istatistikal mula sa mga dokumento ng teksto sa panahon ng isang computationally intensive self-supervised at semi-supervised na proseso ng pagsasanay. ^[1] Maaaring gamitin ang mga LLM para sa pagbuo ng teksto, isang anyo ng generative AI, sa pamamagitan ng pagkuha ng ininput na teksto at paulit-ulit na paghula sa susunod na token o salita. ^[2]

Ang mga LLM ay mga artipisyal na neural network . Ang pinakamalaki at pinaka may kakayahang ay binuo gamit ang isang pang-decoder lang na nakabaseng transformer na arkitektura habang ang ilang kamakailang pagpapatupad ay batay sa iba pang mga arkitektura, tulad ng mga paulit-ulit na variant ng neural network at Mamba (isang state space model). ^[3] ^[4]

Hanggang noong 2020, ang fine tuning ang tanging paraan para maiangkop ang isang modelo para magawa ang mga partikular na gawain. Ang mga mas malalaking modelo, gaya ng GPT-3, gayunpaman, ay maaaring ihenyerihan kaagad upang makamit ang mga katulad na resulta. ^[5] Ipinapalagay na nakakakuha sila ng kaalaman tungkol sa sintaks, semantiks at "ontolohiya" na likas sa corpora ng wika ng tao, ngunit pati na rin ang mga kamalian at bias na nasa corpora. ^[6]

Ang ilang kilalang LLM ay ang GPT na serye ng mga modelo ng OpenAI (hal., GPT-3.5 at GPT-4, ginagamit sa ChatGPT at Microsoft Copilot ), PaLM at Gemini ng Google (ang huli ay kasalukuyang ginagamit sa chatbot ng parehong name ), xAI's Grok, mga pamilya ng mga open-sourced na modelong LLaMA ng Meta, mga Claude model ng Anthropic, at mga open source na modelo ng Mistral AI.

Mga sanggunian[baguhin | baguhin ang wikitext]

↑ "Better Language Models and Their Implications". OpenAI. 2019-02-14. Inarkibo mula sa orihinal noong 2020-12-19. Nakuha noong 2019-08-25.
↑ Bowman. "Eight Things to Know about Large Language Models". arXiv:2304.00612.
↑ Merritt, Rick (2022-03-25). "What Is a Transformer Model?". NVIDIA Blog (sa Ingles). Nakuha noong 2023-07-25.
↑ Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752
↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (mga pat.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.
↑ Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905.

[:7-1] "Better Language Models and Their Implications". OpenAI. 2019-02-14. Inarkibo mula sa orihinal noong 2020-12-19. Nakuha noong 2019-08-25.

[Bowman-2] Bowman. "Eight Things to Know about Large Language Models". arXiv:2304.00612.

[3] Merritt, Rick (2022-03-25). "What Is a Transformer Model?". NVIDIA Blog (sa Ingles). Nakuha noong 2023-07-25.

[4] Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752

[few-shot-learners-5] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (mga pat.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.

[Manning-2022-6] Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905.

[1]

[2]

[3]

[4]

[5]

[6]