stub ChatGPT & Advanced Prompt Engineering: Driving the AI ​​Evolution - Unite.AI
Kontakt med oss

Rask Engineering

ChatGPT & Advanced Prompt Engineering: Driving the AI ​​Evolution

mm

Publisert

 on

OpenAI har vært med på å utvikle revolusjonerende verktøy som OpenAI Gym, designet for å trene forsterkningsalgoritmer, og GPT-n-modeller. Søkelyset er også på DALL-E, en AI-modell som lager bilder fra tekstinndata. En slik modell som har fått betydelig oppmerksomhet er OpenAIs ChatGPT, et lysende eksempel innen store språkmodellers rike.

GPT-4: Prompt Engineering

ChatGPT har transformert chatbot-landskapet, og tilbyr menneskelignende svar på brukerinndata og utvidet applikasjonene på tvers av domener – fra programvareutvikling og testing til forretningskommunikasjon, og til og med skapelsen av poesi.

I hendene på bedrifter og enkeltpersoner kan GPT-4 for eksempel tjene som et uuttømmelig kunnskapsreservoar, dyktig i fag som spenner fra matematikk og biologi til juridiske studier. Slike sofistikerte og tilgjengelige AI-modeller er klar til å redefinere fremtiden for arbeid, læring og kreativitet.

ChatGPT Futuristisk logo

Generative modeller som GPT-4 kan produsere nye data basert på eksisterende input. Denne karakteristiske egenskapen lar dem utføre forskjellige oppgaver, inkludert å generere tekst, bilder, musikk og video.

I sammenheng med ChatGPT- og OpenAI-modeller er en ledetekst innspillet som brukerne gir til modellene, vanligvis i form av tekst. Forespørsler fungerer som det primære middelet for å kontrollere resultatet som genereres av disse modellene, noe som gjør dem avgjørende for vellykkede og relevante samtaler.

Effekten av rask kvalitet

Å bruke veldefinerte spørsmål er nøkkelen til å delta i nyttige og meningsfulle samtaler med AI-systemer. Dårlig definerte forespørsler kan resultere i utdata som ikke er nyttig for brukeren og kan til og med føre til villedende innhold.

For å demonstrere virkningen av promptkvalitet, la oss sammenligne to forskjellige forespørsler gitt til ChatGPT. Den første forespørselen, dårlig definert og forutsatt forkunnskaper, genererer en potensielt lite nyttig respons for brukeren. På den annen side gir den andre ledeteksten mer kontekst og eksempler, noe som sikrer en mer relevant og forståelig respons.

Spør 1: "Fortell meg om konvolusjonelle nevrale nettverk."

Svar 1: «Convolutional Neural Networks (CNNs) er flerlags perceptronnettverk som består av fullstendig sammenkoblede lag og poolingslag. De brukes ofte i bildegjenkjenningsoppgaver. Prosessen innebærer å bruke filtre på inndatabilder og nedskalere dem ved å bruke sammenslåingslag."

Spør 2: «Jeg ønsker å lære om konvolusjonelle nevrale nettverk, men jeg har ingen forkunnskaper om kunstige nevrale nettverk. Kan du gi en nybegynnervennlig forklaring og et eksempel på hvordan CNN-er brukes i bildegjenkjenning?»

Svar 2: «Convolutional Neural Networks (CNNs) er en type nevrale nettverk som primært brukes til bildegjenkjenningsoppgaver. I motsetning til andre nevrale nettverk, utnytter de konvolusjonslag og samlelag for å behandle bilder. Tenk deg at du har et bilde av en katt. CNN-er kan identifisere forskjellige funksjoner i bildet, som værhår, ører og hale, ved å bruke filtre og nedsample bildet ved å bruke lag. Denne prosessen gjør CNN-er svært effektive for å gjenkjenne objekter i bilder."

Ved å sammenligne de to svarene, er det tydelig at en veldefinert forespørsel fører til en mer relevant og brukervennlig respons. Rask design og engineering er voksende fagområder som tar sikte på å optimalisere utdatakvaliteten til AI-modeller som ChatGPT.

I de følgende delene av denne artikkelen vil vi fordype oss i riket av avanserte metoder som tar sikte på å avgrense store språkmodeller (LLM), for eksempel raske ingeniørteknikker og taktikker. Disse inkluderer få-skuddslæring, ReAct, chain-of-thought, RAG og mer.

Avanserte ingeniørteknikker

Før vi fortsetter, er det viktig å forstå et nøkkelproblem med LLM-er, referert til som "hallusinasjon". I sammenheng med LLM-er, betyr "hallusinasjon" tendensen til disse modellene til å generere utganger som kan virke rimelige, men som ikke er forankret i den faktiske virkeligheten eller den gitte input-konteksten.

Dette problemet ble sterkt fremhevet i en nylig rettssak der en forsvarsadvokat brukte ChatGPT for juridisk forskning. AI-verktøyet, vaklende på grunn av hallusinasjonsproblemet, siterte ikke-eksisterende juridiske saker. Dette feiltrinnet hadde betydelige konsekvenser, forårsaket forvirring og undergravde troverdigheten under saksgangen. Denne hendelsen tjener som en sterk påminnelse om det presserende behovet for å ta opp spørsmålet om "hallusinasjon" i AI-systemer.

Vår utforskning av raske ingeniørteknikker har som mål å forbedre disse aspektene ved LLM. Ved å forbedre deres effektivitet og sikkerhet baner vi vei for innovative applikasjoner som informasjonsutvinning. Videre åpner det dører for sømløs integrering av LLM med eksterne verktøy og datakilder, og utvider spekteret av deres potensielle bruksområder.

Læring med null og få skudd: Optimalisering med eksempler

Generative Pretrained Transformers (GPT-3) markerte et viktig vendepunkt i utviklingen av Generative AI-modeller, da det introduserte konseptet 'få-skudd læring.' Denne metoden var en game-changer på grunn av dens evne til å fungere effektivt uten behov for omfattende finjustering. GPT-3-rammeverket er diskutert i papiret, "Språkmodeller er få skuddlærere” der forfatterne demonstrerer hvordan modellen utmerker seg på tvers av ulike brukstilfeller uten at det er nødvendig med tilpassede datasett eller kode.

I motsetning til finjustering, som krever kontinuerlig innsats for å løse varierende brukstilfeller, viser få-shot-modeller lettere tilpasningsevne til et bredere spekter av applikasjoner. Selv om finjustering kan gi robuste løsninger i noen tilfeller, kan det være dyrt i skala, noe som gjør bruken av få-shot-modeller til en mer praktisk tilnærming, spesielt når integrert med rask konstruksjon.

Tenk deg at du prøver å oversette engelsk til fransk. I få-skuddslæring vil du gi GPT-3 noen få oversettelseseksempler som "sjøotter -> loutre de mer". GPT-3, som er den avanserte modellen den er, kan da fortsette å tilby nøyaktige oversettelser. I null-skuddslæring ville du ikke gi noen eksempler, og GPT-3 ville fortsatt være i stand til å oversette engelsk til fransk effektivt.

Begrepet 'få-skuddslæring' kommer fra ideen om at modellen er gitt et begrenset antall eksempler å 'lære' av. Det er viktig å merke seg at "lær" i denne sammenhengen ikke innebærer å oppdatere modellens parametere eller vekter, men det påvirker modellens ytelse.

Få skudd som lærer av GPT-3-papir

Få skuddlæring som demonstrert i GPT-3-papir

Zero-shot learning tar dette konseptet et skritt videre. I nullskuddslæring er det ikke gitt noen eksempler på oppgavefullføring i modellen. Modellen forventes å gi gode resultater basert på den første opplæringen, noe som gjør denne metodikken ideell for spørsmålssvarsscenarier med åpent domene som ChatGPT.

I mange tilfeller kan en modell som er dyktig i nullskuddslæring gi gode resultater når den er utstyrt med eksempler på få eller til og med enkeltbilder. Denne evnen til å veksle mellom null, enkelt og få-shot læringsscenarier understreker tilpasningsevnen til store modeller, og forbedrer deres potensielle applikasjoner på tvers av forskjellige domener.

Zero-shot læringsmetoder blir stadig mer utbredt. Disse metodene er preget av deres evne til å gjenkjenne gjenstander usett under trening. Her er et praktisk eksempel på en forespørsel om noen få skudd:

"Translate the following English phrases to French:

'sea otter' translates to 'loutre de mer'
'sky' translates to 'ciel'
'What does 'cloud' translate to in French?'"

Ved å gi modellen noen få eksempler og deretter stille et spørsmål, kan vi effektivt veilede modellen til å generere ønsket resultat. I dette tilfellet vil GPT-3 sannsynligvis riktig oversette "sky" til "nuage" på fransk.

Vi vil fordype oss dypere i de ulike nyansene av prompt engineering og dens essensielle rolle i å optimalisere modellytelsen under slutninger. Vi skal også se på hvordan det effektivt kan brukes til å skape kostnadseffektive og skalerbare løsninger på tvers av et bredt spekter av brukstilfeller.

Når vi utforsker kompleksiteten til raske ingeniørteknikker i GPT-modeller, er det viktig å fremheve vårt siste innlegg 'Essential guide to prompt engineering i ChatGPT'. Denne veiledningen gir innsikt i strategiene for å instruere AI-modeller effektivt på tvers av en myriade av brukstilfeller.

I våre tidligere diskusjoner fordypet vi oss i grunnleggende promptemetoder for store språkmodeller (LLMs) som nullskudds- og fåskuddslæring, samt instruksjonsoppfordring. Å mestre disse teknikkene er avgjørende for å navigere i de mer komplekse utfordringene med prompt engineering som vi skal utforske her.

Få-skudd-læring kan begrenses på grunn av det begrensede kontekstvinduet til de fleste LLM-er. Uten de riktige sikkerhetstiltakene kan dessuten LLM-er villedes til å levere potensielt skadelig produksjon. I tillegg sliter mange modeller med resonneringsoppgaver eller følger instruksjoner i flere trinn.

Gitt disse begrensningene ligger utfordringen i å utnytte LLM-er til å takle komplekse oppgaver. En åpenbar løsning kan være å utvikle mer avanserte LLM-er eller foredle eksisterende, men det kan medføre betydelig innsats. Så spørsmålet oppstår: hvordan kan vi optimalisere dagens modeller for forbedret problemløsning?

Like fascinerende er utforskningen av hvordan denne teknikken kommuniserer med kreative applikasjoner i Unite AIs 'Mastering AI Art: A Concise Guide to Midjourney and Rask Engineering' som beskriver hvordan fusjonen av kunst og AI kan resultere i fryktinngytende kunst.

Tankekjede-forespørsel

Chain-of-thought-spørring utnytter de iboende autoregressive egenskapene til store språkmodeller (LLM), som utmerker seg ved å forutsi neste ord i en gitt sekvens. Ved å tilskynde en modell til å belyse tankeprosessen sin, induserer den en mer grundig, metodisk generering av ideer, som har en tendens til å være i samsvar med nøyaktig informasjon. Denne justeringen stammer fra modellens tilbøyelighet til å behandle og levere informasjon på en gjennomtenkt og ordnet måte, i likhet med en menneskelig ekspert som går en lytter gjennom et komplekst konsept. En enkel uttalelse som "gå meg gjennom trinn for trinn hvordan ..." er ofte nok til å utløse denne mer detaljerte utgangen.

Zero-shot Chain-of-thought-forespørsel

Mens konvensjonell CoT-spørring krever forhåndstrening med demonstrasjoner, er et fremvoksende område null-shot CoT-spørring. Denne tilnærmingen, introdusert av Kojima et al. (2022), legger nyskapende til uttrykket "La oss tenke steg for steg" til den opprinnelige ledeteksten.

La oss lage en avansert forespørsel der ChatGPT har i oppgave å oppsummere viktige uttak fra AI- og NLP-forskningsartikler.

I denne demonstrasjonen skal vi bruke modellens evne til å forstå og oppsummere kompleks informasjon fra akademiske tekster. Ved å bruke få-skudds læringsmetoden, la oss lære ChatGPT å oppsummere viktige funn fra AI- og NLP-forskningsartikler:

1. Paper Title: "Attention Is All You Need"
Key Takeaway: Introduced the transformer model, emphasizing the importance of attention mechanisms over recurrent layers for sequence transduction tasks.

2. Paper Title: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"
Key Takeaway: Introduced BERT, showcasing the efficacy of pre-training deep bidirectional models, thereby achieving state-of-the-art results on various NLP tasks.

Now, with the context of these examples, summarize the key findings from the following paper:

Paper Title: "Prompt Engineering in Large Language Models: An Examination"

Denne oppfordringen opprettholder ikke bare en klar tankekjede, men bruker også en få-skudds læringstilnærming for å veilede modellen. Det knytter seg til nøkkelordene våre ved å fokusere på AI- og NLP-domenene, og spesifikt gir ChatGPT i oppgave å utføre en kompleks operasjon som er relatert til prompt engineering: oppsummering av forskningsartikler.

React Prompt

React, eller "Reason and Act", ble introdusert av Google i avisen "ReAct: Synergi resonnement og handling i språkmodeller", og revolusjonerte hvordan språkmodeller samhandler med en oppgave, og fikk modellen til å dynamisk generere både verbale resonnementspor og oppgavespesifikke handlinger.

Se for deg en menneskelig kokk på kjøkkenet: de utfører ikke bare en rekke handlinger (skjærer grønnsaker, koker vann, rører ingredienser), men engasjerer seg også i verbale resonnementer eller indre tale ("nå som grønnsakene er hakket, bør jeg sette gryten på ovnen"). Denne pågående mentale dialogen hjelper til med å planlegge prosessen, tilpasse seg plutselige endringer ("Jeg er tom for olivenolje, jeg bruker smør i stedet") og huske sekvensen av oppgaver. React etterligner denne menneskelige evnen, noe som gjør at modellen raskt kan lære nye oppgaver og ta robuste beslutninger, akkurat som et menneske ville gjort under nye eller usikre omstendigheter.

React kan takle hallusinasjoner, et vanlig problem med Chain-of-Thought (CoT)-systemer. CoT, selv om det er en effektiv teknikk, mangler kapasiteten til å samhandle med den ytre verden, noe som potensielt kan føre til faktahallusinasjoner og feilutbredelse. React kompenserer imidlertid for dette ved å kommunisere med eksterne informasjonskilder. Denne interaksjonen lar systemet ikke bare validere resonnementet, men også oppdatere kunnskapen sin basert på den nyeste informasjonen fra omverdenen.

Den grunnleggende funksjonen til React kan forklares gjennom en instans fra HotpotQA, en oppgave som krever resonnement av høy orden. Når du mottar et spørsmål, bryter React-modellen ned spørsmålet i håndterbare deler og lager en handlingsplan. Modellen genererer et resonnementspor (tanke) og identifiserer en relevant handling. Den kan bestemme seg for å slå opp informasjon om Apple Remote på en ekstern kilde, som Wikipedia (handling), og oppdaterer forståelsen basert på den innhentede informasjonen (observasjon). Gjennom flere tanke-handling-observasjonstrinn kan ReAct hente informasjon for å støtte resonnementet sitt, samtidig som det avgrenser det den trenger å hente videre.

OBS:

HotpotQA er et datasett, avledet fra Wikipedia, sammensatt av 113 XNUMX spørsmål-svar-par designet for å trene AI-systemer i komplekse resonnementer, ettersom spørsmål krever resonnement over flere dokumenter for å svare. På den andre siden, CommonsenseQA 2.0, konstruert gjennom gamification, inkluderer 14,343 XNUMX ja/nei-spørsmål og er designet for å utfordre AIs forståelse av sunn fornuft, ettersom spørsmålene med vilje er laget for å villede AI-modeller.

Prosessen kan se omtrent slik ut:

  1. Tanken: "Jeg må søke etter Apple Remote og dens kompatible enheter."
  2. Handling: Søker etter «Apple Remote-kompatible enheter» på en ekstern kilde.
  3. Observasjon: Får en liste over enheter som er kompatible med Apple Remote fra søkeresultatene.
  4. Tanken: "Basert på søkeresultatene kan flere enheter, bortsett fra Apple Remote, kontrollere programmet den opprinnelig ble designet for å samhandle med."

Resultatet er en dynamisk, resonnementbasert prosess som kan utvikle seg basert på informasjonen den samhandler med, noe som fører til mer nøyaktige og pålitelige svar.

ReAct Prompt-teknikk papirreferansebilde

Sammenlignende visualisering av fire spørremetoder – Standard, Chain-of-Thought, Act-Only og ReAct, for å løse HotpotQA og AlfWorld (https://arxiv.org/pdf/2210.03629.pdf)

Å designe React-agenter er en spesialisert oppgave, gitt dens evne til å oppnå intrikate mål. For eksempel inkorporerer en samtaleagent, bygget på basisreact-modellen, samtaleminne for å gi rikere interaksjoner. Kompleksiteten til denne oppgaven er imidlertid strømlinjeformet av verktøy som Langchain, som har blitt standarden for å designe disse agentene.

Kontekst-trofast spørsmål

Avisen 'Konteksttrofaste spørsmål for store språkmodeller' understreker at mens LLM-er har vist betydelig suksess i kunnskapsdrevne NLP-oppgaver, kan deres overdrevne avhengighet av parametrisk kunnskap føre dem på villspor i kontekstsensitive oppgaver. For eksempel, når en språkmodell er trent på utdaterte fakta, kan den gi feil svar hvis den overser kontekstuelle ledetråder.

Dette problemet er tydelig i tilfeller av kunnskapskonflikt, der konteksten inneholder fakta som skiller seg fra LLMs allerede eksisterende kunnskap. Tenk på et tilfelle der en stor språkmodell (LLM), fylt med data før verdensmesterskapet i 2022, får en kontekst som indikerer at Frankrike vant turneringen. Imidlertid fortsetter LLM, basert på sin forhåndstrente kunnskap, å hevde at den forrige vinneren, dvs. laget som vant i verdensmesterskapet i 2018, fortsatt er den regjerende mesteren. Dette demonstrerer et klassisk tilfelle av "kunnskapskonflikt".

I hovedsak oppstår kunnskapskonflikt i en LLM når ny informasjon gitt i konteksten motsier den eksisterende kunnskapen modellen har blitt trent på. Modellens tendens til å lene seg på tidligere opplæring i stedet for den nye konteksten kan resultere i feil resultater. På den annen side er hallusinasjon i LLM generering av svar som kan virke plausible, men som ikke er forankret i modellens treningsdata eller den gitte konteksten.

Et annet problem oppstår når den angitte konteksten ikke inneholder nok informasjon til å svare nøyaktig på et spørsmål, en situasjon kjent som spådom med avholdenhet. For eksempel, hvis en LLM blir spurt om grunnleggeren av Microsoft basert på en kontekst som ikke gir denne informasjonen, bør den ideelt sett avstå fra å gjette.

Eksempler på kunnskapskonflikt og kraften i avholdenhet

Eksempler på mer kunnskapskonflikt og kraften i avholdenhet

For å forbedre den kontekstuelle trofastheten til LLM-er i disse scenariene, foreslo forskerne en rekke tilskyndelsesstrategier. Disse strategiene tar sikte på å gjøre LLM-enes svar mer tilpasset konteksten i stedet for å stole på deres kodede kunnskap.

En slik strategi er å sette inn spørsmål som meningsbaserte spørsmål, der konteksten tolkes som en fortellers uttalelse, og spørsmålet gjelder denne fortellerens mening. Denne tilnærmingen refokuserer LLMs oppmerksomhet til den presenterte konteksten i stedet for å ty til dens allerede eksisterende kunnskap.

Å legge til kontrafaktiske demonstrasjoner til forespørsler har også blitt identifisert som en effektiv måte å øke trofastheten i tilfeller av kunnskapskonflikt. Disse demonstrasjonene presenterer scenarier med falske fakta, som veileder modellen til å være mer oppmerksom på konteksten for å gi nøyaktige svar.

Finjustering av instruksjonene

Instruksjonsfinjustering er en overvåket læringsfase som utnytter å gi modellen spesifikke instruksjoner, for eksempel "Forklar skillet mellom en soloppgang og en solnedgang." Instruksjonen er sammenkoblet med et passende svar, noe i retning av: "En soloppgang refererer til øyeblikket solen dukker opp over horisonten om morgenen, mens en solnedgang markerer punktet når solen forsvinner under horisonten om kvelden." Gjennom denne metoden lærer modellen i hovedsak hvordan den skal følge og utføre instruksjoner.

Denne tilnærmingen påvirker i betydelig grad prosessen med å spørre LLM-er, noe som fører til et radikalt skifte i spørrestilen. En finjustert LLM tillater umiddelbar utførelse av zero-shot-oppgaver, og gir sømløs oppgaveytelse. Hvis LLM ennå ikke er finjustert, kan det være nødvendig med noen få skudds læringstilnærming, som inkluderer noen eksempler i spørsmålet ditt for å lede modellen mot ønsket respons.

"Instruksjonsinnstilling med GPT-4′ diskuterer forsøket på å bruke GPT-4 til å generere instruksjonsfølgende data for finjustering av LLM-er. De brukte et rikt datasett, bestående av 52,000 XNUMX unike instruksjonsfølgende oppføringer på både engelsk og kinesisk.

Datasettet spiller en sentral rolle i instruksjonsinnstilling LLaMA-modeller, en åpen kildekodeserie med LLM-er, som resulterer i forbedret nullskuddsytelse på nye oppgaver. Bemerkelsesverdige prosjekter som f.eks Stanford Alpakka har effektivt brukt Self-Instruct tuning, en effektiv metode for å samkjøre LLM med menneskelige hensikter, ved å utnytte data generert av avanserte instruksjonsinnstilte lærermodeller.

Advanced Prompt Engineering Technique Forskningspapirreferanse

Hovedmålet med instruksjonsinnstillingsforskning er å øke null- og få-skudd generaliseringsevnene til LLM-er. Ytterligere data- og modellskalering kan gi verdifull innsikt. Med dagens GPT-4-datastørrelse på 52K og basis-LLaMA-modellstørrelsen på 7 milliarder parametere, er det et enormt potensial for å samle inn flere GPT-4-instruksjonsfølgende data og kombinere dem med andre datakilder som fører til opplæring av større LLaMA-modeller for overlegen ytelse.

STaR: Bootstrapping Reasoning With Reasoning

Potensialet til LLM-er er spesielt synlig i komplekse resonneringsoppgaver som matematikk eller sunne spørsmålssvar. Imidlertid har prosessen med å indusere en språkmodell for å generere begrunnelser – en serie trinnvise begrunnelser eller «tankekjede» – sitt sett med utfordringer. Det krever ofte konstruksjon av store begrunnelsesdatasett eller et offer for nøyaktighet på grunn av avhengigheten av kun få-skudds slutning.

"Selvlært Reasoner" (Stjerne) tilbyr en innovativ løsning på disse utfordringene. Den bruker en enkel sløyfe for å kontinuerlig forbedre en modells resonneringsevne. Denne iterative prosessen starter med å generere begrunnelser for å svare på flere spørsmål ved å bruke noen få rasjonelle eksempler. Hvis de genererte svarene er feil, prøver modellen igjen å generere en begrunnelse, denne gangen gir den riktige svaret. Modellen finjusteres deretter på alle begrunnelsene som resulterte i riktige svar, og prosessen gjentas.

Stjernepromptteknikk når papirreferansen

STaR-metodikk, som demonstrerer dens finjusteringssløyfe og en prøverasjonalgenerering på CommonsenseQA-datasettet (https://arxiv.org/pdf/2203.14465.pdf)

For å illustrere dette med et praktisk eksempel, tenk på spørsmålet "Hva kan brukes til å bære en liten hund?" med svarvalg som spenner fra svømmebasseng til kurv. STaR-modellen genererer en begrunnelse, som identifiserer at svaret må være noe som er i stand til å bære en liten hund og lande på konklusjonen at en kurv designet for å holde ting, er det riktige svaret.

STaRs tilnærming er unik ved at den utnytter språkmodellens forhåndseksisterende resonneringsevne. Den benytter en prosess med selvgenerering og foredling av begrunnelser, som iterativt starter opp modellens resonnementevner. STaRs loop har imidlertid sine begrensninger. Modellen kan ikke løse nye problemer i treningssettet fordi den ikke mottar noe direkte treningssignal for problemer den ikke klarer å løse. For å løse dette problemet, introduserer STaR rasjonalisering. For hvert problem modellen ikke klarer å svare riktig, genererer den en ny begrunnelse ved å gi modellen det riktige svaret, noe som gjør at modellen kan resonnere bakover.

STaR står derfor som en skalerbar bootstrapping-metode som lar modeller lære å generere sine egne begrunnelser samtidig som de lærer å løse stadig vanskeligere problemer. Anvendelsen av STaR har vist lovende resultater i oppgaver som involverer aritmetikk, matematiske ordproblemer og sunn fornuft. På CommonsenseQA ble STAR forbedret over både noen få skudds grunnlinje og en grunnlinje finjustert for direkte å forutsi svar og presterte sammenlignet med en modell som er 30× større.

Merkede kontekstforespørsler

Konseptet av 'Merkede kontekstforespørsler' dreier seg om å gi AI-modellen et ekstra lag med kontekst ved å merke viss informasjon i inndataene. Disse taggene fungerer i hovedsak som veivisere for AI, og veileder den om hvordan den skal tolke konteksten nøyaktig og generere en respons som er både relevant og saklig.

Tenk deg at du har en samtale med en venn om et bestemt emne, la oss si "sjakk". Du kommer med en uttalelse og merker den med en referanse, for eksempel '(kilde: Wikipedia)'. Nå vet vennen din, som i dette tilfellet er AI-modellen, nøyaktig hvor informasjonen din kommer fra. Denne tilnærmingen tar sikte på å gjøre AIs svar mer pålitelige ved å redusere risikoen for hallusinasjoner eller generering av falske fakta.

Et unikt aspekt ved taggede kontekstforespørsler er potensialet deres til å forbedre den "kontekstuelle intelligensen" til AI-modeller. For eksempel demonstrerer papiret dette ved å bruke et mangfoldig sett med spørsmål hentet fra flere kilder, som oppsummerte Wikipedia-artikler om forskjellige emner og deler fra en nylig publisert bok. Spørsmålene er tagget, og gir AI-modellen ekstra kontekst om kilden til informasjonen.

Dette ekstra laget med kontekst kan vise seg å være utrolig nyttig når det gjelder å generere svar som ikke bare er nøyaktige, men også overholder konteksten som er gitt, noe som gjør AI-resultatet mer pålitelig og troverdig.

Konklusjon: En titt på lovende teknikker og fremtidige retninger

OpenAIs ChatGPT viser det ukjente potensialet til Large Language Models (LLMs) når det gjelder å takle komplekse oppgaver med bemerkelsesverdig effektivitet. Avanserte teknikker som få-skuddslæring, ReAct-oppfordring, tankekjede og STaR, lar oss utnytte dette potensialet på tvers av en mengde applikasjoner. Når vi graver dypere inn i nyansene til disse metodene, oppdager vi hvordan de former landskapet til AI, og tilbyr rikere og sikrere interaksjoner mellom mennesker og maskiner.

Til tross for utfordringer som kunnskapskonflikt, overdreven avhengighet av parametrisk kunnskap og potensial for hallusinasjoner, har disse AI-modellene, med den riktige raske konstruksjonen, vist seg å være transformative verktøy. Finjustering av instruksjonene, kontekstfaste spørsmål og integrasjon med eksterne datakilder forsterker deres evne til å resonnere, lære og tilpasse seg ytterligere.

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.