Deep research - det bra, det dåliga och det fula

Funktionen “deep research” blev i slutet av februari tillgänglig för de som betalar för ett “plus” abonnemang av ChatGPT. Jag skrev om detta, och om liknande funktioner från andra leverantörer i ett tidigare blogginlägg.

Hur bra är funktionen, har jag själv haft någon nytta av den, och finns det fallgropar och risker med den? Det korta svaret på frågorna är “bra”, “ja”, “ja” och “absolut”.

Det längre svaret följer i det här blogginlägget.

I ett annat blogginlägg ville jag skriva om huruvida en bra prompt gör skillnad eller ej för hur bra svar man får från en AI. Jag utgick från en artikel som jag fick tag på via mitt flöde. Artikeln menade, bland annat, att det inte spelade någon roll om man gav AI:n en roll (“du är en väldigt intelligent assistent”), och att det inte gav någon mätbar effekt av att formulera prompten artigt (“skulle du vänligen kunna tänka dig att…”) eller hotfullt (“gör som jag säger, annars…”).

Okej, det låter rimligt, och författarna verkar ha gjort ett bra jobb med att backa upp sina påstående med empirisk data. Det finns ändå en massa nya frågor som dyker upp i mitt huvud:

  • Undersökningen gjordes med GPT-4o och GPT-4o-mini. Men hur ser det ut för andra modeller, så som Grok, Claude eller Llama?

  • Undersökningen testade två prompting-trick (att formulera prompten artigt eller hotfullt, respektive att ge AI:n en roll som “en väldigt intelligent assistent”), men hur ser det ut för andra typer av liknande metoder?

  • Är det någon skillnad mellan mindre modeller (så som gemma) och större modeller (GPT-4o et al)?

  • Är det någon skillnad på äldre modeller och nyare?

  • …och så vidare.

Om jag på egen hand skulle hitta och läsa forskning som svarar på frågorna, skulle det ta mig minst ett par dagar. Ett par dagars arbete för ett blogginlägg känns lite mastigt, så jag använde mig av ChatGPTs “deep research” istället.

Det här var prompten jag matade in till “deep research”:

“Please help me find information and research on how important basic prompt engineering is for the result of output of an LLM. Specific prompting techniques I want to evaluate are:

-provide role in prompt (e.g. “you are a top expert in the field”).

-specify the format of output (e.g. “the answer should be in a bullet list”)

-politeness (e.g. “please help me”)

-adding virtual incentives (e.g. “i’ll give you 100 dollar if you are correct”)

-prompt the AI to interview the user for clarification (e.g. “ask me questions to ensure you have all information you need”)

I want information mainly from research and measurements, not speculations and guesses.”

Jag fick några följdfrågor från ChatGPT för att förtydliga min frågeställning, vilket jag besvarade med:

1: I want you to focus on recent studies. Preferably for models as old, or newer, than GPT-4o (i.e. released may 13 2024). only if there are no studies or very few you should look at older studies/models.

2: focus on the models in the ChatGPT family. only expand if too few data points are given by that.

3: structured summary please

4: no preference. peer-reivew, conference paper and whitepapers are all accepted!

Efter fem minuter fick jag en utförlig rapport som låg till grund för blogginlägget Prompten – hur viktig är den egentligen?.

Notera att jag inte läste alla artiklar som länkades, och kan därför inte vara helt säker på att ChatGPT på ett korrekt sätt återgav innehållet i dessa. Det jag gjorde var däremot att gå in och läsa de artiklar som hävdade något jag speciellt ville lyfta fram i bloggen - specifikt att det blir bättre resultat av att be AI:n att ställa följdfrågor till användaren.

Min hustru gjorde också en sökning med “deep research”, och frågan hon ville få svar på var av mer lokal karaktär:

Ta reda på vilka som har bott i (vårt kvarter) i (vår by) sedan 1905 och vad de har jobbat med.”

Hon fick ett ganska bra svar, som beskrev vårt hus och grannhusen. Däremot fick hon en obehaglig överraskning då hon granskade källorna - en av dessa var en webbsida som tidigare var känd som “Radio Islam”. Wikipedia beskriver webbsidan så här:

Radio Islam var en svensk närradiokanal och mediasatsning startad 1987 av Ahmed Rami.[1] Kanalen blev internationellt uppmärksammad för dess grovt antisemitiska innehåll som föranledde flera polisutredningar och åtal.[2][3][4] Två av dessa ledde till fällande domar mot dess ansvariga utgivare för hets mot folkgrupp.[1][5] Radiokanalen lades slutligen ned 1997 men delar av verksamheten fortsatte på dess webbplats och i sociala medier.[1][6]

ChatGPT säger själv såhär om man frågar om siten är en bra källa:

Nej, (webbsidans address) är inte en pålitlig källa. Webbplatsen, tidigare känd som Radio Islam, har en historia av att sprida antisemitiskt innehåll och förneka Förintelsen. Den har beskrivits som en av de mest radikala högerextrema antisemitiska hemsidorna på internet. Grundaren, Ahmed Rami, har dömts för hets mot folkgrupp i Sverige. Därför bör information från denna källa betraktas med stor skepsis.”

Hur gick det här till?

Anledningen att sidan över huvud taget var med i resultatet var att ett av våra grannhus lät byggas av en man från en känd familj av judisk härkomst. Källorna för detta var texter från mindre, lokala, webbsidor från hembygdsföreningar och Wikipedia. Huset gick sedan i arv till hans dotter, vilket hänvisades till en sida på Radio Islam som heter “Judiskt inflytande över det ekonomiska livet i Sverige”.

Själva rapporten som presenterades av ChatGPT innehöll inte några antisemitiska formuleringar, och de fakta som presenterades i den (namnet på dottern och hennes fästman) tycks vara korrekta.

Däremot finns det all anledning att finna det stötande att funktionen “deep research” (i dagsläget) väljer ut källor utan att gallra bort sådana som, för att använda ChatGPTs egna beskrivning, är “en av de mest radikala högerextrema antisemitiska hemsidorna på internet” och vidare manar mig att “information från denna källa betraktas med stor skepsis”.

Hur bör man då som en vanlig användare betrakta och använda “deep research”?

När det fungerar bra är det en väldigt värdefull funktion, som kan hitta och sammanfatta information snabbt.

Det är uppenbart att funktionen inte har någon vidare källkritik, och det är därför viktigt för användaren att både granska vilka källor som används, och själv läsa igenom källorna för att säkerställa att den genererade rapporten dels är baserade på sunda, pålitliga källor, och att dessa källor säger det som rapporten påstår att de gör.

Slutligen vill jag passa på att påpeka något som förhoppningsvis är självklart, och det är att jag avskyr antisemitism, och jag tar bestämt avstånd från antisemitiska websidor, radiokanaler och annat material.