Skaber vores PDF dokumenter et SEO-problem?

Video: Grosen Friis besvarer i denne video månedens spørgsmål til SEO-brevkassen, som lyder sådan her: “På vores hjemmeside har vi en masse tilknyttede PDF og med samme indhold som vi har på selve hjemmeside. Kan det skade os i forhold til Google?” Se Grosens svare herunder:

Man kan godt ende med at få problemer med dobbeltindhold, hvis man har det samme indhold i eksempelvis PDF dokumenter, som man har på normale HTML sider. Og det behøver ikke kun være i PDF dokumenter, det kan også forekomme i eksempelvis tekstbehandlingsdokumenter eller regneark.

I et PDF dokument kan man ikke indsætte meta-robots = noindex eller indsætte canonical i sidens header for at forebygge at PDF dokumentet bliver indekseret. Her er eneste mulighed oftest at man indsætter et filter i sin robots.txt fil, der fortæller søgemaskinernes bots at de ikke skal se på indholdet fra bestemte filtyper (eksempelvis alle filer med fil-endelse ‘.pdf’) eller fra en bestemt undermappe (eksempelvis ‘/pdf/’). At indsætte et filter i Robots.txt er dog ikke nogen garanti for at sider ikke bliver indekseret, men det er oftest den bedste mulighed man har for at forebygge dobbeltindhold imellem PDF dokumenter og almindelige HTML sider.

Flyt dit “guld” fra PDF’er ind på HTML sider

Det vi af og til ser, er, at virksomheder, der benytter PDF dokumenter som en del af deres website, har meget mere indhold gemt i PDF dokumenterne end de har på deres almindelige HTML sider. Det er ikke hensigtsmæssigt af to årsager:

  • en HTML side vil altid slå et PDF dokument i Google søgeresultater alt andet lige.
  • det er vores klare formodning, at færre brugere vil klikke på et søgeresultat hvis det henviser til et PDF dokument i stedet for til en almindelig HTML side.

Så det vil her være en god ide at få flyttet det ekstra indhold man måtte have i sine PDF dokumenter ind på almindelige HTML sider og så blokere imod at PDF dokumenter bliver indekseret via et robots.txt filter. Bare fordi man nu har samme indhold i sine PDF dokumenter som man har på sine HTML sider, så er det ikke ensbetydende med at man så bare bør fjerne/slette alle PDF dokumenterne som man har tilknyttet sit website. Nogle brugere vil foretrække at læse indholdet i en PDF reader og andre vil gerne benytte et PDF dokument til at printe indholdet ud.

At flytte indhold fra PDF’er kan tage tid

Hvis man vælger at flytte indhold fra PDF dokumenter ind på almindelige HTML sider og man har mange PDF dokumenter. Så kan det betyde at man ikke kan flytte alt indholdet på samme dag, men at man i stedet må fordele dette arbejde over en længere periode. Her kan det være en god ide at introducere en ekstra undermappe på webserveren, som skal bruges til de PDF dokumenter hvis indhold er blevet flyttet ind på HTMl sider.

Lad os antage at PDF dokumenter indtil nu har været placeret i en undermappe der hedder ‘/pdf/’, og at man nu laver en ny undermappe ‘/pdf2/’. Når man er færdig med at flytte indholdet fra et PDF dokument og ind på en HTML side, så flytter man (ikke kopiere) PDF dokumentet fra ‘/pdf/’ til ‘/pdf2/’. Det link man måtte have på sin HTML side der p.t. peger på PDF dokumentet skal tilpasses, så det nu peger på ‘/pdf2/’ undermappen. Sidst men ikke mindst så skal man sætte et filter op i din robots.txt fil, der der sådan ud:

Disallow: /pdf2/

Det er kun ‘/pdf2/’ undermappen der skal blokeres imod indeksering via robots.txt, ikke den oprindelige ‘/pdf/’ undermappe og årsagen er at her ligger PDF’er med indhold som endnu ikke er flyttet. Så længe indhold ikke er flyttet så er det bedre at et PDF dokument kan forsøge at skaffe organisk trafik end slet ikke.

Grosen Friis
Skrevet af
Grosen Friis
Brugbar artikel? Del gerne med dit netværk

4 svar til “Skaber vores PDF dokumenter et SEO-problem?

  1. Hej Grosen,
    Super god og pædagogisk beskrivelse, jeg er helt klart også tilhænger af, at kopiere indholdet over på en html-side.
    Du glemte lige at anbefale en 301 redirect fra den gamle pdf til siden med det opdaterede indhold!
    Altså hvis pdf har været indekseret inden denne lille øvelse. Ellers fanger det også evt. glemte links til den gamle pdf placering 🙂

    Godt Nytår
    Michael Bredahl

    1. Hej Michael
      Tak for din kommentar, og jeg er helt enig i, at det er relevant at redirecte PDF dokumenter til den HTML side, som man vælger at flytte indholdet til, men det er dog kun aktuelt, hvis man bagefeter vælger at slette/fjerne PDF dokumentet fra ens website.
      Tak og et godt nytår til dig også 🙂
      /Grosen

      1. Hej Grosen,

        Nu anbefalede du jo at flytte PDF’en til “/pdf2/” i din video, og så opstår der et “hul” 🙂
        I stedet for at 301 redirecte til den nye placering for PDF, ville jeg foretrække at redirecte til dokumentet, der nu indeholder PDF teksten. På den måde er der dobbelt gevinst.

        /Michael

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Mød vores team

Meet out team