Robots.txt erstellen mit unserem kostenlosen Generator | Google Search Tipps

Robots.txt erstellen: Dein Generator für perfekte Robots.txt-Dateien

Ich will dir helfen eine robots.txt-datei zu machen. Is wichtig für deine website. Du kriegst hier alles was du brauchst für eigene robots.txt datei erstellen. Einfach gemacht auch wenn du keine ahnung von technik hast!

Thank you for reading this post, don't forget to subscribe!

Hier findest du unser robots.text Generator um dich beim erstellen deiner „robots.text“ datei zu unterstützen!

Was is ne Robots.txt und warum brauchst du die für SEO?

Robots.txt datei is was einfaches was du im stammverzeichnis deiner website haben solltest. Sie sagt den crawlers welche teile der website sie anschauen dürfen.

Für SEO total wichtig weil du damit steuerst welche seiten deiner website von suchmaschinen gecrawlt werden dürfen. Wenn ich nicht will dass google bestimmte inhalte findet schreib ich das da rein. Kannst damit verhindern dass unwichtige sachen dein ranking kaputt machen.

Die robots.txt-datei is quasi wie ne anweisung für bots die deine website crawlen sollen. Du sagst ihnen „guck hier, aber nicht da“. So kannst du den traffic auf wichtige seiten lenken!

Wie machste ne einfache Robots.txt-Datei?

Ne robots.txt datei zu erstellen is echt nich schwer. Brauchste nur nen texteditor und dann musste die datei im stammverzeichnis deiner website hochladen.

Die datei besteht aus user-agent und disallow/allow teilen. User-agent sagt welcher bot gemeint is. Disallow sagt wo der crawler nich hin darf und allow wo er hin darf. Hier is wie so ne datei aussieht:

User-agent: *
Disallow: /admin/
Allow: /

Diese anweisung sagt allen bots sie solln vom admin-bereich wegbleiben aber können rest von der gesamte website crawlen.

Du kannst auch googlebot disallow für bestimmte bereiche machen wenn du willst dass google bestimmte teile nicht sieht aber andere crawler schon.

Welche regeln musste beim robots.txt erstellen beachten?

Bei der syntax gibs paar regeln was du wissen musst. Jede regel muss auf eigene zeile. Zwischen dem befehl und dem wert kommt doppelpunkt und leerzeichen.

Crawlers lesen die gruppen von oben nach unten und schauen sich die ersten passenden gruppen vor der verarbeitung von anderen an. Die reihenfolge is also wichtig!

Bei pfaden kannste auch * benutzen für beliebige zeichen oder $ für ende von url. So blockierste alle pdf-dateien:

User-agent: *
Disallow: /*.pdf$

Das musst du verstehen wenn du komplexere sachen für deine website festlegen willst.

Wie sprichst du bestimmte crawler in robots.txt an?

In deiner robots.txt-datei kannst spezielle crawler direkt ansprechen. Nimmste einfach den richtigen user-agent namen.

Für google sieht das so aus:

User-agent: Googlebot
Disallow: /geheime-dokumente/

Kannst auch mehrere robots zusammen in einer datei haben:

User-agent: Googlebot
Disallow: /nur-für-bing/

User-agent: Bingbot
Disallow: /nur-für-google/

So steuerst du genau welche suchmaschine wo gucken darf auf deiner website. Is super wenn du verschiedene strategien für unterschiedliche suchmaschinen hast.

Wann nimmste Disallow und wann Allow in robots.txt?

Ob du disallow oder allow nimmst hängt davon ab was du willst. Disallow stoppt bots von bestimmten urls oder ordnern. Allow sagt explizit ja zum crawlen von bestimmten bereichen.

Wenn du willst dass die meiste website offen is aber nur wenig gesperrt nimm hauptsächlich disallow:

User-agent: *
Disallow: /admin/
Disallow: /privat/

Wenn du umgekehrt fast alles sperren willst und nur bissl freigeben dann so:

User-agent: *
Disallow: /
Allow: /produkte/
Allow: /blog/

Die zweite version blockt erst alles und gibt dann nur bestimmte teile deiner website frei. Is gut für websites in entwicklung oder mit vielen geschützten bereichen.

Wie tuste deine sitemap in die robots.txt-datei?

Ne sitemap in deine robots.txt-datei zu packen is super easy und hilft den suchmaschinen alle wichtigen seiten zu finden.

Du schreibst einfach diese zeile in deine datei:

Sitemap: https://deinewebsite.de/sitemap.xml

Kannst sogar mehrere sitemaps angeben wenn du ne große website hast:

Sitemap: https://deinewebsite.de/sitemap-posts.xml
Sitemap: https://deinewebsite.de/sitemap-pages.xml
Sitemap: https://deinewebsite.de/sitemap-products.xml

Die sitemaps helfen googlebot und andere webcrawler deine website besser zu durchsuchen und neue sachen schneller zu finden. Der pfad muss aber komplette url sein nicht nur relativer pfad.

Wie prüfst du ob deine robots.txt richtig funktioniert?

Nachdem du deine robots.txt-datei erstellt hast musst unbedingt testen ob sie auch macht was du willst. Google hat dafür n cooles tool in der search console.

Geh einfach in google search console und nimm den „robots.txt-test“. Da gibst du deine datei ein und kannst schauen ob urls blockiert oder freigegeben werden wie sie sollen.

Du kannst auch direkt gucken ob deine datei erreichbar is indem du „deinewebsite.de/robots.txt“ in browser eingibst. Wenn was angezeigt wird is sie wenigstens grundsätzlich da.

Diese tests sind wichtig denn fehler in der robots.txt können dazu führen dass wichtige seiten nicht gecrawlt werden oder falsche seiten gecrawlt werden die geschützt sein sollten.

Welche fehler machst du oft bei robots.txt-dateien?

Beim robots.txt erstellen passieren oft typische fehler die du vermeiden solltest:

Ein häufiger fehler is dass die datei im falschen ordner liegt. Die robots.txt muss im stammverzeichnis deiner website sein also bei „https://deinewebsite.de/robots.txt“. Wenn sie woanders is wird sie von crawlers nicht gefunden.

Auch große buchstaben können probleme machen weil „Disallow“ und „disallow“ von manchen bots anders verstanden werden. Bleib am besten bei kleinbuchstaben für befehle.

Noch n fehler is zu denken dass robots.txt-datei seiten vor indexierung schützt. Sie verhindert nur das crawlen nicht aber dass seite in index kommt wenn sie anders gefunden wird.

Wie aktualisierst du deine robots.txt für besseres ranking?

Deine robots.txt-datei solltest regelmäßig aktualisieren besonders wenn sich deine website ändert oder du neue seo strategien hast.

Wenn du neue teile auf deiner website hast check ob die gecrawlt werden sollen oder nicht. Vielleicht willst temporäre seiten oder entwicklungsbereiche blockieren während du echte seiten freigibst.

Pass auch auf ob bestimmte crawling-muster deinen server langsam machen. In der robots.txt kannst auch festlegen wie oft googlebot deine seite crawlen soll.

Gute idee is deine robots.txt immer zu checken wenn du große änderungen an deiner website machst. So stellst sicher dass suchmaschinen immer die wichtigsten teile deiner website crawlen und indexieren.

Nachdem du deine robots.txt-datei hochgeladen und getestet hast solltest du die google search console nutzen um zu sehen ob alles richtig funktioniert.

Wie machste ne robots.txt für wordpress?

Für wordpress websites gibs verschiedene wege ne robots.txt-datei zu erstellen oder zu ändern.

Am einfachsten ist mit nem seo-plugin wie yoast seo oder rank math. Die plugins haben oberflächen wo du deine robots.txt verwalten kannst ohne direkt im code zu arbeiten.

Wenn du kein plugin willst kannst auch manuell ne robots.txt datei erstellen und per ftp ins stammverzeichnis deiner wordpress installation hochladen.

So könnte typische robots.txt für wordpress aussehen:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Allow: /wp-content/uploads/

Diese einstellungen blockieren bereiche die für suchmaschinen nicht wichtig sind und erlauben zugriff auf uploads und öffentliche inhalte.

Kannst du mit robots.txt auch crawling-verhalten steuern?

Ja mit der robots.txt kannste nicht nur sagen welche seiten gecrawlt werden dürfen sondern auch wie das crawling läuft.

Zum beispiel kannst du die crawl-geschwindigkeit für bestimmte bots einstellen:

User-agent: Googlebot
Crawl-delay: 10

Diese anweisung sagt googlebot dass er zwischen seiten 10 sekunden warten soll. Das is gut wenn dein server durch zu viele anfragen überlastet wird.

Aber nicht alle bots hören auf diese anweisung. Google ignoriert zum beispiel „crawl-delay“ in der robots.txt und nutzt stattdessen die einstellungen in der search console.

Du kannst auch bestimmte parameter in urls blocken:

User-agent: *
Disallow: /*?session=

Diese regel verhindert das crawlen von urls mit dem parameter „session=“. So vermeidest du dass crawler in endlosschleifen geraten oder doppelte inhalte indexieren.

Wie nutzt du robots.txt für websites mit mehreren sprachen?

Bei websites mit verschiedenen domains oder subdomains für unterschiedliche länder brauchst du besondere überlegungen für deine robots.txt-dateien.

Jede domain oder subdomain muss eigene robots.txt datei haben. Das heißt „de.website.de“ und „fr.website.de“ brauchen jeweils ihre eigene robots.txt im stammverzeichnis.

Für deutsche domain könntest zum beispiel seiten blockieren die nur für französischen markt sind:

# Robots.txt für de.website.de
User-agent: *
Disallow: /nur-frankreich/

Und umgekehrt für französische domain:

# Robots.txt für fr.website.de
User-agent: *
Disallow: /nur-deutschland/

So stellst sicher dass suchmaschinen für jedes land die besten inhalte crawlen und indexieren. Das macht dein internationales seo besser und verhindert probleme mit doppelten inhalten.

Sollst du fortgeschrittene techniken wie user-agents-gruppen in robots.txt nutzen?

Für kompliziertere websites können fortgeschrittene sachen wie user-agents-gruppen echt nützlich sein. So sprichst du mehrere bots mit ähnlichen regeln an:

User-agent: Googlebot
User-agent: Bingbot
Disallow: /interne-suche/

Diese regel gilt für google und bing aber nicht für andere crawler.

Du kannst auch spezielle regeln für bestimmte bot-typen machen:

User-agent: Googlebot-Image
Disallow: /private-bilder/

Diese regel blockiert nur googles bilder-crawler während andere google-bots weiter zugriff haben.

Solche fortgeschrittenen techniken sind besonders gut wenn deine website viele verschiedene inhaltstypen hat und du komplexere crawling-strategie brauchst. Für kleine websites oft nicht nötig und könnten die robots.txt zu kompliziert machen.

Nach dem erstellen einer robots.txt-datei in diesem stil kannst du weitere informationen finden in google search central oder ähnlichen ressourcen.

Was hat robots.txt mit dem robots exclusion standard zu tun?

Die robots.txt basiert auf dem robots exclusion standard der 1994 als informelle regel zwischen webmastern und suchmaschinen-entwicklern entstand.

Dieser standard sagt wie crawler mit der robots.txt-datei umgehen sollten. Er legt fest dass bots zuerst nach dieser datei suchen sollten bevor sie eine website crawlen.

Der standard is nicht offiziell wird aber von allen normalen suchmaschinen beachtet. Das heißt dass google bing und andere große suchmaschinen die anweisungen in der robots.txt befolgen.

Aber das heißt auch dass böse crawler die anweisungen ignorieren könnten. Die robots.txt is kein sicherheitssystem sondern mehr wie ne nette bitte an freundliche bots.

Der robots exclusion standard wird immer weiter entwickelt. In den letzten jahren kamen neue befehle wie „sitemap“ dazu die ursprünglich nicht teil des standards waren.

Hier sind wichtigste punkte zu robots.txt-dateien:

  • Ne robots.txt-datei is einfache textdatei die crawlern sagt welche bereiche deiner website sie crawlen dürfen und welche nich
  • Die datei muss im stammverzeichnis deiner website liegen (beispiel: website.de/robots.txt)
  • Die hauptbefehle sind user-agent (für wen gilt die regel), disallow (was nicht gecrawlt werden soll) und allow (was gecrawlt werden darf)
  • Du kannst spezifische crawler ansprechen oder mit user-agent: * alle bots gleichzeitig
  • Ne sitemap kannst du mit der anweisung „sitemap: URL“ hinzufügen
  • Teste deine robots.txt immer in der google search console bevor du sie live stellst
  • Die robots.txt verhindert nur das crawlen nicht unbedingt die indexierung von seiten
  • Für wordpress gibs spezielle plugins die dir beim erstellen helfen
  • Achte auf die richtige syntax und vermeide typische fehler wie falsche platzierung oder groß-/kleinschreibung
  • Aktualisier deine robots.txt regelmäßig besonders wenn sich deine website oder seo-strategie ändert
  • Bei internationalen websites braucht jede domain oder subdomain ihre eigene robots.txt-datei
  • Der robots exclusion standard is eine informelle regel wird aber von allen normalen suchmaschinen befolgt

Empfohlene Beiträge

© ProMarketix.com