Geschrieben am 31. Januar 2009 um 10:43 von
Kategorie: Dinge zu Google

Stand: Ende Januar 2009

Um zu verstehen was Google kann, muss man natürlich erst einmal nachvollziehen, wie Google überhaupt arbeitet.

Am besten man stellt sich Google wie ein Tool zum Webseiten grabben vor, welches kontinuierlich Internetseiten downloadet. Dann wirft Google seine Analyse an, wobei das erste Mal der geheimnisvolle Algorithmus zum Einsatz kommt. Bei Mainstream Seiten wie Ebay oder Wikipedia dürfte das Durchlaufen der Analyse wesentlich häufiger
passieren als bei gewöhnlichen Webseiten. Wenn man z.B. einen super seltenen Artikel bei Ebay verkauft, so kann man diesen 1 Tag später schon auf der Top-Position bei Google finden. Hier Offenbart sich eine weitere Ausrichtung von Google. „Google for Consumer“ könnte man diese Ergebnissausrichtung nennen. Sprich: Seiten die etwas zu einem
Suchbegriff verkaufen sind für Google wichtig. Es wird also Angenommen, dass die User, welche über Google etwas suchen, in erster Linie etwas kaufen möchten (was sicherlich nicht ganz abwegig ist und sicherlich auch im Interesse von Google sein dürfte – wegen der vermarkteten Werbefläche). Vielleicht hängt diese Besonderheit aber auch einfach damit zusammen, dass die meisten Seiten auch nur einfach was verkaufen wollen und somit das Suchergebnis prägen.

Nun aber weiter mit der Analyse. Hierbei wird anscheinend die Webseite einfach Zeilenweise nach Wörtern oder Wortkombinationen abgespeichert. Eine echte Quelltextanalyse geschieht dabei nicht. Google sieht bei
den abgespeicherten Worten die Einzahl und die Mehrzahl jeweils als ein eigenständiges Wort, erkennt jedoch Wortstämme.

Analysiert und nach den Worten katalogisiert werden im Prinzip alle Dokumenten bei dehnen man auch durch markieren und kopieren an einen Text herankommen würde. Also PDF die nicht als Bild vorliegen, HTML und PHP Seiten, TXT usw. Wobei die richtigen Webseiten natürlich im Vordergrund stehen, es aber keinen Unterschied macht ob diese Seiten als HTML oder PHP vorliegen.

Ein echter Knüller ist Google mittlerweile bei Frame-Seiten gelungen. Wurden vor 1-2 Jahren noch die Inhaltsseiten des Frameset bei einer Suchabfrage ausgegeben, so wird nun das Frameset mit Bezug auf die Inhaltseite ausgegeben. Sprich: bei der näheren Beschreibung zu einem Suchergebnis wird der Text des größten Frameinhaltes genommen, aber als Link das Frameset selbst.

Alle hier niedergeschriebenen Erkenntnisse beruhen auf kleinen Testprojekten von Yens und Jan aus dem JAGIN die uns freundlicherweise gestattet haben, den Artikel zu veröffentlichen.

Entspricht dem Stand von Januar 2009