algorythmus gesucht bzw. evtl. ein Tipp



  • Servus.
    Ich möchte bei meinen Script versuchen, automatisiert Websites zu kategorisieren.
    Wie würdet ihr das realisieren?

    Mir fällt bisher nur eine mühsame Lösung ein:
    Für jede Kategorie endlos viele Stichwörter definieren (z.B. Sport: Fussball, Handball, Ergebnis, Bundesliga etc.

    Programmierung: Python, PHP, C++, Webframework etc.

    ....)
    und dann prüfen, ob die ein dieser Wörter im Quelltext finden und denn dementsprechend die Kategorie wählen.
    Wenn er nichts finden -> Sonstiges

    Habt ihr nen besseren Weg im Kopf ?



  • Hallo daddeldu,

    würde es nicht ausreichen die keywords zu untersuchen?

    <meta name="keywords" content="Bundesliga, C++, ...">
    

    Viele Grüße,
    MaBa



  • MaBa schrieb:

    Hallo daddeldu,

    würde es nicht ausreichen die keywords zu untersuchen?

    <meta name="keywords" content="Bundesliga, C++, ...">
    

    Viele Grüße,
    MaBa

    alter, wer hat dir eigentlich dein diplom verliehen 🙄



  • naja dafür gibt es leider viel zu viele Seiten, die dieses Metatag nicht verwenden.



  • Hallo daddeldu,

    kommt darauf an welche Seiten du analysieren willst. Ich behaupte einfach mal, dass offizielle Seiten durchaus konsequent keywords angeben. Auch Suchmaschinen lesen die keywords aus und gewichten damit das Ranking. Google macht natürlich alles anders, aber Webmaster orientieren sich ja nicht nur an einer Suchmaschine.

    Auch wenn du eine Website durch einen online-Dienst bewerten lässt (z.B. seitwert.de) ist die Anzahl der keywords ein Kriterium zur Bewertung der Seite.

    Natürlich kann man auch den sichtbaren Seiteninhalt durchsuchen, aber ich mag bezweifeln, dass die Trefferquote beim Kategorisieren höher ist, als beim Analyisieren der Keywords. Schließlich müsstest du die Wörter zählen (wobei hier der Sinn der Wörter nicht erkannt wird!) und ob auf einer Fußball-Seite das Wort "Fußball" oft genug fällt, um es in der entsprechenden Kategorie einzuordnen, halte ich für eine gewagte Theorie.

    rage_quit hat bestimmt einen besseren Vorschlag für dich 😉

    Viele Grüße,
    MaBa



  • Danke
    Man noch versuchen ausm <title> abzuleiten und ansonsten wird es



  • MaBa schrieb:

    rage_quit hat bestimmt einen besseren Vorschlag für dich 😉

    na klar nimm nen aktuellen browser (firefox) dann kannst auch reine js seiten in deinen index aufnehmen 😉

    faken kann man nur das nicht was der user real auf dem bildschirm sieht daher werden seit jahren keywords eigentlich nicht mehr fürs ranking verwendet;)



  • sowas hast gesucht oder 😕


Anmelden zum Antworten