Newbie: Setup a TextMining Process

fmueller
fmueller New Altair Community Member
edited November 5 in Community Q&A
Guten Tag

Bitte entschuldigt das ich mein Topic in deutscher Sprache eröffne.

Ich arbeite als Berater in einem big4 Unternehmen und habe innerhalb eines Projektes den Auftag mehrere komplette Webseiten von Kunden hinsichtlich eines Themenebereichs zu analysieren. D.h. wer veröffentlich mehr informationen bezüglich dises Themenbereichs.

Vorgägnig habe ich mittels HTTrack sämtliche Webseitenen heruntergeladen und HTML und PDF Datenen in TXT Files konvertiert.

Folglich geht es nun darum pro Kunden-Webseite nach Wörteren und Wortfolgen, zusammengefasst in einzelne Themenbereiche/Kategorien, zu suchen/analysieren. z.B.

Themenbereich/Kategorie A:
Pattern1: wordA1
Pattern2: wordA2 wordA3
Pattern3: wordA4

Themenbereich/Kategorie B:
Pattern1: wordB1
Pattern2: wordB2 wordB3
Pattern3: wordB4

Themenbereich/Kategorie C:
Pattern1: wordC1
Pattern2: wordC2 wordC3
Pattern3: wordC4

Pro Pattern, Themenbereich/Kategorie und über sämtliche Bereiche sollte am schluss die Frequenz ermitteler und Ausgewertet werden.

RapidMIner und TextMining Plugin sind installiert. Der Input (eine komplette Webseite: ca. 10000 TXT Files) hat mittels TextInput Operator auch geklappt.

Nun zu meinen Fragen:
1) Kann ich meine Auswertung mittels RapidMiner überhaupt modelieren?
2) Hat jemand schon was ähnliche gemacht und kann mir ein Model posten?

Ich bin über jede Hilfe sehr dankbar.

Gruss
Florian
Tagged:

Answers