Newbie: Setup a TextMining Process
fmueller
New Altair Community Member
Guten Tag
Bitte entschuldigt das ich mein Topic in deutscher Sprache eröffne.
Ich arbeite als Berater in einem big4 Unternehmen und habe innerhalb eines Projektes den Auftag mehrere komplette Webseiten von Kunden hinsichtlich eines Themenebereichs zu analysieren. D.h. wer veröffentlich mehr informationen bezüglich dises Themenbereichs.
Vorgägnig habe ich mittels HTTrack sämtliche Webseitenen heruntergeladen und HTML und PDF Datenen in TXT Files konvertiert.
Folglich geht es nun darum pro Kunden-Webseite nach Wörteren und Wortfolgen, zusammengefasst in einzelne Themenbereiche/Kategorien, zu suchen/analysieren. z.B.
Themenbereich/Kategorie A:
Pattern1: wordA1
Pattern2: wordA2 wordA3
Pattern3: wordA4
Themenbereich/Kategorie B:
Pattern1: wordB1
Pattern2: wordB2 wordB3
Pattern3: wordB4
Themenbereich/Kategorie C:
Pattern1: wordC1
Pattern2: wordC2 wordC3
Pattern3: wordC4
Pro Pattern, Themenbereich/Kategorie und über sämtliche Bereiche sollte am schluss die Frequenz ermitteler und Ausgewertet werden.
RapidMIner und TextMining Plugin sind installiert. Der Input (eine komplette Webseite: ca. 10000 TXT Files) hat mittels TextInput Operator auch geklappt.
Nun zu meinen Fragen:
1) Kann ich meine Auswertung mittels RapidMiner überhaupt modelieren?
2) Hat jemand schon was ähnliche gemacht und kann mir ein Model posten?
Ich bin über jede Hilfe sehr dankbar.
Gruss
Florian
Bitte entschuldigt das ich mein Topic in deutscher Sprache eröffne.
Ich arbeite als Berater in einem big4 Unternehmen und habe innerhalb eines Projektes den Auftag mehrere komplette Webseiten von Kunden hinsichtlich eines Themenebereichs zu analysieren. D.h. wer veröffentlich mehr informationen bezüglich dises Themenbereichs.
Vorgägnig habe ich mittels HTTrack sämtliche Webseitenen heruntergeladen und HTML und PDF Datenen in TXT Files konvertiert.
Folglich geht es nun darum pro Kunden-Webseite nach Wörteren und Wortfolgen, zusammengefasst in einzelne Themenbereiche/Kategorien, zu suchen/analysieren. z.B.
Themenbereich/Kategorie A:
Pattern1: wordA1
Pattern2: wordA2 wordA3
Pattern3: wordA4
Themenbereich/Kategorie B:
Pattern1: wordB1
Pattern2: wordB2 wordB3
Pattern3: wordB4
Themenbereich/Kategorie C:
Pattern1: wordC1
Pattern2: wordC2 wordC3
Pattern3: wordC4
Pro Pattern, Themenbereich/Kategorie und über sämtliche Bereiche sollte am schluss die Frequenz ermitteler und Ausgewertet werden.
RapidMIner und TextMining Plugin sind installiert. Der Input (eine komplette Webseite: ca. 10000 TXT Files) hat mittels TextInput Operator auch geklappt.
Nun zu meinen Fragen:
1) Kann ich meine Auswertung mittels RapidMiner überhaupt modelieren?
2) Hat jemand schon was ähnliche gemacht und kann mir ein Model posten?
Ich bin über jede Hilfe sehr dankbar.
Gruss
Florian
Tagged:
0
Answers
-
Hallo Florian,
eine solche Analyse (und weiter darüber hinausgehende Dinge) lassen sich durchaus mit RapidMiner bewerkstelligen. Allerdings erfordert eine so komplexe Anforderung auch einen komplexen Prozess. Und der läßt sich halt nicht mal eben so erstellen, so dass ich hier leider nicht weiter in die Tiefe gehen kann. Das sprengt einfach den Rahmen eines kostenlosen Supportforums.
Gerne verweise ich aber auf unsere Schulungen, die einen großen Bereich im Text-Mining abdecken:- Text-Mining: http://rapid-i.com/component/page,shop.product_details/flypage,garden_flypage.tpl/product_id,41/category_id,12/option,com_virtuemart/Itemid,180/vmcchk,1/
- Sentiment Analysis: http://rapid-i.com/component/page,shop.product_details/flypage,garden_flypage.tpl/product_id,43/category_id,12/option,com_virtuemart/Itemid,180/
Zuletzt möchte ich Sie noch freundlich darauf hinweisen, das es sich hier um ein englischsprachiges Forum handelt. Wir werden in naher Zukunft ein deutschsprachiges eröffnen, aber bis es soweit ist, sollen alle Benutzer etwas von den Posts haben.
Mit freundlichen Grüßen,
Sebastian Land0 -
Hi Sebastian
Thanks for your answer.
Can you please list the operaters may i have to use or can help me about me Requirements?
Or provide my a similar example?
Many Thanks and regards
Florian
0