"Decision tree and rule induction"

Question

Hello you, First of all: We are sorry for our English, especially with reference to specialist terms. We are students and shall write an article about the functionality of rapid miner. Our topic is to analyze specific lectures. For this we want to use a decision tree and rule induction and draw a comparison between these two operators. Concerning the rule induction, we have no idea how to do this. For the decision tree there are many useful tutorials but for the rule induction and how to work with it, there’s more or less nothing in the worldwide web. Furthermore our training data is predefined and we are not sure about how to “tell” rapid miner to use only this specific data to train the model. With the operator x-validation (what is used in the tutorials), the decision tree is trained with data, which is chosen by random. We got the same problem with the rule induction. In addition we are sorry, if our questions should be trivial for you, but unfortunately nobody in our university knows how to help us. Außerdem wäre es super, wenn sich unter den Spezialisten ein deutschsprachiger Experte befinden sollte ;-) So und jetzt nochmal auf deutsch: Wir 2 Studentinnen der LMU München, sind absolut verzweifelt. Wir sitzen an der allerletzten Seminararbeit für den Abschluss unserer Bachelors bei der wir eine Textanalyse von Vorlesungsfolien durchführen sollen. Die Daten liegen uns in txt Format vor und wurden mit dem Operator Process documents from file eingelesen. Zur Vorverarbeitung der Daten wurden zunächst die Operatoren Tokenize, Transform Cases, Filter Stopwords (German), Filter Stopwords (English), Filter Stopwords (Dictionary) und Filter Tokens by Length verwendet. Darüber hinaus wurden die Operatoren Nominal to Text, Select Attributes und Set Role angewendet.

SusiSorglos · Answer

Danke schon mal! Wir werden es jetzt nochmal probieren, haben die Examples gefunden. Wird die Community auch am Wochenende betreut?

Skirzynski · Answer

Hallo SusiSorglos, zunächst einmal: Es gibt für viele Operatoren und Anwendungsfälle Beispielprozesse, die man sich anschauen kann. Für die RuleInduction heißt dieser Prozess 08_RuleLearning, den ihr bei den Repositories findet (unter Samples/processes/01_Learner). Wenn ihr vor dem Lerner einen Breakpoint setzt bevor ihr den Prozess ausführt, könnt ihr auch sehen, was für Eingangsdaten der Lerner bekommt. Zu euren zweiten Punkt: Wenn ihr die Daten schon in Test- und Trainingsdaten unterteilt habt, dann braucht ihr auch keinen speziellen Validierungsoperator. Ihr müsst die Daten also getrennt einladen, so dass ihr zwei ExampleSets habt. Die Trainingsdaten (also eure Wiederholungsvorlesungen) nehmt ihr als Eingabe für den Lerner (z.B. Decision Tree) und der erstellt euch ein Modell, den ihr dann mit dem ModelApplier auf den Testdaten anwenden könnt. Das Ergebnis hiervon könnt ihr dann zur Performance-Messung verwenden. Hier ein kleiner Prozess zur Veranschaulichung mit generierten Daten. Ihr könnt den einladen indem ihr einen neuen Prozess erstellt, das XML im XML-Tab einfügt und auf den grünen Hacken klickt. Viele Grüße Marcin

SusiSorglos · Answer

Nachdem wir nochmal eine Stoppwortliste eingelesen haben, ist wohl irgendetwas schief gelaufen.... da uns jetzt noch nicht mal mehr ein Decision tree angezeigt wird....