"problem with multiple input at Process Documents from Files"
Kallust
New Altair Community Member
Hi,
my goal is to extract senteces which include certain keywords from a txt and write this sentences to an excel-file. This works pretty well ,if I give the "Process Documents from Files" Operator just one txt as source. Having over 800 txt to handle I wanted to give the "Process Documents from Files" Operator the folder with all txt as input and at this point my process got messed up. I want for every source txt one result excel-file which holds the extracted sentences of the txt. If i import the whole folder sentences get mixed up, not beeing in the result excel file where they belong.
I hope you can help me understand how Process Documents from Files handles multiple input and how i can solve my problem.
my goal is to extract senteces which include certain keywords from a txt and write this sentences to an excel-file. This works pretty well ,if I give the "Process Documents from Files" Operator just one txt as source. Having over 800 txt to handle I wanted to give the "Process Documents from Files" Operator the folder with all txt as input and at this point my process got messed up. I want for every source txt one result excel-file which holds the extracted sentences of the txt. If i import the whole folder sentences get mixed up, not beeing in the result excel file where they belong.
I hope you can help me understand how Process Documents from Files handles multiple input and how i can solve my problem.
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<process version="5.3.015">
<context>
<input/>
<output/>
<macros/>
</context>
<operator activated="true" class="process" compatibility="5.3.015" expanded="true" name="Process">
<process expanded="true">
<operator activated="true" class="text:process_document_from_file" compatibility="5.3.002" expanded="true" height="76" name="Process Documents from Files" width="90" x="112" y="75">
<list key="text_directories">
<parameter key="Input" value="C:\Users\Administrator\Documents\Studium\Bachelorarbeit\RapidMiner\Test\Quelle"/>
</list>
<process expanded="true">
<operator activated="true" class="text:replace_tokens" compatibility="5.3.002" expanded="true" height="60" name="Replace Tokens" width="90" x="45" y="30">
<list key="replace_dictionary">
<parameter key="[.:!?]" value=". !"/>
</list>
</operator>
<operator activated="false" class="multiply" compatibility="5.3.015" expanded="true" height="94" name="Multiply" width="90" x="45" y="210"/>
<operator activated="false" class="text:filter_tokens_by_regions" compatibility="5.3.002" expanded="true" height="60" name="Filter Tokens (2)" width="90" x="45" y="345">
<parameter key="string" value="programm"/>
</operator>
<operator activated="false" class="text:filter_tokens_by_regions" compatibility="5.3.002" expanded="true" height="60" name="Filter Tokens (by Region)" width="90" x="112" y="255">
<parameter key="string" value="test"/>
</operator>
<operator activated="false" class="text:window_document" compatibility="5.3.002" expanded="true" height="60" name="Window Document" width="90" x="179" y="345">
<parameter key="window_length" value="3"/>
<parameter key="step_size" value="3"/>
<parameter key="extend_last_window" value="false"/>
<process expanded="true">
<connect from_port="segment" to_port="document 1"/>
<portSpacing port="source_segment" spacing="0"/>
<portSpacing port="sink_document 1" spacing="0"/>
<portSpacing port="sink_document 2" spacing="0"/>
</process>
</operator>
<operator activated="false" class="text:window_document" compatibility="5.3.002" expanded="true" height="60" name="Window Document (2)" width="90" x="246" y="255">
<parameter key="window_length" value="3"/>
<parameter key="step_size" value="3"/>
<parameter key="extend_last_window" value="false"/>
<process expanded="true">
<connect from_port="segment" to_port="document 1"/>
<portSpacing port="source_segment" spacing="0"/>
<portSpacing port="sink_document 1" spacing="0"/>
<portSpacing port="sink_document 2" spacing="0"/>
</process>
</operator>
<operator activated="false" class="text:documents_to_data" compatibility="5.3.002" expanded="true" height="94" name="Documents to Data" width="90" x="313" y="300">
<parameter key="text_attribute" value="relevante Sätze"/>
<parameter key="label_attribute" value="b"/>
</operator>
<operator activated="true" class="text:tokenize" compatibility="5.3.002" expanded="true" height="60" name="Tokenize" width="90" x="179" y="30">
<parameter key="mode" value="specify characters"/>
<parameter key="characters" value="!"/>
</operator>
<operator activated="true" class="loop_parameters" compatibility="5.3.015" expanded="true" height="76" name="Loop Parameters" width="90" x="313" y="30">
<list key="parameters">
<parameter key="Set Macro.value" value="anpassungsentwicklungen,arzneimittelentwicklung,basisentwicklung,basisentwicklungen,batterieentwicklungen,beobachtungssatelliten,designabteilung,designabteilungen,development,eigenentwickelten,eigenentwickeltes,eigenentwicklung,eigenentwicklungen,elektronikentwicklungen,engineering,engineeringpartner,entwickeln,entwickelnden,entwickelndes,entwickelt,entwickelte,entwickelten,entwickelter,entwickeltes,entwickler,entwicklung,entwicklungen,entwicklungs,entwicklungsabschluss,entwicklungsabteilung,entwicklungsabteilungen,entwicklungsaktivität,entwicklungsaktivitäten,entwicklungsanstrengungen,entwicklungsanteil,entwicklungsarbeit,entwicklungsarbeiten,entwicklungsaufgaben,entwicklungsauftrag,entwicklungsaufträge,entwicklungsaufträgen,entwicklungsaufwand,entwicklungsaufwandes,entwicklungsaufwendungen,entwicklungsausgaben,entwicklungsbegleitende,entwicklungsbereich,entwicklungsbereichen,entwicklungsdienstleister,entwicklungsergebnisse,entwicklungsergebnissen,entwicklungsfortschritt,entwicklungsgeschäft,entwicklungsingenieure,entwicklungsintensität,entwicklungsinvestitionen,entwicklungskapazitäten,entwicklungskompetenz,entwicklungskompetenzen,entwicklungskooperationen,entwicklungskosten,entwicklungsleistungen,entwicklungslösungen,entwicklungsmaßnahmen,entwicklungsnetzwerks,entwicklungspartner,entwicklungspartnerschaft,entwicklungsplattformen,entwicklungsprojekt,entwicklungsprojekte,entwicklungsprojekten,entwicklungsprojekts,entwicklungsprozess,entwicklungsprozessen,entwicklungsprozesses,entwicklungsprozesskette,entwicklungsressourcen,entwicklungsschwerpunkt,entwicklungsspezialisten,entwicklungsstandorten,entwicklungsstandorts,entwicklungsstrategien,entwicklungsteams,entwicklungstester,entwicklungsthemen,entwicklungstätigkeit,entwicklungstätigkeiten,entwicklungsvolumen,entwicklungsvorgaben,entwicklungsvorhaben,entwicklungsvorsprung,entwicklungswerkzeug,entwicklungszeit,entwicklungszeiten,entwicklungszentren,entwicklungszentrum,entwicklungszyklen,erforschen,erforscht,erforschung,fahrzeugentwicklung,forschen,forschendes,forscher,forscht,forschung,forschungen,forschungs,forschungsabteilungen,forschungsaktivitäten,forschungsanstrengungen,forschungsarbeit,forschungsarbeiten,forschungsaufwand,forschungsaufwands,forschungsaufwendungen,forschungsausgaben,forschungsaußenstelle,forschungsbeiträge,forschungseinrichtungen,forschungseinsätze,forschungsergebnisse,forschungsgesellschaften,forschungsinfrastruktur,forschungsprogramm,forschungsprojekt,foschungsprojekte,forschungsprojekten,forschungsquote,forschungsstellen,forschungsund,forschungszuwendungen,gesamtfahrzeugentwicklung,grundlagenentwicklung,grundlagenforschung,innovationsaktivitäten,innovationsbeitrag,innovationskompetenz,innovationskraft,innovationskultut,innovationsoffensive,innovationsorientierung,innovationspotenzial,innovationsprogramm,innovationsprojekten,innovationsprozess,innovationsprozesse,innovationsprozesses,innovationnsquote,innovationsrate,innovationsstrategie,innovationsstärke,innovationstreiber,innovationsund,innovationsvorsprung,innovationsworkshops,innovationszentrums,innovationszyklen,kerntechnologien,kompetenznetzwerk,kompetenzzentren,kompetenzzentrum,kompetenzzentrums,komplettentwicklung,konstruieren,konstruiert,konstruierten,konstrukteure,konstruktion,konstruktionen,konstruktions,konstruktionsbüro,konstruktionsphase,konzeptionsphase,konzeptphase,krebsforschung,modulentwicklung,naturwissenschaftler,naturwissenschaftlern,neuentwicklete,neuentwicklung,neuentwicklungen,neuproduktentwicklungen,neuproduktentwicklung,produktentstehung,produktentwicklung,produktentwicklungen,produktinnovationen,produktneuentwicklungen,prototypenbau,prototypenlinie,prototypentestphase,prototyping,softwareentwicklung,sonderentwicklung,technologiecentern,technologiekompetenz,technologielösungen,technologienentwicklung,technologieplattform,technologiesprung,technologiestandorte,technologiestrategie,technologietransfer,technologieund,technologievorsprung,technologiezentern,technologiezentren,technologiezentrum,technologiezentrums,technologieübergreifende,testzentrum,verfahrensentwicklung,vorausentwicklung,vorentwickelt,vorentwicklung,weiterentwickeln,weiterentwickelt,weiterentwickelte,weiterentwickelten,weiterentwickeltes,weiterentwicklung,weiterentwicklungen"/>
</list>
<parameter key="synchronize" value="true"/>
<process expanded="true">
<operator activated="true" class="set_macro" compatibility="5.3.015" expanded="true" height="76" name="Set Macro" width="90" x="45" y="30">
<parameter key="macro" value="suchwort"/>
<parameter key="value" value="programm"/>
</operator>
<operator activated="true" class="text:transform_cases" compatibility="5.3.002" expanded="true" height="60" name="Transform Cases" width="90" x="45" y="165"/>
<operator activated="true" class="text:replace_tokens" compatibility="5.3.002" expanded="true" height="60" name="Replace Tokens (2)" width="90" x="179" y="165">
<list key="replace_dictionary">
<parameter key="adidas" value="[Firmenname]"/>
<parameter key="altana" value="[Firmenname]"/>
<parameter key="basf" value="[Firmenname]"/>
<parameter key="bayrische motorenwerke" value="[Firmenname]"/>
<parameter key="bmw" value="[Firmenname]"/>
<parameter key="bayer" value="[Firmenname]"/>
<parameter key="continental" value="[Firmenname]"/>
<parameter key="daimler" value="[Firmenname]"/>
<parameter key="telekom" value="[Firmenname]"/>
<parameter key="fresenius" value="[Firmenname]"/>
<parameter key="henkel" value="[Firmenname]"/>
<parameter key="infinion" value="[Firmenname]"/>
<parameter key="linde" value="[Firmenname]"/>
<parameter key="brenntag" value="[Firmenname]"/>
<parameter key="schering" value="[Firmenname]"/>
<parameter key="siemens" value="[Firmenname]"/>
<parameter key="thyssenkrupp" value="[Firmenname]"/>
<parameter key="volkswagen" value="[Firmenname]"/>
<parameter key="beiersdorf" value="[Firmenname]"/>
<parameter key="degussa" value="[Firmenname]"/>
<parameter key="fresen" value="[Firmenname]"/>
<parameter key="gea" value="[Firmenname]"/>
<parameter key="heidelberg" value="[Firmenname]"/>
<parameter key="hugo boss" value="[Firmenname]"/>
<parameter key="kuka" value="[Firmenname]"/>
<parameter key="k s" value="[Firmenname]"/>
<parameter key="krones" value="[Firmenname]"/>
<parameter key="lanxess" value="[Firmenname]"/>
<parameter key="leoni" value="[Firmenname]"/>
<parameter key="medion" value="[Firmenname]"/>
<parameter key="merck" value="[Firmenname]"/>
<parameter key="mtu" value="[Firmenname]"/>
<parameter key="aurubis" value="[Firmenname]"/>
<parameter key="pfleiderer" value="[Firmenname]"/>
<parameter key="puma" value="[Firmenname]"/>
<parameter key="rheinmetall" value="[Firmenname]"/>
<parameter key="rhoen klinikum" value="[Firmenname]"/>
<parameter key="salzgitter" value="[Firmenname]"/>
<parameter key="schwarz" value="[Firmenname]"/>
<parameter key="sgl" value="[Firmenname]"/>
<parameter key="stada" value="[Firmenname]"/>
<parameter key="vossloh" value="[Firmenname]"/>
<parameter key="wincor" value="[Firmenname]"/>
<parameter key="gigaset" value="[Firmenname]"/>
<parameter key="baywa" value="[Firmenname]"/>
<parameter key="deutz" value="[Firmenname]"/>
<parameter key="dis" value="[Firmenname]"/>
<parameter key="elringklinger" value="[Firmenname]"/>
<parameter key="fuchs petrol" value="[Firmenname]"/>
<parameter key="escada" value="[Firmenname]"/>
<parameter key="gerry weber" value="[Firmenname]"/>
<parameter key="gfk" value="[Firmenname]"/>
<parameter key="gildemeister" value="[Firmenname]"/>
<parameter key="jungheinrich" value="[Firmenname]"/>
<parameter key="kloeckner werke" value="[Firmenname]"/>
<parameter key="koenig bauer" value="[Firmenname]"/>
<parameter key="loewe" value="[Firmenname]"/>
<parameter key="rational" value="[Firmenname]"/>
<parameter key="zapf" value="[Firmenname]"/>
<parameter key="aixtron" value="[Firmenname]"/>
<parameter key="bechtle" value="[Firmenname]"/>
<parameter key="kizoo" value="[Firmenname]"/>
<parameter key="conergy" value="[Firmenname]"/>
<parameter key="draegerwerk" value="[Firmenname]"/>
<parameter key="epcos" value="[Firmenname]"/>
<parameter key="ersol" value="[Firmenname]"/>
<parameter key="evotec" value="[Firmenname]"/>
<parameter key="freenet" value="[Firmenname]"/>
<parameter key="funkwerk" value="[Firmenname]"/>
<parameter key="gpc biotech" value="[Firmenname]"/>
<parameter key="ids scheer" value="[Firmenname]"/>
<parameter key="jenoptik" value="[Firmenname]"/>
<parameter key="kontron" value="[Firmenname]"/>
<parameter key="medigene" value="[Firmenname]"/>
<parameter key="mobilcom" value="[Firmenname]"/>
<parameter key="morphosys" value="[Firmenname]"/>
<parameter key="pfeiffer " value="[Firmenname]"/>
<parameter key="q cells" value="[Firmenname]"/>
<parameter key="qsc" value="[Firmenname]"/>
<parameter key="sigulus" value="[Firmenname]"/>
<parameter key="solarworld" value="[Firmenname]"/>
<parameter key="t online" value="[Firmenname]"/>
<parameter key="united internet" value="[Firmenname]"/>
<parameter key="adva" value="[Firmenname]"/>
<parameter key="carl zeiss meditec" value="[Firmenname]"/>
<parameter key="demag cranes" value="[Firmenname]"/>
<parameter key="drillisch" value="[Firmenname]"/>
<parameter key="duerr" value="[Firmenname]"/>
<parameter key="elmos " value="[Firmenname]"/>
<parameter key="cor fja" value="[Firmenname]"/>
<parameter key="sygnis pharma" value="[Firmenname]"/>
<parameter key="xing" value="[Firmenname]"/>
<parameter key="phoenix solar" value="[Firmenname]"/>
<parameter key="psi" value="[Firmenname]"/>
<parameter key="repower systems" value="[Firmenname]"/>
<parameter key="solon" value="[Firmenname]"/>
<parameter key="stratec biomed" value="[Firmenname]"/>
<parameter key="suess mecrotec" value="[Firmenname]"/>
<parameter key="symrise" value="[Firmenname]"/>
<parameter key="teles" value="[Firmenname]"/>
<parameter key="wacker chemie" value="[Firmenname]"/>
<parameter key="wirecard" value="[Firmenname]"/>
<parameter key="nordex" value="[Firmenname]"/>
<parameter key="beru" value="[Firmenname]"/>
<parameter key="centrotherm" value="[Firmenname]"/>
<parameter key="gerresheimer" value="[Firmenname]"/>
<parameter key="tognum" value="[Firmenname]"/>
<parameter key="versatel" value="[Firmenname]"/>
<parameter key="kolbenschmidt" value="[Firmenname]"/>
<parameter key="phoenix" value="[Firmenname]"/>
<parameter key="ixos" value="[Firmenname]"/>
<parameter key="sap" value="[Firmenname]"/>
<parameter key="wedeco" value="[Firmenname]"/>
<parameter key="wella" value="[Firmenname]"/>
<parameter key="buderus" value="[Firmenname]"/>
<parameter key="manz" value="[Firmenname]"/>
<parameter key="roth rau" value="[Firmenname]"/>
<parameter key="sma solar " value="[Firmenname]"/>
</list>
</operator>
Tagged:
0
Answers
-
My post was too long so the rest of the code is here
<operator activated="true" class="text:filter_tokens_by_regions" compatibility="5.3.002" expanded="true" height="60" name="Filter Tokens (3)" width="90" x="313" y="165">
<parameter key="string" value="%{suchwort}"/>
</operator>
<operator activated="true" class="text:window_document" compatibility="5.3.002" expanded="true" height="60" name="Window Document (3)" width="90" x="313" y="30">
<parameter key="window_length" value="1"/>
<parameter key="extend_last_window" value="false"/>
<process expanded="true">
<connect from_port="segment" to_port="document 1"/>
<portSpacing port="source_segment" spacing="0"/>
<portSpacing port="sink_document 1" spacing="0"/>
<portSpacing port="sink_document 2" spacing="0"/>
</process>
</operator>
<operator activated="true" class="text:documents_to_data" compatibility="5.3.002" expanded="true" height="76" name="Documents to Data (2)" width="90" x="447" y="30">
<parameter key="text_attribute" value="relevante Sätze"/>
<parameter key="label_attribute" value="b"/>
</operator>
<connect from_port="input 1" to_op="Set Macro" to_port="through 1"/>
<connect from_op="Set Macro" from_port="through 1" to_op="Transform Cases" to_port="document"/>
<connect from_op="Transform Cases" from_port="document" to_op="Replace Tokens (2)" to_port="document"/>
<connect from_op="Replace Tokens (2)" from_port="document" to_op="Filter Tokens (3)" to_port="document"/>
<connect from_op="Filter Tokens (3)" from_port="document" to_op="Window Document (3)" to_port="document"/>
<connect from_op="Window Document (3)" from_port="documents" to_op="Documents to Data (2)" to_port="documents 1"/>
<connect from_op="Documents to Data (2)" from_port="example set" to_port="result 1"/>
<portSpacing port="source_input 1" spacing="0"/>
<portSpacing port="source_input 2" spacing="0"/>
<portSpacing port="sink_performance" spacing="0"/>
<portSpacing port="sink_result 1" spacing="0"/>
<portSpacing port="sink_result 2" spacing="0"/>
</process>
</operator>
<operator activated="true" class="append" compatibility="5.3.015" expanded="true" height="76" name="Append" width="90" x="447" y="30"/>
<operator activated="true" class="select_attributes" compatibility="5.3.015" expanded="true" height="76" name="Select Attributes" width="90" x="380" y="165">
<parameter key="attribute_filter_type" value="regular_expression"/>
<parameter key="regular_expression" value="label|metadata_path|metadata_date|window"/>
<parameter key="invert_selection" value="true"/>
<parameter key="include_special_attributes" value="true"/>
</operator>
<operator activated="true" class="remove_duplicates" compatibility="5.3.015" expanded="true" height="76" name="Remove Duplicates" width="90" x="514" y="165"/>
<operator activated="true" class="extract_macro" compatibility="5.3.015" expanded="true" height="60" name="Extract Macro" width="90" x="514" y="300">
<parameter key="macro" value="filename"/>
<parameter key="macro_type" value="data_value"/>
<parameter key="attribute_name" value="metadata_file"/>
<parameter key="example_index" value="1"/>
<list key="additional_macros"/>
</operator>
<operator activated="true" class="write_excel" compatibility="5.3.015" expanded="true" height="76" name="Write Excel" width="90" x="581" y="30">
<parameter key="excel_file" value="C:\Users\Administrator\Documents\Studium\Bachelorarbeit\RapidMiner\Test\Ergebnis%{filename}.xlsx"/>
<parameter key="file_format" value="xlsx"/>
</operator>
<connect from_port="document" to_op="Replace Tokens" to_port="document"/>
<connect from_op="Replace Tokens" from_port="document" to_op="Tokenize" to_port="document"/>
<connect from_op="Multiply" from_port="output 1" to_op="Filter Tokens (2)" to_port="document"/>
<connect from_op="Multiply" from_port="output 2" to_op="Filter Tokens (by Region)" to_port="document"/>
<connect from_op="Filter Tokens (2)" from_port="document" to_op="Window Document" to_port="document"/>
<connect from_op="Filter Tokens (by Region)" from_port="document" to_op="Window Document (2)" to_port="document"/>
<connect from_op="Window Document" from_port="documents" to_op="Documents to Data" to_port="documents 2"/>
<connect from_op="Window Document (2)" from_port="documents" to_op="Documents to Data" to_port="documents 1"/>
<connect from_op="Tokenize" from_port="document" to_op="Loop Parameters" to_port="input 1"/>
<connect from_op="Loop Parameters" from_port="result 1" to_op="Append" to_port="example set 1"/>
<connect from_op="Append" from_port="merged set" to_op="Select Attributes" to_port="example set input"/>
<connect from_op="Select Attributes" from_port="example set output" to_op="Remove Duplicates" to_port="example set input"/>
<connect from_op="Remove Duplicates" from_port="example set output" to_op="Extract Macro" to_port="example set"/>
<connect from_op="Extract Macro" from_port="example set" to_op="Write Excel" to_port="input"/>
<portSpacing port="source_document" spacing="0"/>
<portSpacing port="sink_document 1" spacing="0"/>
</process>
</operator>
<portSpacing port="source_input 1" spacing="0"/>
<portSpacing port="sink_result 1" spacing="0"/>
</process>
</operator>
</process>0