"problem with multiple input at Process Documents from Files"

Kallust
Kallust New Altair Community Member
edited November 5 in Community Q&A
Hi,
my goal is to extract senteces which include certain keywords from a txt and write this sentences to an excel-file. This works pretty well ,if I give the "Process Documents from Files" Operator just one txt as source. Having over 800 txt to handle I wanted to give the  "Process Documents from Files" Operator the folder with all txt as input and at this point my process got messed up. I want for every source txt one result excel-file which holds the extracted sentences of the txt. If i import the whole folder sentences get mixed up, not beeing in the result excel file where they belong.
I hope you can help me understand how Process Documents from Files handles multiple input and how i can solve my problem.

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<process version="5.3.015">
 <context>
   <input/>
   <output/>
   <macros/>
 </context>
 <operator activated="true" class="process" compatibility="5.3.015" expanded="true" name="Process">
   <process expanded="true">
     <operator activated="true" class="text:process_document_from_file" compatibility="5.3.002" expanded="true" height="76" name="Process Documents from Files" width="90" x="112" y="75">
       <list key="text_directories">
         <parameter key="Input" value="C:\Users\Administrator\Documents\Studium\Bachelorarbeit\RapidMiner\Test\Quelle"/>
       </list>
       <process expanded="true">
         <operator activated="true" class="text:replace_tokens" compatibility="5.3.002" expanded="true" height="60" name="Replace Tokens" width="90" x="45" y="30">
           <list key="replace_dictionary">
             <parameter key="[.:!?]" value=". !"/>
           </list>
         </operator>
         <operator activated="false" class="multiply" compatibility="5.3.015" expanded="true" height="94" name="Multiply" width="90" x="45" y="210"/>
         <operator activated="false" class="text:filter_tokens_by_regions" compatibility="5.3.002" expanded="true" height="60" name="Filter Tokens (2)" width="90" x="45" y="345">
           <parameter key="string" value="programm"/>
         </operator>
         <operator activated="false" class="text:filter_tokens_by_regions" compatibility="5.3.002" expanded="true" height="60" name="Filter Tokens (by Region)" width="90" x="112" y="255">
           <parameter key="string" value="test"/>
         </operator>
         <operator activated="false" class="text:window_document" compatibility="5.3.002" expanded="true" height="60" name="Window Document" width="90" x="179" y="345">
           <parameter key="window_length" value="3"/>
           <parameter key="step_size" value="3"/>
           <parameter key="extend_last_window" value="false"/>
           <process expanded="true">
             <connect from_port="segment" to_port="document 1"/>
             <portSpacing port="source_segment" spacing="0"/>
             <portSpacing port="sink_document 1" spacing="0"/>
             <portSpacing port="sink_document 2" spacing="0"/>
           </process>
         </operator>
         <operator activated="false" class="text:window_document" compatibility="5.3.002" expanded="true" height="60" name="Window Document (2)" width="90" x="246" y="255">
           <parameter key="window_length" value="3"/>
           <parameter key="step_size" value="3"/>
           <parameter key="extend_last_window" value="false"/>
           <process expanded="true">
             <connect from_port="segment" to_port="document 1"/>
             <portSpacing port="source_segment" spacing="0"/>
             <portSpacing port="sink_document 1" spacing="0"/>
             <portSpacing port="sink_document 2" spacing="0"/>
           </process>
         </operator>
         <operator activated="false" class="text:documents_to_data" compatibility="5.3.002" expanded="true" height="94" name="Documents to Data" width="90" x="313" y="300">
           <parameter key="text_attribute" value="relevante Sätze"/>
           <parameter key="label_attribute" value="b"/>
         </operator>
         <operator activated="true" class="text:tokenize" compatibility="5.3.002" expanded="true" height="60" name="Tokenize" width="90" x="179" y="30">
           <parameter key="mode" value="specify characters"/>
           <parameter key="characters" value="!"/>
         </operator>
         <operator activated="true" class="loop_parameters" compatibility="5.3.015" expanded="true" height="76" name="Loop Parameters" width="90" x="313" y="30">
           <list key="parameters">
             <parameter key="Set Macro.value" value="anpassungsentwicklungen,arzneimittelentwicklung,basisentwicklung,basisentwicklungen,batterieentwicklungen,beobachtungssatelliten,designabteilung,designabteilungen,development,eigenentwickelten,eigenentwickeltes,eigenentwicklung,eigenentwicklungen,elektronikentwicklungen,engineering,engineeringpartner,entwickeln,entwickelnden,entwickelndes,entwickelt,entwickelte,entwickelten,entwickelter,entwickeltes,entwickler,entwicklung,entwicklungen,entwicklungs,entwicklungsabschluss,entwicklungsabteilung,entwicklungsabteilungen,entwicklungsaktivität,entwicklungsaktivitäten,entwicklungsanstrengungen,entwicklungsanteil,entwicklungsarbeit,entwicklungsarbeiten,entwicklungsaufgaben,entwicklungsauftrag,entwicklungsaufträge,entwicklungsaufträgen,entwicklungsaufwand,entwicklungsaufwandes,entwicklungsaufwendungen,entwicklungsausgaben,entwicklungsbegleitende,entwicklungsbereich,entwicklungsbereichen,entwicklungsdienstleister,entwicklungsergebnisse,entwicklungsergebnissen,entwicklungsfortschritt,entwicklungsgeschäft,entwicklungsingenieure,entwicklungsintensität,entwicklungsinvestitionen,entwicklungskapazitäten,entwicklungskompetenz,entwicklungskompetenzen,entwicklungskooperationen,entwicklungskosten,entwicklungsleistungen,entwicklungslösungen,entwicklungsmaßnahmen,entwicklungsnetzwerks,entwicklungspartner,entwicklungspartnerschaft,entwicklungsplattformen,entwicklungsprojekt,entwicklungsprojekte,entwicklungsprojekten,entwicklungsprojekts,entwicklungsprozess,entwicklungsprozessen,entwicklungsprozesses,entwicklungsprozesskette,entwicklungsressourcen,entwicklungsschwerpunkt,entwicklungsspezialisten,entwicklungsstandorten,entwicklungsstandorts,entwicklungsstrategien,entwicklungsteams,entwicklungstester,entwicklungsthemen,entwicklungstätigkeit,entwicklungstätigkeiten,entwicklungsvolumen,entwicklungsvorgaben,entwicklungsvorhaben,entwicklungsvorsprung,entwicklungswerkzeug,entwicklungszeit,entwicklungszeiten,entwicklungszentren,entwicklungszentrum,entwicklungszyklen,erforschen,erforscht,erforschung,fahrzeugentwicklung,forschen,forschendes,forscher,forscht,forschung,forschungen,forschungs,forschungsabteilungen,forschungsaktivitäten,forschungsanstrengungen,forschungsarbeit,forschungsarbeiten,forschungsaufwand,forschungsaufwands,forschungsaufwendungen,forschungsausgaben,forschungsaußenstelle,forschungsbeiträge,forschungseinrichtungen,forschungseinsätze,forschungsergebnisse,forschungsgesellschaften,forschungsinfrastruktur,forschungsprogramm,forschungsprojekt,foschungsprojekte,forschungsprojekten,forschungsquote,forschungsstellen,forschungsund,forschungszuwendungen,gesamtfahrzeugentwicklung,grundlagenentwicklung,grundlagenforschung,innovationsaktivitäten,innovationsbeitrag,innovationskompetenz,innovationskraft,innovationskultut,innovationsoffensive,innovationsorientierung,innovationspotenzial,innovationsprogramm,innovationsprojekten,innovationsprozess,innovationsprozesse,innovationsprozesses,innovationnsquote,innovationsrate,innovationsstrategie,innovationsstärke,innovationstreiber,innovationsund,innovationsvorsprung,innovationsworkshops,innovationszentrums,innovationszyklen,kerntechnologien,kompetenznetzwerk,kompetenzzentren,kompetenzzentrum,kompetenzzentrums,komplettentwicklung,konstruieren,konstruiert,konstruierten,konstrukteure,konstruktion,konstruktionen,konstruktions,konstruktionsbüro,konstruktionsphase,konzeptionsphase,konzeptphase,krebsforschung,modulentwicklung,naturwissenschaftler,naturwissenschaftlern,neuentwicklete,neuentwicklung,neuentwicklungen,neuproduktentwicklungen,neuproduktentwicklung,produktentstehung,produktentwicklung,produktentwicklungen,produktinnovationen,produktneuentwicklungen,prototypenbau,prototypenlinie,prototypentestphase,prototyping,softwareentwicklung,sonderentwicklung,technologiecentern,technologiekompetenz,technologielösungen,technologienentwicklung,technologieplattform,technologiesprung,technologiestandorte,technologiestrategie,technologietransfer,technologieund,technologievorsprung,technologiezentern,technologiezentren,technologiezentrum,technologiezentrums,technologieübergreifende,testzentrum,verfahrensentwicklung,vorausentwicklung,vorentwickelt,vorentwicklung,weiterentwickeln,weiterentwickelt,weiterentwickelte,weiterentwickelten,weiterentwickeltes,weiterentwicklung,weiterentwicklungen"/>
           </list>
           <parameter key="synchronize" value="true"/>
           <process expanded="true">
             <operator activated="true" class="set_macro" compatibility="5.3.015" expanded="true" height="76" name="Set Macro" width="90" x="45" y="30">
               <parameter key="macro" value="suchwort"/>
               <parameter key="value" value="programm"/>
             </operator>
             <operator activated="true" class="text:transform_cases" compatibility="5.3.002" expanded="true" height="60" name="Transform Cases" width="90" x="45" y="165"/>
             <operator activated="true" class="text:replace_tokens" compatibility="5.3.002" expanded="true" height="60" name="Replace Tokens (2)" width="90" x="179" y="165">
               <list key="replace_dictionary">
                 <parameter key="adidas" value="[Firmenname]"/>
                 <parameter key="altana" value="[Firmenname]"/>
                 <parameter key="basf" value="[Firmenname]"/>
                 <parameter key="bayrische motorenwerke" value="[Firmenname]"/>
                 <parameter key="bmw" value="[Firmenname]"/>
                 <parameter key="bayer" value="[Firmenname]"/>
                 <parameter key="continental" value="[Firmenname]"/>
                 <parameter key="daimler" value="[Firmenname]"/>
                 <parameter key="telekom" value="[Firmenname]"/>
                 <parameter key="fresenius" value="[Firmenname]"/>
                 <parameter key="henkel" value="[Firmenname]"/>
                 <parameter key="infinion" value="[Firmenname]"/>
                 <parameter key="linde" value="[Firmenname]"/>
                 <parameter key="brenntag" value="[Firmenname]"/>
                 <parameter key="schering" value="[Firmenname]"/>
                 <parameter key="siemens" value="[Firmenname]"/>
                 <parameter key="thyssenkrupp" value="[Firmenname]"/>
                 <parameter key="volkswagen" value="[Firmenname]"/>
                 <parameter key="beiersdorf" value="[Firmenname]"/>
                 <parameter key="degussa" value="[Firmenname]"/>
                 <parameter key="fresen" value="[Firmenname]"/>
                 <parameter key="gea" value="[Firmenname]"/>
                 <parameter key="heidelberg" value="[Firmenname]"/>
                 <parameter key="hugo boss" value="[Firmenname]"/>
                 <parameter key="kuka" value="[Firmenname]"/>
                 <parameter key="k s" value="[Firmenname]"/>
                 <parameter key="krones" value="[Firmenname]"/>
                 <parameter key="lanxess" value="[Firmenname]"/>
                 <parameter key="leoni" value="[Firmenname]"/>
                 <parameter key="medion" value="[Firmenname]"/>
                 <parameter key="merck" value="[Firmenname]"/>
                 <parameter key="mtu" value="[Firmenname]"/>
                 <parameter key="aurubis" value="[Firmenname]"/>
                 <parameter key="pfleiderer" value="[Firmenname]"/>
                 <parameter key="puma" value="[Firmenname]"/>
                 <parameter key="rheinmetall" value="[Firmenname]"/>
                 <parameter key="rhoen klinikum" value="[Firmenname]"/>
                 <parameter key="salzgitter" value="[Firmenname]"/>
                 <parameter key="schwarz" value="[Firmenname]"/>
                 <parameter key="sgl" value="[Firmenname]"/>
                 <parameter key="stada" value="[Firmenname]"/>
                 <parameter key="vossloh" value="[Firmenname]"/>
                 <parameter key="wincor" value="[Firmenname]"/>
                 <parameter key="gigaset" value="[Firmenname]"/>
                 <parameter key="baywa" value="[Firmenname]"/>
                 <parameter key="deutz" value="[Firmenname]"/>
                 <parameter key="dis" value="[Firmenname]"/>
                 <parameter key="elringklinger" value="[Firmenname]"/>
                 <parameter key="fuchs petrol" value="[Firmenname]"/>
                 <parameter key="escada" value="[Firmenname]"/>
                 <parameter key="gerry weber" value="[Firmenname]"/>
                 <parameter key="gfk" value="[Firmenname]"/>
                 <parameter key="gildemeister" value="[Firmenname]"/>
                 <parameter key="jungheinrich" value="[Firmenname]"/>
                 <parameter key="kloeckner werke" value="[Firmenname]"/>
                 <parameter key="koenig bauer" value="[Firmenname]"/>
                 <parameter key="loewe" value="[Firmenname]"/>
                 <parameter key="rational" value="[Firmenname]"/>
                 <parameter key="zapf" value="[Firmenname]"/>
                 <parameter key="aixtron" value="[Firmenname]"/>
                 <parameter key="bechtle" value="[Firmenname]"/>
                 <parameter key="kizoo" value="[Firmenname]"/>
                 <parameter key="conergy" value="[Firmenname]"/>
                 <parameter key="draegerwerk" value="[Firmenname]"/>
                 <parameter key="epcos" value="[Firmenname]"/>
                 <parameter key="ersol" value="[Firmenname]"/>
                 <parameter key="evotec" value="[Firmenname]"/>
                 <parameter key="freenet" value="[Firmenname]"/>
                 <parameter key="funkwerk" value="[Firmenname]"/>
                 <parameter key="gpc biotech" value="[Firmenname]"/>
                 <parameter key="ids scheer" value="[Firmenname]"/>
                 <parameter key="jenoptik" value="[Firmenname]"/>
                 <parameter key="kontron" value="[Firmenname]"/>
                 <parameter key="medigene" value="[Firmenname]"/>
                 <parameter key="mobilcom" value="[Firmenname]"/>
                 <parameter key="morphosys" value="[Firmenname]"/>
                 <parameter key="pfeiffer " value="[Firmenname]"/>
                 <parameter key="q cells" value="[Firmenname]"/>
                 <parameter key="qsc" value="[Firmenname]"/>
                 <parameter key="sigulus" value="[Firmenname]"/>
                 <parameter key="solarworld" value="[Firmenname]"/>
                 <parameter key="t online" value="[Firmenname]"/>
                 <parameter key="united internet" value="[Firmenname]"/>
                 <parameter key="adva" value="[Firmenname]"/>
                 <parameter key="carl zeiss meditec" value="[Firmenname]"/>
                 <parameter key="demag cranes" value="[Firmenname]"/>
                 <parameter key="drillisch" value="[Firmenname]"/>
                 <parameter key="duerr" value="[Firmenname]"/>
                 <parameter key="elmos " value="[Firmenname]"/>
                 <parameter key="cor fja" value="[Firmenname]"/>
                 <parameter key="sygnis pharma" value="[Firmenname]"/>
                 <parameter key="xing" value="[Firmenname]"/>
                 <parameter key="phoenix solar" value="[Firmenname]"/>
                 <parameter key="psi" value="[Firmenname]"/>
                 <parameter key="repower systems" value="[Firmenname]"/>
                 <parameter key="solon" value="[Firmenname]"/>
                 <parameter key="stratec biomed" value="[Firmenname]"/>
                 <parameter key="suess mecrotec" value="[Firmenname]"/>
                 <parameter key="symrise" value="[Firmenname]"/>
                 <parameter key="teles" value="[Firmenname]"/>
                 <parameter key="wacker chemie" value="[Firmenname]"/>
                 <parameter key="wirecard" value="[Firmenname]"/>
                 <parameter key="nordex" value="[Firmenname]"/>
                 <parameter key="beru" value="[Firmenname]"/>
                 <parameter key="centrotherm" value="[Firmenname]"/>
                 <parameter key="gerresheimer" value="[Firmenname]"/>
                 <parameter key="tognum" value="[Firmenname]"/>
                 <parameter key="versatel" value="[Firmenname]"/>
                 <parameter key="kolbenschmidt" value="[Firmenname]"/>
                 <parameter key="phoenix" value="[Firmenname]"/>
                 <parameter key="ixos" value="[Firmenname]"/>
                 <parameter key="sap" value="[Firmenname]"/>
                 <parameter key="wedeco" value="[Firmenname]"/>
                 <parameter key="wella" value="[Firmenname]"/>
                 <parameter key="buderus" value="[Firmenname]"/>
                 <parameter key="manz" value="[Firmenname]"/>
                 <parameter key="roth rau" value="[Firmenname]"/>
                 <parameter key="sma solar " value="[Firmenname]"/>
               </list>
             </operator>

Answers

  • Kallust
    Kallust New Altair Community Member

                  <operator activated="true" class="text:filter_tokens_by_regions" compatibility="5.3.002" expanded="true" height="60" name="Filter Tokens (3)" width="90" x="313" y="165">
                    <parameter key="string" value="%{suchwort}"/>
                  </operator>
                  <operator activated="true" class="text:window_document" compatibility="5.3.002" expanded="true" height="60" name="Window Document (3)" width="90" x="313" y="30">
                    <parameter key="window_length" value="1"/>
                    <parameter key="extend_last_window" value="false"/>
                    <process expanded="true">
                      <connect from_port="segment" to_port="document 1"/>
                      <portSpacing port="source_segment" spacing="0"/>
                      <portSpacing port="sink_document 1" spacing="0"/>
                      <portSpacing port="sink_document 2" spacing="0"/>
                    </process>
                  </operator>
                  <operator activated="true" class="text:documents_to_data" compatibility="5.3.002" expanded="true" height="76" name="Documents to Data (2)" width="90" x="447" y="30">
                    <parameter key="text_attribute" value="relevante Sätze"/>
                    <parameter key="label_attribute" value="b"/>
                  </operator>
                  <connect from_port="input 1" to_op="Set Macro" to_port="through 1"/>
                  <connect from_op="Set Macro" from_port="through 1" to_op="Transform Cases" to_port="document"/>
                  <connect from_op="Transform Cases" from_port="document" to_op="Replace Tokens (2)" to_port="document"/>
                  <connect from_op="Replace Tokens (2)" from_port="document" to_op="Filter Tokens (3)" to_port="document"/>
                  <connect from_op="Filter Tokens (3)" from_port="document" to_op="Window Document (3)" to_port="document"/>
                  <connect from_op="Window Document (3)" from_port="documents" to_op="Documents to Data (2)" to_port="documents 1"/>
                  <connect from_op="Documents to Data (2)" from_port="example set" to_port="result 1"/>
                  <portSpacing port="source_input 1" spacing="0"/>
                  <portSpacing port="source_input 2" spacing="0"/>
                  <portSpacing port="sink_performance" spacing="0"/>
                  <portSpacing port="sink_result 1" spacing="0"/>
                  <portSpacing port="sink_result 2" spacing="0"/>
                </process>
              </operator>
              <operator activated="true" class="append" compatibility="5.3.015" expanded="true" height="76" name="Append" width="90" x="447" y="30"/>
              <operator activated="true" class="select_attributes" compatibility="5.3.015" expanded="true" height="76" name="Select Attributes" width="90" x="380" y="165">
                <parameter key="attribute_filter_type" value="regular_expression"/>
                <parameter key="regular_expression" value="label|metadata_path|metadata_date|window"/>
                <parameter key="invert_selection" value="true"/>
                <parameter key="include_special_attributes" value="true"/>
              </operator>
              <operator activated="true" class="remove_duplicates" compatibility="5.3.015" expanded="true" height="76" name="Remove Duplicates" width="90" x="514" y="165"/>
              <operator activated="true" class="extract_macro" compatibility="5.3.015" expanded="true" height="60" name="Extract Macro" width="90" x="514" y="300">
                <parameter key="macro" value="filename"/>
                <parameter key="macro_type" value="data_value"/>
                <parameter key="attribute_name" value="metadata_file"/>
                <parameter key="example_index" value="1"/>
                <list key="additional_macros"/>
              </operator>
              <operator activated="true" class="write_excel" compatibility="5.3.015" expanded="true" height="76" name="Write Excel" width="90" x="581" y="30">
                <parameter key="excel_file" value="C:\Users\Administrator\Documents\Studium\Bachelorarbeit\RapidMiner\Test\Ergebnis%{filename}.xlsx"/>
                <parameter key="file_format" value="xlsx"/>
              </operator>
              <connect from_port="document" to_op="Replace Tokens" to_port="document"/>
              <connect from_op="Replace Tokens" from_port="document" to_op="Tokenize" to_port="document"/>
              <connect from_op="Multiply" from_port="output 1" to_op="Filter Tokens (2)" to_port="document"/>
              <connect from_op="Multiply" from_port="output 2" to_op="Filter Tokens (by Region)" to_port="document"/>
              <connect from_op="Filter Tokens (2)" from_port="document" to_op="Window Document" to_port="document"/>
              <connect from_op="Filter Tokens (by Region)" from_port="document" to_op="Window Document (2)" to_port="document"/>
              <connect from_op="Window Document" from_port="documents" to_op="Documents to Data" to_port="documents 2"/>
              <connect from_op="Window Document (2)" from_port="documents" to_op="Documents to Data" to_port="documents 1"/>
              <connect from_op="Tokenize" from_port="document" to_op="Loop Parameters" to_port="input 1"/>
              <connect from_op="Loop Parameters" from_port="result 1" to_op="Append" to_port="example set 1"/>
              <connect from_op="Append" from_port="merged set" to_op="Select Attributes" to_port="example set input"/>
              <connect from_op="Select Attributes" from_port="example set output" to_op="Remove Duplicates" to_port="example set input"/>
              <connect from_op="Remove Duplicates" from_port="example set output" to_op="Extract Macro" to_port="example set"/>
              <connect from_op="Extract Macro" from_port="example set" to_op="Write Excel" to_port="input"/>
              <portSpacing port="source_document" spacing="0"/>
              <portSpacing port="sink_document 1" spacing="0"/>
            </process>
          </operator>
          <portSpacing port="source_input 1" spacing="0"/>
          <portSpacing port="sink_result 1" spacing="0"/>
        </process>
      </operator>
    </process>

    My post was too long so the rest of the code is here