🎉Community Raffle - Win $25

An exclusive raffle opportunity for active members like you! Complete your profile, answer questions and get your first accepted badge to enter the raffle.
Join and Win

"problem with multiple input at Process Documents from Files"

User: "Kallust"
New Altair Community Member
Updated by Jocelyn
Hi,
my goal is to extract senteces which include certain keywords from a txt and write this sentences to an excel-file. This works pretty well ,if I give the "Process Documents from Files" Operator just one txt as source. Having over 800 txt to handle I wanted to give the  "Process Documents from Files" Operator the folder with all txt as input and at this point my process got messed up. I want for every source txt one result excel-file which holds the extracted sentences of the txt. If i import the whole folder sentences get mixed up, not beeing in the result excel file where they belong.
I hope you can help me understand how Process Documents from Files handles multiple input and how i can solve my problem.

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<process version="5.3.015">
 <context>
   <input/>
   <output/>
   <macros/>
 </context>
 <operator activated="true" class="process" compatibility="5.3.015" expanded="true" name="Process">
   <process expanded="true">
     <operator activated="true" class="text:process_document_from_file" compatibility="5.3.002" expanded="true" height="76" name="Process Documents from Files" width="90" x="112" y="75">
       <list key="text_directories">
         <parameter key="Input" value="C:\Users\Administrator\Documents\Studium\Bachelorarbeit\RapidMiner\Test\Quelle"/>
       </list>
       <process expanded="true">
         <operator activated="true" class="text:replace_tokens" compatibility="5.3.002" expanded="true" height="60" name="Replace Tokens" width="90" x="45" y="30">
           <list key="replace_dictionary">
             <parameter key="[.:!?]" value=". !"/>
           </list>
         </operator>
         <operator activated="false" class="multiply" compatibility="5.3.015" expanded="true" height="94" name="Multiply" width="90" x="45" y="210"/>
         <operator activated="false" class="text:filter_tokens_by_regions" compatibility="5.3.002" expanded="true" height="60" name="Filter Tokens (2)" width="90" x="45" y="345">
           <parameter key="string" value="programm"/>
         </operator>
         <operator activated="false" class="text:filter_tokens_by_regions" compatibility="5.3.002" expanded="true" height="60" name="Filter Tokens (by Region)" width="90" x="112" y="255">
           <parameter key="string" value="test"/>
         </operator>
         <operator activated="false" class="text:window_document" compatibility="5.3.002" expanded="true" height="60" name="Window Document" width="90" x="179" y="345">
           <parameter key="window_length" value="3"/>
           <parameter key="step_size" value="3"/>
           <parameter key="extend_last_window" value="false"/>
           <process expanded="true">
             <connect from_port="segment" to_port="document 1"/>
             <portSpacing port="source_segment" spacing="0"/>
             <portSpacing port="sink_document 1" spacing="0"/>
             <portSpacing port="sink_document 2" spacing="0"/>
           </process>
         </operator>
         <operator activated="false" class="text:window_document" compatibility="5.3.002" expanded="true" height="60" name="Window Document (2)" width="90" x="246" y="255">
           <parameter key="window_length" value="3"/>
           <parameter key="step_size" value="3"/>
           <parameter key="extend_last_window" value="false"/>
           <process expanded="true">
             <connect from_port="segment" to_port="document 1"/>
             <portSpacing port="source_segment" spacing="0"/>
             <portSpacing port="sink_document 1" spacing="0"/>
             <portSpacing port="sink_document 2" spacing="0"/>
           </process>
         </operator>
         <operator activated="false" class="text:documents_to_data" compatibility="5.3.002" expanded="true" height="94" name="Documents to Data" width="90" x="313" y="300">
           <parameter key="text_attribute" value="relevante Sätze"/>
           <parameter key="label_attribute" value="b"/>
         </operator>
         <operator activated="true" class="text:tokenize" compatibility="5.3.002" expanded="true" height="60" name="Tokenize" width="90" x="179" y="30">
           <parameter key="mode" value="specify characters"/>
           <parameter key="characters" value="!"/>
         </operator>
         <operator activated="true" class="loop_parameters" compatibility="5.3.015" expanded="true" height="76" name="Loop Parameters" width="90" x="313" y="30">
           <list key="parameters">
             <parameter key="Set Macro.value" value="anpassungsentwicklungen,arzneimittelentwicklung,basisentwicklung,basisentwicklungen,batterieentwicklungen,beobachtungssatelliten,designabteilung,designabteilungen,development,eigenentwickelten,eigenentwickeltes,eigenentwicklung,eigenentwicklungen,elektronikentwicklungen,engineering,engineeringpartner,entwickeln,entwickelnden,entwickelndes,entwickelt,entwickelte,entwickelten,entwickelter,entwickeltes,entwickler,entwicklung,entwicklungen,entwicklungs,entwicklungsabschluss,entwicklungsabteilung,entwicklungsabteilungen,entwicklungsaktivität,entwicklungsaktivitäten,entwicklungsanstrengungen,entwicklungsanteil,entwicklungsarbeit,entwicklungsarbeiten,entwicklungsaufgaben,entwicklungsauftrag,entwicklungsaufträge,entwicklungsaufträgen,entwicklungsaufwand,entwicklungsaufwandes,entwicklungsaufwendungen,entwicklungsausgaben,entwicklungsbegleitende,entwicklungsbereich,entwicklungsbereichen,entwicklungsdienstleister,entwicklungsergebnisse,entwicklungsergebnissen,entwicklungsfortschritt,entwicklungsgeschäft,entwicklungsingenieure,entwicklungsintensität,entwicklungsinvestitionen,entwicklungskapazitäten,entwicklungskompetenz,entwicklungskompetenzen,entwicklungskooperationen,entwicklungskosten,entwicklungsleistungen,entwicklungslösungen,entwicklungsmaßnahmen,entwicklungsnetzwerks,entwicklungspartner,entwicklungspartnerschaft,entwicklungsplattformen,entwicklungsprojekt,entwicklungsprojekte,entwicklungsprojekten,entwicklungsprojekts,entwicklungsprozess,entwicklungsprozessen,entwicklungsprozesses,entwicklungsprozesskette,entwicklungsressourcen,entwicklungsschwerpunkt,entwicklungsspezialisten,entwicklungsstandorten,entwicklungsstandorts,entwicklungsstrategien,entwicklungsteams,entwicklungstester,entwicklungsthemen,entwicklungstätigkeit,entwicklungstätigkeiten,entwicklungsvolumen,entwicklungsvorgaben,entwicklungsvorhaben,entwicklungsvorsprung,entwicklungswerkzeug,entwicklungszeit,entwicklungszeiten,entwicklungszentren,entwicklungszentrum,entwicklungszyklen,erforschen,erforscht,erforschung,fahrzeugentwicklung,forschen,forschendes,forscher,forscht,forschung,forschungen,forschungs,forschungsabteilungen,forschungsaktivitäten,forschungsanstrengungen,forschungsarbeit,forschungsarbeiten,forschungsaufwand,forschungsaufwands,forschungsaufwendungen,forschungsausgaben,forschungsaußenstelle,forschungsbeiträge,forschungseinrichtungen,forschungseinsätze,forschungsergebnisse,forschungsgesellschaften,forschungsinfrastruktur,forschungsprogramm,forschungsprojekt,foschungsprojekte,forschungsprojekten,forschungsquote,forschungsstellen,forschungsund,forschungszuwendungen,gesamtfahrzeugentwicklung,grundlagenentwicklung,grundlagenforschung,innovationsaktivitäten,innovationsbeitrag,innovationskompetenz,innovationskraft,innovationskultut,innovationsoffensive,innovationsorientierung,innovationspotenzial,innovationsprogramm,innovationsprojekten,innovationsprozess,innovationsprozesse,innovationsprozesses,innovationnsquote,innovationsrate,innovationsstrategie,innovationsstärke,innovationstreiber,innovationsund,innovationsvorsprung,innovationsworkshops,innovationszentrums,innovationszyklen,kerntechnologien,kompetenznetzwerk,kompetenzzentren,kompetenzzentrum,kompetenzzentrums,komplettentwicklung,konstruieren,konstruiert,konstruierten,konstrukteure,konstruktion,konstruktionen,konstruktions,konstruktionsbüro,konstruktionsphase,konzeptionsphase,konzeptphase,krebsforschung,modulentwicklung,naturwissenschaftler,naturwissenschaftlern,neuentwicklete,neuentwicklung,neuentwicklungen,neuproduktentwicklungen,neuproduktentwicklung,produktentstehung,produktentwicklung,produktentwicklungen,produktinnovationen,produktneuentwicklungen,prototypenbau,prototypenlinie,prototypentestphase,prototyping,softwareentwicklung,sonderentwicklung,technologiecentern,technologiekompetenz,technologielösungen,technologienentwicklung,technologieplattform,technologiesprung,technologiestandorte,technologiestrategie,technologietransfer,technologieund,technologievorsprung,technologiezentern,technologiezentren,technologiezentrum,technologiezentrums,technologieübergreifende,testzentrum,verfahrensentwicklung,vorausentwicklung,vorentwickelt,vorentwicklung,weiterentwickeln,weiterentwickelt,weiterentwickelte,weiterentwickelten,weiterentwickeltes,weiterentwicklung,weiterentwicklungen"/>
           </list>
           <parameter key="synchronize" value="true"/>
           <process expanded="true">
             <operator activated="true" class="set_macro" compatibility="5.3.015" expanded="true" height="76" name="Set Macro" width="90" x="45" y="30">
               <parameter key="macro" value="suchwort"/>
               <parameter key="value" value="programm"/>
             </operator>
             <operator activated="true" class="text:transform_cases" compatibility="5.3.002" expanded="true" height="60" name="Transform Cases" width="90" x="45" y="165"/>
             <operator activated="true" class="text:replace_tokens" compatibility="5.3.002" expanded="true" height="60" name="Replace Tokens (2)" width="90" x="179" y="165">
               <list key="replace_dictionary">
                 <parameter key="adidas" value="[Firmenname]"/>
                 <parameter key="altana" value="[Firmenname]"/>
                 <parameter key="basf" value="[Firmenname]"/>
                 <parameter key="bayrische motorenwerke" value="[Firmenname]"/>
                 <parameter key="bmw" value="[Firmenname]"/>
                 <parameter key="bayer" value="[Firmenname]"/>
                 <parameter key="continental" value="[Firmenname]"/>
                 <parameter key="daimler" value="[Firmenname]"/>
                 <parameter key="telekom" value="[Firmenname]"/>
                 <parameter key="fresenius" value="[Firmenname]"/>
                 <parameter key="henkel" value="[Firmenname]"/>
                 <parameter key="infinion" value="[Firmenname]"/>
                 <parameter key="linde" value="[Firmenname]"/>
                 <parameter key="brenntag" value="[Firmenname]"/>
                 <parameter key="schering" value="[Firmenname]"/>
                 <parameter key="siemens" value="[Firmenname]"/>
                 <parameter key="thyssenkrupp" value="[Firmenname]"/>
                 <parameter key="volkswagen" value="[Firmenname]"/>
                 <parameter key="beiersdorf" value="[Firmenname]"/>
                 <parameter key="degussa" value="[Firmenname]"/>
                 <parameter key="fresen" value="[Firmenname]"/>
                 <parameter key="gea" value="[Firmenname]"/>
                 <parameter key="heidelberg" value="[Firmenname]"/>
                 <parameter key="hugo boss" value="[Firmenname]"/>
                 <parameter key="kuka" value="[Firmenname]"/>
                 <parameter key="k s" value="[Firmenname]"/>
                 <parameter key="krones" value="[Firmenname]"/>
                 <parameter key="lanxess" value="[Firmenname]"/>
                 <parameter key="leoni" value="[Firmenname]"/>
                 <parameter key="medion" value="[Firmenname]"/>
                 <parameter key="merck" value="[Firmenname]"/>
                 <parameter key="mtu" value="[Firmenname]"/>
                 <parameter key="aurubis" value="[Firmenname]"/>
                 <parameter key="pfleiderer" value="[Firmenname]"/>
                 <parameter key="puma" value="[Firmenname]"/>
                 <parameter key="rheinmetall" value="[Firmenname]"/>
                 <parameter key="rhoen klinikum" value="[Firmenname]"/>
                 <parameter key="salzgitter" value="[Firmenname]"/>
                 <parameter key="schwarz" value="[Firmenname]"/>
                 <parameter key="sgl" value="[Firmenname]"/>
                 <parameter key="stada" value="[Firmenname]"/>
                 <parameter key="vossloh" value="[Firmenname]"/>
                 <parameter key="wincor" value="[Firmenname]"/>
                 <parameter key="gigaset" value="[Firmenname]"/>
                 <parameter key="baywa" value="[Firmenname]"/>
                 <parameter key="deutz" value="[Firmenname]"/>
                 <parameter key="dis" value="[Firmenname]"/>
                 <parameter key="elringklinger" value="[Firmenname]"/>
                 <parameter key="fuchs petrol" value="[Firmenname]"/>
                 <parameter key="escada" value="[Firmenname]"/>
                 <parameter key="gerry weber" value="[Firmenname]"/>
                 <parameter key="gfk" value="[Firmenname]"/>
                 <parameter key="gildemeister" value="[Firmenname]"/>
                 <parameter key="jungheinrich" value="[Firmenname]"/>
                 <parameter key="kloeckner werke" value="[Firmenname]"/>
                 <parameter key="koenig bauer" value="[Firmenname]"/>
                 <parameter key="loewe" value="[Firmenname]"/>
                 <parameter key="rational" value="[Firmenname]"/>
                 <parameter key="zapf" value="[Firmenname]"/>
                 <parameter key="aixtron" value="[Firmenname]"/>
                 <parameter key="bechtle" value="[Firmenname]"/>
                 <parameter key="kizoo" value="[Firmenname]"/>
                 <parameter key="conergy" value="[Firmenname]"/>
                 <parameter key="draegerwerk" value="[Firmenname]"/>
                 <parameter key="epcos" value="[Firmenname]"/>
                 <parameter key="ersol" value="[Firmenname]"/>
                 <parameter key="evotec" value="[Firmenname]"/>
                 <parameter key="freenet" value="[Firmenname]"/>
                 <parameter key="funkwerk" value="[Firmenname]"/>
                 <parameter key="gpc biotech" value="[Firmenname]"/>
                 <parameter key="ids scheer" value="[Firmenname]"/>
                 <parameter key="jenoptik" value="[Firmenname]"/>
                 <parameter key="kontron" value="[Firmenname]"/>
                 <parameter key="medigene" value="[Firmenname]"/>
                 <parameter key="mobilcom" value="[Firmenname]"/>
                 <parameter key="morphosys" value="[Firmenname]"/>
                 <parameter key="pfeiffer " value="[Firmenname]"/>
                 <parameter key="q cells" value="[Firmenname]"/>
                 <parameter key="qsc" value="[Firmenname]"/>
                 <parameter key="sigulus" value="[Firmenname]"/>
                 <parameter key="solarworld" value="[Firmenname]"/>
                 <parameter key="t online" value="[Firmenname]"/>
                 <parameter key="united internet" value="[Firmenname]"/>
                 <parameter key="adva" value="[Firmenname]"/>
                 <parameter key="carl zeiss meditec" value="[Firmenname]"/>
                 <parameter key="demag cranes" value="[Firmenname]"/>
                 <parameter key="drillisch" value="[Firmenname]"/>
                 <parameter key="duerr" value="[Firmenname]"/>
                 <parameter key="elmos " value="[Firmenname]"/>
                 <parameter key="cor fja" value="[Firmenname]"/>
                 <parameter key="sygnis pharma" value="[Firmenname]"/>
                 <parameter key="xing" value="[Firmenname]"/>
                 <parameter key="phoenix solar" value="[Firmenname]"/>
                 <parameter key="psi" value="[Firmenname]"/>
                 <parameter key="repower systems" value="[Firmenname]"/>
                 <parameter key="solon" value="[Firmenname]"/>
                 <parameter key="stratec biomed" value="[Firmenname]"/>
                 <parameter key="suess mecrotec" value="[Firmenname]"/>
                 <parameter key="symrise" value="[Firmenname]"/>
                 <parameter key="teles" value="[Firmenname]"/>
                 <parameter key="wacker chemie" value="[Firmenname]"/>
                 <parameter key="wirecard" value="[Firmenname]"/>
                 <parameter key="nordex" value="[Firmenname]"/>
                 <parameter key="beru" value="[Firmenname]"/>
                 <parameter key="centrotherm" value="[Firmenname]"/>
                 <parameter key="gerresheimer" value="[Firmenname]"/>
                 <parameter key="tognum" value="[Firmenname]"/>
                 <parameter key="versatel" value="[Firmenname]"/>
                 <parameter key="kolbenschmidt" value="[Firmenname]"/>
                 <parameter key="phoenix" value="[Firmenname]"/>
                 <parameter key="ixos" value="[Firmenname]"/>
                 <parameter key="sap" value="[Firmenname]"/>
                 <parameter key="wedeco" value="[Firmenname]"/>
                 <parameter key="wella" value="[Firmenname]"/>
                 <parameter key="buderus" value="[Firmenname]"/>
                 <parameter key="manz" value="[Firmenname]"/>
                 <parameter key="roth rau" value="[Firmenname]"/>
                 <parameter key="sma solar " value="[Firmenname]"/>
               </list>
             </operator>

Find more posts tagged with

Sort by:
1 - 1 of 11
    User: "Kallust"
    New Altair Community Member
    OP

                  <operator activated="true" class="text:filter_tokens_by_regions" compatibility="5.3.002" expanded="true" height="60" name="Filter Tokens (3)" width="90" x="313" y="165">
                    <parameter key="string" value="%{suchwort}"/>
                  </operator>
                  <operator activated="true" class="text:window_document" compatibility="5.3.002" expanded="true" height="60" name="Window Document (3)" width="90" x="313" y="30">
                    <parameter key="window_length" value="1"/>
                    <parameter key="extend_last_window" value="false"/>
                    <process expanded="true">
                      <connect from_port="segment" to_port="document 1"/>
                      <portSpacing port="source_segment" spacing="0"/>
                      <portSpacing port="sink_document 1" spacing="0"/>
                      <portSpacing port="sink_document 2" spacing="0"/>
                    </process>
                  </operator>
                  <operator activated="true" class="text:documents_to_data" compatibility="5.3.002" expanded="true" height="76" name="Documents to Data (2)" width="90" x="447" y="30">
                    <parameter key="text_attribute" value="relevante Sätze"/>
                    <parameter key="label_attribute" value="b"/>
                  </operator>
                  <connect from_port="input 1" to_op="Set Macro" to_port="through 1"/>
                  <connect from_op="Set Macro" from_port="through 1" to_op="Transform Cases" to_port="document"/>
                  <connect from_op="Transform Cases" from_port="document" to_op="Replace Tokens (2)" to_port="document"/>
                  <connect from_op="Replace Tokens (2)" from_port="document" to_op="Filter Tokens (3)" to_port="document"/>
                  <connect from_op="Filter Tokens (3)" from_port="document" to_op="Window Document (3)" to_port="document"/>
                  <connect from_op="Window Document (3)" from_port="documents" to_op="Documents to Data (2)" to_port="documents 1"/>
                  <connect from_op="Documents to Data (2)" from_port="example set" to_port="result 1"/>
                  <portSpacing port="source_input 1" spacing="0"/>
                  <portSpacing port="source_input 2" spacing="0"/>
                  <portSpacing port="sink_performance" spacing="0"/>
                  <portSpacing port="sink_result 1" spacing="0"/>
                  <portSpacing port="sink_result 2" spacing="0"/>
                </process>
              </operator>
              <operator activated="true" class="append" compatibility="5.3.015" expanded="true" height="76" name="Append" width="90" x="447" y="30"/>
              <operator activated="true" class="select_attributes" compatibility="5.3.015" expanded="true" height="76" name="Select Attributes" width="90" x="380" y="165">
                <parameter key="attribute_filter_type" value="regular_expression"/>
                <parameter key="regular_expression" value="label|metadata_path|metadata_date|window"/>
                <parameter key="invert_selection" value="true"/>
                <parameter key="include_special_attributes" value="true"/>
              </operator>
              <operator activated="true" class="remove_duplicates" compatibility="5.3.015" expanded="true" height="76" name="Remove Duplicates" width="90" x="514" y="165"/>
              <operator activated="true" class="extract_macro" compatibility="5.3.015" expanded="true" height="60" name="Extract Macro" width="90" x="514" y="300">
                <parameter key="macro" value="filename"/>
                <parameter key="macro_type" value="data_value"/>
                <parameter key="attribute_name" value="metadata_file"/>
                <parameter key="example_index" value="1"/>
                <list key="additional_macros"/>
              </operator>
              <operator activated="true" class="write_excel" compatibility="5.3.015" expanded="true" height="76" name="Write Excel" width="90" x="581" y="30">
                <parameter key="excel_file" value="C:\Users\Administrator\Documents\Studium\Bachelorarbeit\RapidMiner\Test\Ergebnis%{filename}.xlsx"/>
                <parameter key="file_format" value="xlsx"/>
              </operator>
              <connect from_port="document" to_op="Replace Tokens" to_port="document"/>
              <connect from_op="Replace Tokens" from_port="document" to_op="Tokenize" to_port="document"/>
              <connect from_op="Multiply" from_port="output 1" to_op="Filter Tokens (2)" to_port="document"/>
              <connect from_op="Multiply" from_port="output 2" to_op="Filter Tokens (by Region)" to_port="document"/>
              <connect from_op="Filter Tokens (2)" from_port="document" to_op="Window Document" to_port="document"/>
              <connect from_op="Filter Tokens (by Region)" from_port="document" to_op="Window Document (2)" to_port="document"/>
              <connect from_op="Window Document" from_port="documents" to_op="Documents to Data" to_port="documents 2"/>
              <connect from_op="Window Document (2)" from_port="documents" to_op="Documents to Data" to_port="documents 1"/>
              <connect from_op="Tokenize" from_port="document" to_op="Loop Parameters" to_port="input 1"/>
              <connect from_op="Loop Parameters" from_port="result 1" to_op="Append" to_port="example set 1"/>
              <connect from_op="Append" from_port="merged set" to_op="Select Attributes" to_port="example set input"/>
              <connect from_op="Select Attributes" from_port="example set output" to_op="Remove Duplicates" to_port="example set input"/>
              <connect from_op="Remove Duplicates" from_port="example set output" to_op="Extract Macro" to_port="example set"/>
              <connect from_op="Extract Macro" from_port="example set" to_op="Write Excel" to_port="input"/>
              <portSpacing port="source_document" spacing="0"/>
              <portSpacing port="sink_document 1" spacing="0"/>
            </process>
          </operator>
          <portSpacing port="source_input 1" spacing="0"/>
          <portSpacing port="sink_result 1" spacing="0"/>
        </process>
      </operator>
    </process>

    My post was too long so the rest of the code is here