Perlの細道・けもの道

■Windows版Perlの細道・けもの道

■ナビゲータ

[南北館（最初のメニュー）]

[Windows版Perlの細道・けもの道]

rubyではどう処理する？

同じことをrubyではこうしています。

2.基本編

2-2.キーブレイク処理

2-2-3.同一キーでの合計処理---until型の場合

CSVファイルを読み込んで、同一キーのレコードの中の数値項目をuntil命令を使って合計する処理です。

[2-2-2.各キーの最終レコードを出力（until型）]の各キーごとの最後のレコードを出力するスクリプトとほぼ同じような構造になっています。

ただし、出力する内容が、保存したデータそのものではなく、合計値ですので、キーが同じ間はデータを集計し、キーが変わったら合計値をゼロにするタイミングを考えて作成する必要があります。

このスクリプトでも、ファイルをクローズする前に入力データがゼロ件の場合かどうかを判断し、1件以上のデータがある場合は、何らかの合計値が保存されたまま、出力されない状態で残っていることになるので、そのデータを出力します。

ポイントは、1件目のレコードを入力したときに入力キーを保存キー（$sv_key）に保存しておき、繰り返し処理の中で1件目から「保存キー≠入力キー」の条件に合致しないように初期設定していることです。

下記に示したのは、スクリプトの構造を示したPAD図です。この図と実際のスクリプトを比較しながら、内容を理解してください。なお、入力データはキー順に並べ替えてあることが前提となっています。Perlを利用して並べ替えを行う場合については、[2-4.ソート処理]を参照してください。

並べ替えをしなくても合計を計算するスクリプトについては[2-2-9.ハッシュを使った同一キーの合計処理]にあります。

実際に応用する場合は、入出力データのファイル名は当然変更する必要がありますが、それ以外に変更する必要のある箇所については、「スクリプトの解説」を参照してください。

【同一キーの値を合計する場合のuntilを利用したキーブレイク処理のPAD図】

下記のPAD図は「ez-Chart ver1.0」　2003.2-3 cジュン　All right received.を使用して作成されたものです。

【untilを利用したときの入力処理のPAD図】

【スクリプト】

# total1.pl
# 内容 :　同一キーの値を合計する（until型）
# 前提 :　合計値を出すキーごとに昇順に並べ替えておくこと 
# Copyright (c) 2002-2011 Mitsuo Minagawa, All rights reserved.
# (minagawa@fb3.so-net.ne.jp)
# 使用方法 : c:\>perl total1.pl
#   

# ファイルのオープン    
open(IN1,"input.txt");  
open(OUT1,">output.txt");   

# 初期値設定    
$high_value =   pack("h8","ffffffff");      #終了判定
$in1_key    =   undef;      #入力キー
@in1        =   undef;      #入力データの配列
$in1_ctr    =   0;          #入力件数
$sv_key     =   undef;      #保存した入力キー
$total      =   0;          #合計値

# １件目のデータ入力    
s_in1();    
$sv_key =   $in1_key;   

# 主処理    
until   ($in1_key   eq  $high_value)    {#入力ファイルが終了になるまで  

# キーブレイク時の処理  
    if  ($sv_key    ne  $in1_key)   {   
        s_break();  
    }   
    $sv_key =   $in1_key;   
    $total  +=  $in1[1];    
    s_in1();    
}   

# 最終データの処理（入力データがある場合）  
if  ($in1_ctr   !=  0)          {   
    s_break();  
}   


# データ入力処理    
sub s_in1   {   
    if  ($line1 =   <IN1>)  {   
        chomp($line1);   
        @in1        =   split(",",$line1); 
        $in1_key    =   $in1[0];    
        $in1_ctr++; 
    }   
    else    {                           #入力ファイルが終了のとき   
        $in1_key    =   $high_value;    #HIGH-VALUE をセット    
    }   
}   


# 入力キーがブレイク（変化）したときの処理  
sub s_break {   
    $out1   =   join(",",$sv_key,$total);  
    print   OUT1    "$out1\n";  
# $totalをゼロにしなければ、合計値ではなく、累計値になる。
    $total  =   0;  
}   

# ファイルのクローズ    
close(IN1); 
close(OUT1);

【スクリプトとデータのサンプル】

スクリプトはこちらにあります。

入力データのサンプルはこちらにあります。

【スクリプトの解説】

それでは、スクリプトの解説を個別に行っていきましょう。

初期値設定

# 初期値設定    
$high_value =   pack("h8","ffffffff");      #終了判定
$in1_key    =   undef;      #入力キー
@in1        =   undef;      #入力データの配列
$in1_ctr    =   0;          #入力件数
$sv_key     =   undef;      #保存した入力キー
$total      =   0;          #合計値

初期値設定では、文字列の最大値である「$high_value」と入力件数「$in1_ctr」、合計値「$total」を設定しておきます。

「$high_value」はCOBOLで使用される定数の名称ですが、入力ファイルが終了したことを示すEOFを検出したときに設定することに利用します。

「キーブレイク処理で合計を出力する」という処理は「同一キーの最後のデータでキーブレイクする」という処理を応用した処理になります。ということは、入力データのキー項目がすべて同じだった場合、untilのループ内では何も出力されないことになります。

また、逆にuntilのループを抜けたところで必ず出力すると、入力データがない場合にも出力データが存在することになります。

こうしたことを避けるため、変数「$in1_ctr」で入力件数をカウントし、入力データがある場合にだけキーブレイク処理を行うようにしています。

また、こうした極端な例を持ち出さなくても、入力データの最後のデータだけがユニークなキー項目を持っている場合にも、上記のような対応をしないとそのデータは出力されないことになります。（わからない場合は試してみてください）

こうしたことを避けるためにも、untilのループを出た後で判定することが必要になってきます。このため、入力件数をカウントし、1件でも入力データがある場合にはキーブレイク処理を行うことにしているのです。

「$total」は、合計値を計算するための変数です。キーブレイク時の処理でゼロにしなければ累計値になります。

ここでは合計値は1つだけになっていますが、必要に応じて、複数の変数を用意することになります。その場合、それぞれ変数を用意するか、変数の配列を使うことになります。

それ以外に初期値として設定しておくような項目があれば、ここに設定しておきます。

untilループ処理

# １件目のデータ入力    
s_in1();

untilループ処理を行う場合は、必ず、ループ処理の前に1件目のデータを入力するための処理を行います。

入力処理は、untilループの中で最後でも行うため、サブルーチンとして別に設定しています。

# 主処理    
until   ($in1_key   eq  $high_value)    {#入力ファイルが終了になるまで  

# キーブレイク時の処理  
    if  ($sv_key    ne  $in1_key)   {   
        s_break();  
    }

until の条件は、入力データが終了（EOF）したときの条件を入れます。

キーブレイク処理

キーブレイク処理は、untilのループ内で先頭に置きます。untilのループに入る前に最初に1件目の入力をしているので、最初にループに入った直後にキーブレイク処理が発生することになります。また、最後の入力データだけが異なるキー項目を持っていたとしても、EOFは入力処理を行った後に検出するため、必ずキーブレイク処理が発生します。

このスクリプトでは、入力データをすべて出力していますが、何らかの項目に限定するのか、計算を行うのかによって、必要な処理に変更します。

    $sv_key =   $in1_key;   
    $total  +=  $in1[1];    
    s_in1();    
}

キーブレイク処理の後、入力処理の前で入力データのキーを保存しておきます。保存しないと、現在入力しているデータの情報しか持っていないため、キーブレイクしたかどうか判断できなくなります。

また、合計値の計算はここで行います。その他のデータを保存したり、集計値を設定する必要があれば、ここに指定しておきます。

データ入力処理

データ入力処理は、untilのループ内の最後に置きます。入力処理でEOFが検出できれば、untilのループの外に出ることになり、EOFでなければ（つまり、入力データがあれば）、再度、untilのループの中の処理を最初から繰り返します。

最終データの処理

# 最終データの処理（入力データがある場合）  
if  ($in1_ctr   !=  0)      {   
    s_break();  
}

最後の入力データだけが異なるキー項目を持っていたとしても、EOFは入力処理を行った後に検出するため、必ずキーブレイク処理が発生します。

データ入力処理(サブルーチン)

# データ入力処理    
sub s_in1   {   
    if  ($line1     =   <IN1>)  {   
        chomp($line1);  
        @in1        =   split(",",$line1,-1); 
        $in1_key    =   $in1[0];    
    }   
    else    {                           #入力ファイルが終了のとき   
        $in1_key    =   $high_value;    #HIGH-VALUE をセット    
    }   
}

「$line1 = <IN1>」で入力ファイルから1件ずつデータを読み込んでいきます。「if ($line1 = <IN1>) 」が成り立つ場合というのは、入力ファイルから正常にデータが読み込むことができた場合です。逆にデータがなくなると「else」のほうの処理を行います。

キーブレイク処理

# 入力キーがブレイク（変化）したときの処理  
sub s_break {   
    $out1   =   join(",",$sv_key,$total);  
    print   OUT1    "$out1\n";  
    $total  =   0;  
}

合計値（$total）をゼロクリアするのは、キーブレイク処理の中でデータを出力した後に行います。ここでゼロクリアしなければ、累計値になります。

キーブレイク処理は、untilのループ内と最終データの処理を行うところの2箇所で発生するため、サブルーチンを作成して、1箇所で記述しておきます。こうすることで変更が発生した場合に修正が容易にできるようになるだけでなく、修正箇所が他人から見てもわかりやすくなるのです。

その他注意すべきこと

その他、注意すべき点は入力データがタブ区切りなどの場合とキーが複数ある場合の処理です。

上記のスクリプトでは、入力ファイルがCSV2形式(CSV2形式については、[3-1-1.固定長データとCSVデータ]を参照してください)のCSVファイルであることを前提としていますが、どのようなCSVファイルにも対応できるようにするには、

          @in1 = split(",",$line1,-1);

となっている箇所を以下のように変更します。

CSV形式の入力データを配列に変換する

    my $tmp =   $line1; 
    $tmp    =~  s/(?:\x0D\x0A|[\x0D\x0A])?$/,/; 
    @in1    =   map {/^"(.*)"$/ ? scalar($_ = $1, s/""/"/g, $_) : $_}   
                ($tmp =~ /("[^"]*(?:""[^"]*)*"|[^,]*),/g);

上記のスクリプトはCSV2形式以外の引用符(")を使用する場合を含め、あらゆるCSVファイルに対応できるようになっていますが、このCSVファイルに分解するロジックは、大崎博基(OHZAKI Hiroki)さんの「Perlメモ」に記載されていたものを参考にしています。

また、入力ファイルがタブ区切りの場合は以下のようにします。

入力データがタブ区切りの場合、

          @in1 = split("\t",$line1,-1);

とします。

キーが複数の項目から成り立っている場合は、

「$in1_key = $in1[0]」の部分を

          $in1_key = $in1[0].$in1[1].$in1[2];

のように変更します（文字列の連結は「.」（ピリオド）を使います）。

【入力データ（input.txt）】

aaa,1   
aaa,2
aaa,3
bbb,1
ccc,1
ccc,2
ddd,1
ddd,2
ddd,3
ddd,4
eee,1
fff,1
ggg,1
hhh,1
hhh,2
hhh,3

【出力データ（output.txt）：合計値の場合】

aaa,6   
bbb,1
ccc,3
ddd,10
eee,1
fff,1
ggg,1
hhh,6

【出力データ（output.txt）：累計値の場合】

aaa,6
bbb,7
ccc,10
ddd,20
eee,21
fff,22
ggg,23
hhh,29