CSVファイルを読み込んで、各キーごとの1件目に該当するレコードをwhile命令を使って出力する処理です。[2-2-1.各キーの1件目を出力(until型)]がuntil命令で行うのに対し、こちらはwhile命令を使います。
while命令は、
while (繰り返しが継続する条件) 繰り返しで行う処理 end
と記述し、繰り返しを継続する条件を満たしている間は繰り返しの中の処理を実行します。while命令では、条件の中で入力処理を行うため、入力データがある間は、繰り返しが継続する条件を満たすことになり、繰り返し処理が行われます。条件も「繰り返しが継続する条件」ということで、until命令とは一部異なった処理を行います。この「2-2-5」で示す型がwhile命令を使ったときのキーブレイク処理の基本型です。
各キーの1件目を出力する場合は、1件前のレコードのキーだけを保存しておき、その保存したキーと入力レコードのキーが異なっているかどうかによって、各キーごとの1件目のデータかどうかを判断します。
ただし、入力レコードが1件目の場合は、保存キーには何もセットされていないので、あらかじめ1件目のレコードのキーとは異なる、何らかの値をセットしておく必要があります。
ここでは、論理値が「偽」である(nil)をセットしていますが、本来あり得ない値ということで、until型のところでも紹介した最小のデータを示す値(16進数で「00000000」)をセットしてもけっこうです。こうした値を初期値として設定しておくことにより、1件目のレコードについても必ず保存キーと異なることになり、各キーの1件目でもある、最初のレコードについても必ず出力されるようになるのです。
下記に示したのは、スクリプトの構造を示したPAD図です。この図と実際のスクリプトを比較しながら、内容を理解してください。なお、入力データはキー順に並べ替えてあることが前提となっています。Rubyを利用して並べ替えを行う場合については、[2-4.ソート(並べ替え)処理]を参照してください。
実際に応用する場合は、入出力データのファイル名は当然変更する必要がありますが、それ以外に変更する必要のある箇所については、「スクリプトの解説」を参照してください。
# keybreak3.rb # 内容 : 同一キーの1件目のデータだけを出力する(while型) # 前提 : キーごとに昇順に並べ替えておくこと # Copyright (c) 2002-2015 Mitsuo Minagawa, All rights reserved. # (minagawa@fb3.so-net.ne.jp) # 使用方法 : c:\>ruby keybreak3.rb # # 入力ファイル in1_file = open("input.txt","r") # 出力ファイル out1_file = open("output.txt","w") # 初期値設定 in1_key = nil #入力キー sv_key = nil #保存キー # 主処理 while (line1 = in1_file.gets) line1.chomp! # タブ区切りのとき # in1 = line1.split("\t",-1) # カンマ区切りのとき in1 = (line1 + ',') .scan(/"([^"\\]*(?:\\.[^"\\]*)*)",|([^,]*),/) .collect{|x,y| y || x.gsub(/(.)/, '\1')} # キー項目が単独のとき in1_key = in1[0] # キー項目が複数のとき # 1番目と2番目と3番目の項目がキーとなる場合 # in1_key = in1[0] + in1[1] + in1[2] # キーブレイク時 if (sv_key != in1_key) out1 = in1.join("\t") out1_file.print out1,"\n" end #入力したキーを保存 sv_key = in1_key end # ファイルのクローズ in1_file.close out1_file.close
それでは、スクリプトの解説を個別に行っていきましょう。
初期値設定
# 初期値設定 in1_key = nil #入力キー sv_key = nil #保存キー
初期値設定では、入力件数をカウントする「in1_ctr」と保存キーをセットする「sv_key」を設定しておきます。
保存キーの初期値は未定義値(nil)ではなく、[2-2-2.各キーの最終レコードを出力(until型)]等で解説した「low_value」を使ってもけっこうです。
それ以外に初期値として設定しておくような項目があれば、ここに設定しておきます。
主処理
# 主処理 while (line1 = in1_file.gets) line1.chomp! # タブ区切りのとき # in1 = line1.split("\t",-1) # カンマ区切りのとき in1 = (line1 + ',') .scan(/"([^"\\]*(?:\\.[^"\\]*)*)",|([^,]*),/) .collect{|x,y| y || x.gsub(/(.)/, '\1')} # キー項目が単独のとき in1_key = in1[0] # キー項目が複数のとき # 1番目と2番目と3番目の項目がキーとなる場合 # in1_key = in1[0] + in1[1] + in1[2] # キーブレイク時 if (sv_key != in1_key) out1 = in1.join("\t") out1_file.print out1,"\n" end #入力したキーを保存 sv_key = in1_key end
while の条件は、getsメソッドを使って、入力データを1件、読み込む処理を入れます。
「line1 = in1_file.gets」とすると、「IN1」というファイルハンドルで指定したデータから1件入力して、「line1」という変数に代入します。このとき、正常に入力できれば、"0"(真)が設定され、正常に入力できなければ、"-1"(偽)が設定されます(EOFの場合も「偽」と判定されます)。
「while」文はこの真偽値を判断して、処理を振り分けています。真偽値が「真」の場合は、whileループが繰り返され、「偽」の場合は、whileループを抜けて処理が終了します。
whileループでは、ループの外で入力処理を行わないため、特別な処理をしなければ、1件目キーは必ず、保存キーと異なっていることになります。
したがって、何もしなければ、最初にループに入った直後にキーブレイク処理が発生することになります。このため、キーごとの最初のデータでキーブレイク処理を行う場合は、このままで問題ないのですが、キーごとの最後のデータでキーブレイク処理を行う場合は、1件目のデータのみを例外とするような条件を入れておく必要があります。
untilループでは、「in1_eof」という変数を使いましたが、その理由は、untilループの前に入力処理を行っていることにより、EOFを検出する箇所とループの判定箇所が異なってしまうためです。しかし、whileループでは、while条件の中で入力処理を行っているため、「in1_eof」という変数は必要ありません。
また、入力処理は一か所で行うため、[2-2-1.各キーの1件目を出力(until型)]で行ったようなクラスやメソッド定義を使わない方法にしています。
その他注意すべきこと
その他、注意すべき点は入力データがタブ区切りなどの場合とキーが複数ある場合の処理です。
上記のスクリプトでは、入力ファイルがCSV形式であれば、すべて対応できるようになっていますが、引用符(")をつけないCSV形式(いわゆるCSV2形式と呼ばれるものです。CSV2形式については、[3-1-1.固定長データとCSVデータ]を参照してください)であれば、
# カンマ区切りのとき in1 = (line1 + ',') .scan(/"([^"\\]*(?:\\.[^"\\]*)*)",|([^,]*),/) .collect{|x,y| y || x.gsub(/(.)/, '\1')}
上記の箇所を
in1 = line1.split(",",-1)
と変更します。
また、入力ファイルがタブ区切りの場合は以下のようにします。
入力データがタブ区切りの場合、
in1 = line1.split("\t",-1)
とします。
キーが複数の項目から成り立っている場合は、
「$in1_key = $in1[0]」の部分を
in1_key = in1[0]+in1[1]+in1[2]
のように変更します(文字列の連結は「+」(プラス)を使います)。
aaa,1 aaa,2 aaa,3 bbb,1 ccc,1 ccc,2 ddd,1 ddd,2 ddd,3 ddd,4 eee,1 fff,1 ggg,1 hhh,1 hhh,2 hhh,3
aaa,1 bbb,1 ccc,1 ddd,1 eee,1 fff,1 ggg,1 hhh,1