CSVファイルを読み込んで、キーが重複しているレコードを除去して、キーがユニークなレコードだけを出力するスクリプトです。前レコードと異なるキーを持つ場合のみ出力するようにしています。
実際に応用する場合は、入出力データのファイル名などを変更してください。また、入力データはキー順に並べ替えてあることが前提となっています。Rubyを利用して並べ替えを行う場合については、[2-4.ソート(並べ替え)処理]を参照してください。
なお、同様の処理を行う[3-2-4.ハッシュを使って、キーの重複したデータを1つにする]については、入力データをキー順に並べ替えておく必要はありません。
# single.rb # 内容 : 重複チェックプログラム(重複データを除いて出力する) # 前提 : 重複チェックしたいキーであらかじめソートしておく。 # Copyright (c) 2002-2015 Mitsuo Minagawa, All rights reserved. # (minagawa@fb3.so-net.ne.jp) # 使用方法 : c:\>ruby single.rb # # 入力ファイル in1_file = open("double.txt","r") # 出力ファイル out1_file = open("single_only.txt","w") sv_key = nil # 主処理 while (line1 = in1_file.gets) line1.chomp! in1 = (line1 + ',') .scan(/"([^"\\]*(?:\\.[^"\\]*)*)",|([^,]*),/) .collect{|x,y| y || x.gsub(/(.)/, '\1')} #キー項目が単独のとき in1_key = in1[0] #キー項目が複数のとき #1番目と2番目と3番目の項目がキーとなる場合 # in1_key = in1[0] + in1[1] + in1[2] if (sv_key != in1_key) out1 = in1.join(",") out1_file.print out1,"\n" end sv_key = in1_key end # ファイルのクローズ in1_file.close out1_file.close
スクリプトは「$sv_key」に1件前のキーを保存しておき、入力したキーと比較して、異なっていたら出力しているだけの簡単なものになっています。「$sv_key」には初期値として「$low_value」をセットしていますが、「undef」にしても可能です。
その他注意すべきこと
その他、注意すべき点は入力データがタブ区切りなどの場合とキーが複数ある場合の処理です。
1.入力データがタブ区切りの場合
上記のスクリプトはCSV2形式以外の引用符(")を使用する場合を含め、あらゆるCSVファイルに対応できるようになっていますが、入力データがタブ区切りの場合は
line1.chomp! in1 = (line1 + ',') .scan(/"([^"\\]*(?:\\.[^"\\]*)*)",|([^,]*),/) .collect{|x,y| y || x.gsub(/(.)/, '\1')}
となっている箇所を
in1 = line1.split("\t",-1);
と変更します。
2.キーが複数の項目から成り立っている場合
「in1_key = in1[0]」の部分を
in1_key = in1[0] + in1[1] + in1[2]
のように変更します(文字列の連結は「+」を使う)。
aaa,1 aaa,2 aaa,3 bbb,1 ccc,1 ccc,2 ddd,1 ddd,2 ddd,3 ddd,4 eee,1 fff,1 ggg,1 hhh,1 hhh,2 hhh,3
aaa,1 bbb,1 ccc,1 ddd,1 eee,1 fff,1 ggg,1 hhh,1