# coding:windows-31j
# double2_hash.rb
# 内容 :　重複チェック後、重複データには、「重複」表示をする。
# 前提 :　重複チェックしたいキーであらかじめソートしておく必要はない。
# Copyright (c) 2013-2015 Mitsuo Minagawa, All rights reserved.
# (minagawa@fb3.so-net.ne.jp)
# 使用方法 : c:\>ruby double2_hash.rb
#
# 入力ファイル
in1_file	=	open("double.txt","r")
# 出力ファイル
out1_file	=	open("double_check.txt","w")

# 出力用ハッシュ
out1	=	Hash.new

# 主処理
while	(line1	=	in1_file.gets)	
	line1.chomp!
#---区切り文字により、処理を変更する----------
#タブ区切りのとき
#	in1	=	line1.split("\t",-1)

#カンマ区切りのとき
	in1		=	(line1 + ',')
				.scan(/"([^"\\]*(?:\\.[^"\\]*)*)",|([^,]*),/)
				.collect{|x,y| y || x.gsub(/(.)/, '\1')}

#キー項目が単独のとき
	in1_key	=	in1[0]
#キー項目が複数のとき
#１番目と２番目と３番目の項目がキーとなる場合
#	in1_key	=	in1[0] + in1[1] + in1[2]

# ハッシュのキーがすでに存在する場合(重複している場合)
	if		(out1.include?(in1_key))
			double	=	out1[in1_key]
			double[0]	+=	1
			double.push(line1)
			out1[in1_key]	=	double
# ハッシュのキーが存在しない場合(重複していない場合)
	else
			double	=	[]
			double[0]	=	1
			double.push(line1)
			out1[in1_key]	=	double
	end
end	

# ハッシュのキーをソートして出力する
out1.sort_by{|key| key }.each{|key,value|
# 件数が2件以上のとき(重複データのとき)
	if		(out1[key][0]	==	1)
			out1[key].shift
			w_temp	=	[out1[key]].join("\n")
			out1_file.print "#{w_temp}\n"
	else
			out1[key].shift
			out1[key].each		{|data|
				w_temp	=	[data,"重複"].join(",")
				out1_file.print "#{w_temp}\n"
			}
	end
}

# ファイルのクローズ
in1_file.close
out1_file.close