通常のCSVデータを固定長CSVデータに変換するには、sprintf関数を利用して、左寄せのデータを作成します。
CSVファイルから固定長CSVファイルに変換したときに、漢字などの全角文字が含まれていると、文字化けを起こすことがあります。下記のスクリプトでは、これに対応するため、NKFライブラリを使っています。sprintfメソッドを使う場合、漢字などの全角文字は文字数の値を設定する必要があります(たとえば、ファイルレイアウトで20バイトある項目に漢字などの全角文字が最大10文字入る場合は、10を指定します。下記の例では$fieldsの2番目の項目に全角文字が入っていますが、バイト数の「10」ではなく、文字数の「5」となっている点に注意してください。(この点はpackメソッドやunpackメソッドと異なる点です))。
NKFモジュールについては、[3-5-2.文字コードの変換(nkfライブラリ利用)]を参照してください。
また、下記の例では、入力ファイルに漢字などの全角文字を含むことを前提としていますが、入力ファイルが半角の英数字だけの場合は、コメントになっている「out1_file.print in1.join(","),"\n"」のコメントを外し、「out1 = in1.join(",")」から「out1_file.print out1,"\n"」までの3行をコメントにしても実行可能です(それ以外にもNKFライブラリを使っている箇所はすべてコメントにしておく必要があります)。
なお、CSVファイルで漢字などの全角文字がある場合、固定長CSVファイルで指定する項目の長さよりも短いと、半角のスペースではなく、全角のスペースで埋めることになります。下記の例では2番目の項目が全角文字なので、全角スペースを埋める処理を行っています。NKFライブラリで変換しているため、lengthメソッドでは全角文字が1文字で1として計算されます(通常は2として計算されます)。また、sprintfメソッドでも全角文字が1文字で1として計算されますので、「fields」の指定が10ではなく、5となっています。
w_space = " " * (fields[1] - in1[1].length)
実際に利用するには、入出力ファイル名を変更するとともに、
fields = "10,5,7,1,1,1,8,8,8,2,2,4"
の部分を入力ファイルのレイアウトにあわせて、必要な桁数に変更します。また、タブ区切りのデータの場合は、
in1 = line1.split("\t",-1)
と指定します。
# coding:windows-31j # csv2fcsv.rb # 内容 :CSVファイルを固定長CSVファイル(一定の箇所に「,」があるテキスト形式)にする # 前提 :入力ファイルとスクリプトはshift_jisとする。 # Copyright (c) 2002-2015 Mitsuo Minagawa, All rights reserved. # (minagawa@fb3.so-net.ne.jp) # 使用方法 : c:\>ruby csv2fcsv.rb # require 'nkf' # 入力ファイル in1_file = open("csv.txt","r") # 出力ファイル out1_file = open("output.txt","w") # 入力ファイルのレイアウトを指定する。 fields = [10,5,7,1,1,1,8,8,8,2,2,4] # sprintfに指定する「幅」 digit = nil # 主処理 while (line1 = in1_file.gets) # shift_jis から euc-jp に変換 line1 = NKF::nkf( '-Sxem0--cp932', line1 ) line1.chomp! #カンマ区切りのとき in1 = (line1 + ',') .scan(/"([^"\\]*(?:\\.[^"\\]*)*)",|([^,]*),/) .collect{|x,y| y || x.gsub(/(.)/, '\1')} i = 0 #文字数にあわせて、全角スペースを入れておく。 w_space = " " * (fields[1] - in1[1].length) in1[1] = in1[1] + NKF::nkf( '-Sxem0--cp932', w_space ) while i < in1.size if (in1[i] == nil) in1[i] = " " end digit = '%-' + fields[i].to_s + 's' in1[i] = sprintf(digit,in1[i]) i += 1 end # out1_file.print in1.join(","),"\n" out1 = in1.join(",") # euc-jp から shift_jis に変換 out1 = NKF::nkf( '-Exsm0--cp932', out1 ) out1_file.print out1,"\n" end # ファイルのクローズ in1_file.close out1_file.close
Ruby1.9以降でprintメソッドの引数で漢字などの全角文字を使っていますので、マジックコメントを使っています。マジックコメントの指定方法については、[2-1-5.スクリプトの中で漢字を使う]を参照してください。
Ruby1.8以前で実行するには、$KCODEを使用します。$KCODEについても[2-1-5.スクリプトの中で漢字を使う]を参照してください。
上記のスクリプトは入力ファイルに漢字などの全角文字を含む場合ですが、全角文字を含まない場合は下記のようになります。
# coding:windows-31j # csv2fcsv_2.rb # 内容 : CSVファイルを # 固定長CSVファイル(一定の箇所に「,」があるテキスト形式)にする # 前提 :入力ファイルとスクリプトはshift_jisとする。 # :(入力ファイルに漢字などの全角文字を含まない場合) # Copyright (c) 2002-2015 Mitsuo Minagawa, All rights reserved. # (minagawa@fb3.so-net.ne.jp) # 使用方法 : c:\>ruby csv2fcsv_2.rb # # 入力ファイル in1_file = open("csv.txt","r") # 出力ファイル out1_file = open("output.txt","w") # # 入力ファイルのレイアウトを指定する。 fields = [10,10,7,1,1,1,8,8,8,2,2,4] # sprintfに指定する「幅」 digit = nil # 主処理 while (line1 = in1_file.gets) line1.chomp! #カンマ区切りのとき in1 = (line1 + ',') .scan(/"([^"\\]*(?:\\.[^"\\]*)*)",|([^,]*),/) .collect{|x,y| y || x.gsub(/(.)/, '\1')} i = 0 while i < in1.size if (in1[i] == nil) in1[i] = " " end digit = '%-' + fields[i].to_s + 's' in1[i] = sprintf(digit,in1[i]) i += 1 end out1 = in1.join(",") out1_file.print out1,"\n" end # ファイルのクローズ in1_file.close out1_file.close
スクリプトはこちらにあります(入力ファイルに全角文字を含む場合)。
スクリプトはこちらにあります(入力ファイルに全角文字を含まない場合)。
11111,1−2−3,ABCDEF,1,2,3,20011001,20020228,20020131,01,05,9999 22222,ABC,BCDEFG,5,5,5,20011001,20020228,20020131,01,05,8888 33333,αβ,CDEFGH,3,4,2,20011001,20020228,20020131,01,05,7777 44444,abc,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666 55555,貸借対照表,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666 66666,航空機,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666 77777,山﨑髙彦,FGHIJK,1,2,8,20011001,20020228,20020131,01,05,5555 88888,①②③④,GHIJKL,2,4,9,20011001,20020228,20020131,01,05,4444 99999,漢字,LMNOPQ,3,8,5,20011001,20020228,20020131,01,05,3333
11111 ,1−2−3,ABCDEF ,1,2,3,20011001,20020228,20020131,01,05,9999 22222 ,ABC ,BCDEFG ,5,5,5,20011001,20020228,20020131,01,05,8888 33333 ,αβ ,CDEFGH ,3,4,2,20011001,20020228,20020131,01,05,7777 44444 ,abc ,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666 55555 ,貸借対照表,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666 66666 ,航空機 ,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666 77777 ,山﨑髙彦 ,FGHIJK ,1,2,8,20011001,20020228,20020131,01,05,5555 88888 ,①②③④ ,GHIJKL ,2,4,9,20011001,20020228,20020131,01,05,4444 99999 ,漢字 ,LMNOPQ ,3,8,5,20011001,20020228,20020131,01,05,3333