固定長データをCSVデータに変換するにはいくつかの方法がありますが、ここでは、unpackメソッドを利用する方法について説明します。unpackメソッドは引数に「テンプレート」と呼ばれる指定文字を指定することで、テンプレートで指定した文字列にしたがって、オブジェクトの文字列を変換します。テンプレートに「Axx」(xxには文字数が入る)と指定すると文字列からその文字数分だけ出力することを利用し、「fields」に入力ファイルのレイアウトに即した桁数を指定したリストをセットしておき、これをテンプレートに変換しています。具体的には、桁数を「10,10,7,1・・・」のように指定しておき、これを「A10A10A7A1」のようなテンプレートに変換しています。
なお、固定長ファイルからCSVファイルに変換したときに、漢字などの全角文字が含まれていると、文字化けを起こすことがあります。下記のスクリプトでは、これに対応するため、NKFライブラリを使っています。unpackメソッドを使う場合、漢字などの全角文字は文字数の2倍の値を設定する必要があります(たとえば、ファイルレイアウトで20バイトある項目に漢字などの全角文字が最大10文字入る場合でも、20を指定します。下記の例では$fieldsの2番目の項目に全角文字が入っていますが、文字数の「5」ではなく、バイト数の「10」となっている点に注意してください。(この点はPerlと異なる点です))。
また、下記の例では、入力ファイルに漢字などの全角文字を含むことを前提としていますが、入力ファイルが半角の英数字だけの場合は、コメントになっている「out1_file.print line1.unpack(fields).join(","),"\n"」のコメントを外し、「out1 = line1.unpack(fields).join(",")」から「out1_file.print out1,"\n"」までの3行をコメントにしても実行可能です(それ以外にもNKFライブラリを使っている箇所はすべてコメントにしておく必要があります)。
NKFモジュールについては、[3-5-2.文字コードの変換(nkfライブラリ利用)]を参照してください。
また、下記のスクリプトの中でコメントになっていますが、
out1_file.print in1.unpack(fields).join(","),"\n"
を見てもわかるようにRubyでは
オブジェクト.メソッド1.メソッド2・・・
のような記述をすることで複数の処理を一度に記述することができます。この例では、「Arrayクラス」の変数「in1」を「unpackメソッド」で変換した後、「joinメソッド」で1つの文字列に結合しています。こうした点がPerlとは大きく異なる点です。Perlの場合は
関数1(関数2(関数3()))
のように関数を入れ子にするか、中間結果を変数にセットするような形式になりますが、Rubyではオブジェクト指向言語ということで、このようにすっきりと記述できるのです。
実際に利用するには、入出力ファイル名を変更するとともに、
fields = "10,10,7,1,1,1,8,8,8,2,2,4"
の部分を入力ファイルのレイアウトにあわせて、必要な桁数に変更します。
# coding:windows-31j # fix2csv.rb # 内容 :固定長ファイルをCSVファイルに変換する # 前提 :入力ファイルとスクリプトはshift_jisとする。 # Copyright (c) 2002-2015 Mitsuo Minagawa, All rights reserved. # (minagawa@fb3.so-net.ne.jp) # 使用方法 : c:\>ruby fix2csv.rb require 'nkf' # 入力ファイル in1_file = open("fix.txt","r") # 出力ファイル out1_file = open("output.txt","w") # 入力ファイルのレイアウトを指定する。 fields = "10,10,7,1,1,1,8,8,8,2,2,4" fields = "A"+fields.gsub(/,/,"A") # 主処理 while (line1 = in1_file.gets) # shift_jis から euc-jp に変換 line1 = NKF::nkf( '-Sxem0--cp932', line1 ) line1.chomp! # out1_file.print line1.unpack(fields).join(","),"\n" out1 = line1.unpack(fields).join(",") # euc-jp から shift_jis に変換 out1 = NKF::nkf( '-Exsm0--cp932', out1 ) out1_file.print out1,"\n" end # ファイルのクローズ in1_file.close out1_file.close
Ruby1.9以降でprintメソッドの引数で漢字などの全角文字を使っていますので、マジックコメントを使っています。マジックコメントの指定方法については、[2-1-5.スクリプトの中で漢字を使う]を参照してください。
Ruby1.8以前で実行するには、$KCODEを使用します。$KCODEについても[2-1-5.スクリプトの中で漢字を使う]を参照してください。
上記のスクリプトは入力ファイルに漢字などの全角文字を含む場合ですが、全角文字を含まない場合は下記のようになります。
# coding:windows-31j # fix2csv_2.rb # 内容 :固定長ファイルをCSVファイルに変換する # 前提 :入力ファイルとスクリプトはshift_jisとする。 # :(入力ファイルに漢字などの全角文字を含まない場合) # Copyright (c) 2002-2015 Mitsuo Minagawa, All rights reserved. # (minagawa@fb3.so-net.ne.jp) # 使用方法 : c:\>ruby fix2csv_2.rb require 'nkf' # 入力ファイル in1_file = open("fix.txt","r") # 出力ファイル out1_file = open("output.txt","w") # 入力ファイルのレイアウトを指定する。 fields = "10,10,7,1,1,1,8,8,8,2,2,4" fields = "A"+fields.gsub(/,/,"A") # 主処理 while (line1 = in1_file.gets) line1.chomp! out1_file.print line1.unpack(fields).join(","),"\n" end # ファイルのクローズ in1_file.close out1_file.close
スクリプトはこちらにあります(入力ファイルに全角文字を含む場合)。
スクリプトはこちらにあります(入力ファイルに全角文字を含まない場合)。
11111 1−2−3ABCDEF 12320011001200202282002013101059999 22222 ABC BCDEFG 55520011001200202282002013101058888 33333 αβ CDEFGH 34220011001200202282002013101057777 44444 abc EFGHIJ 22220011001200202282002013101056666 55555 貸借対照表EFGHIJ 22220011001200202282002013101056666 66666 航空機 EFGHIJ 22220011001200202282002013101056666 77777 山﨑髙彦 FGHIJK 12820011001200202282002013101055555 88888 ①②③④ GHIJKL 24920011001200202282002013101054444 99999 漢字 LMNOPQ 38520011001200202282002013101053333
11111,1−2−3,ABCDEF,1,2,3,20011001,20020228,20020131,01,05,9999 22222,ABC ,BCDEFG,5,5,5,20011001,20020228,20020131,01,05,8888 33333,αβ ,CDEFGH,3,4,2,20011001,20020228,20020131,01,05,7777 44444,abc ,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666 55555,貸借対照表,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666 66666,航空機 ,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666 77777,山﨑髙彦 ,FGHIJK,1,2,8,20011001,20020228,20020131,01,05,5555 88888,①②③④ ,GHIJKL,2,4,9,20011001,20020228,20020131,01,05,4444 99999,漢字 ,LMNOPQ,3,8,5,20011001,20020228,20020131,01,05,3333