CSVデータを固定長データに変換するためには、いくつかの方法がありますが、ここでは、pack関数を利用する方法について説明します。pack関数は第1引数に「テンプレート」と呼ばれる指定文字を指定し、第2引数に文字列を指定する関数で、テンプレートで指定した文字列にしたがって、第2引数の文字列を変換し、バイナリデータを作成する機能があります。テンプレートに「Axx」(xxには文字数が入る)と指定すると文字列からその文字数分だけ出力する機能がありますが、指定した文字数よりも実際の文字数が短い場合はスペースを入れるので、各項目ごとに変換した結果を結合すれば、固定長データになるのです。
具体的には、桁数を「10,10,7,1・・・」のように指定しておき、これを「A10,A10,A7,A1」の配列にセットしておきます。CSVデータを項目別に分解した後、その項目に対応するテンプレートで変換しています。
なお、CSVファイルから固定長ファイルに変換したときに、漢字などの全角文字が含まれていると、文字化けを起こすことがあります。下記のスクリプトでは、これに対応するため、Encodeモジュールを使っています。この場合、漢字などの全角文字は文字数にあわせた値を設定する必要があります(たとえば、ファイルレイアウトで20バイトある項目に漢字などの全角文字が最大10文字入る場合は、文字数の10を指定します。下記の例では$fieldsの2番目の項目に全角文字が入っていますが、バイト数の「10」ではなく、文字数の「5」となっている点に注意してください)。
Encodeモジュールについては、[3-5-1.文字コードの変換(Encodeモジュール利用)]を参照してください。
実際に利用するには、入出力のファイル名と「$fields = "10,5,7,1,1,1,8,8,8,2,2,4"」の部分を実際のファイルレイアウトにあわせて変更します。
下記の例では、2番目の項目に漢字などの全角文字があるため、レイアウトより文字数が短い場合は、全角スペースで埋めるようにしてます。具体的には「 $in1[1] = $in1[1].decode('cp932', " " x 5 );」のところですが、ここは、入力ファイルに全角文字がなければ不要になります。また、全角文字がある項目が複数ある場合は、それぞれの項目ごとに指定する必要があります。
# csv2fix.pl # 内容 :CSVファイルを固定長ファイルに変換する # 前提 :入力ファイルとスクリプトはshift_jisとする。 # Copyright (c) 2002-2011 Mitsuo Minagawa, All rights reserved. # (minagawa@fb3.so-net.ne.jp) # 使用方法 : c:\>perl csv2fix.pl # use Encode; open(IN1,"csv.txt"); open(OUT1,">output.txt"); @fields = (10,5,7,1,1,1,8,8,8,2,2,4); for ($i = 0; $i <= $#fields; $i++) { $fields[$i] = "A".$fields[$i]; } while ($line1 = <IN1>) { # shift_jis から utf-8(Perlの内部コード) に変換 $line1 = decode('cp932', $line1); chomp($line1); # CSV形式の $line1 から値を取り出して @in1 に入れる my $tmp = $line1; $tmp =~ s/(?:\x0D\x0A|[\x0D\x0A])?$/,/; @in1 = map {/^"(.*)"$/ ? scalar($_ = $1, s/""/"/g, $_) : $_} ($tmp =~ /("[^"]*(?:""[^"]*)*"|[^,]*),/g); #文字数(ここでは5文字)にあわせて、全角スペースを入れておく。 $in1[1] = $in1[1].decode('cp932', " " x 5 ); for ($i = 0; $i <= $#in1; $i++) { if ($in1[$i] eq "") { $in1[$i] = " "; } $out1 = $out1.pack($fields[$i],$in1[$i]); } # utf-8(Perlの内部コード) から shift_jis に変換 $out1 = encode('cp932', $out1); print OUT1 "$out1\n"; $out1 = undef; } close(IN1); close(OUT1);
上記のスクリプトは入力ファイルに漢字などの全角文字を含む場合ですが、全角文字を含まない場合は下記のようになります。
# csv2fix_2.pl # 内容 : CSVファイルを固定長ファイルに変換する # 前提 :入力ファイルとスクリプトはshift_jisとする。 # :(入力ファイルに漢字などの全角文字を含まない場合) # Copyright (c) 2002-2011 Mitsuo Minagawa, All rights reserved. # (minagawa@fb3.so-net.ne.jp) # 使用方法 : c:\>perl csv2fix_2.pl # open(IN1,"csv.txt"); open(OUT1,">output.txt"); @fields = (10,10,7,1,1,1,8,8,8,2,2,4); for ($i = 0; $i <= $#fields; $i++) { $fields[$i] = "A".$fields[$i]; } while ($line1 = <IN1>) { chomp($line1); # CSV形式の $line1 から値を取り出して @in1 に入れる my $temp = $line1; $temp =~ s/(?:\x0D\x0A|[\x0D\x0A])?$/,/; @in1 = map {/^"(.*)"$/ ? scalar($_ = $1, s/""/"/g, $_) : $_} ($temp =~ /("[^"]*(?:""[^"]*)*"|[^,]*),/g); for ($i = 0; $i <= $#in1; $i++) { if ($in1[$i] eq "") { $in1[$i] = " "; } $out1 = $out1.pack($fields[$i],$in1[$i]); } print OUT1 "$out1\n"; $out1 = undef; @in1 = undef; } close(IN1); close(OUT1);
スクリプトはこちらにあります(入力ファイルに全角文字を含む場合)。
スクリプトはこちらにあります(入力ファイルに全角文字を含まない場合)。
11111,1−2−3,ABCDEF,1,2,3,20011001,20020228,20020131,01,05,9999 22222,ABC,BCDEFG,5,5,5,20011001,20020228,20020131,01,05,8888 33333,αβ,CDEFGH,3,4,2,20011001,20020228,20020131,01,05,7777 44444,abc,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666 55555,貸借対照表,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666 66666,航空機,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666 77777,山﨑髙彦,FGHIJK,1,2,8,20011001,20020228,20020131,01,05,5555 88888,①②③④,GHIJKL,2,4,9,20011001,20020228,20020131,01,05,4444 99999,漢字,LMNOPQ,3,8,5,20011001,20020228,20020131,01,05,3333
11111 1−2−3ABCDEF 12320011001200202282002013101059999 22222 ABC BCDEFG 55520011001200202282002013101058888 33333 αβ CDEFGH 34220011001200202282002013101057777 44444 abc EFGHIJ 22220011001200202282002013101056666 55555 貸借対照表EFGHIJ 22220011001200202282002013101056666 66666 航空機 EFGHIJ 22220011001200202282002013101056666 77777 山﨑髙彦 FGHIJK 12820011001200202282002013101055555 88888 ①②③④ GHIJKL 24920011001200202282002013101054444 99999 漢字 LMNOPQ 38520011001200202282002013101053333