固定長CSVデータとは、通常のCSVデータが可変長であるのに対し、各項目の長さがすべて最大の長さをしているようなCSVデータです。実際の項目の長さよりも長い分については、スペースが入っています。言い換えれば、固定長データを項目ごとに区切り文字(ここでは、カンマ)で区切ったデータであるということもできます。
具体的には、区切り文字をはずして、すべての項目を結合させれば固定長データになるので、項目ごとに結合しているだけです。したがって、入力ファイルに漢字などの全角文字が含まれているかどうかによって、スクリプトが変わることはありません。
# fcsv2fix.pl
# 内容 :固定長CSVファイル(一定の箇所に「,」があるテキスト形式)を
# 固定長ファイルに変換する
# 前提 :入力ファイルとスクリプトはshift_jisとする。
# Copyright (c) 2002-2011 Mitsuo Minagawa, All rights reserved.
# (minagawa@fb3.so-net.ne.jp)
# 使用方法 : c:\>perl fcsv2fix.pl
#
use Encode;
open(IN1,"fcsv.txt");
open(OUT1,">output.txt");
while ($line1 = <IN1>) {
chomp($line1);
# CSV形式の $line1 から値を取り出して @in1 に入れる
my $tmp = $line1;
$tmp =~ s/(?:\x0D\x0A|[\x0D\x0A])?$/,/;
@in1 = map {/^"(.*)"$/ ? scalar($_ = $1, s/""/"/g, $_) : $_}
($tmp =~ /("[^"]*(?:""[^"]*)*"|[^,]*),/g);
#
for ($i = 0; $i <= $#in1; $i++) {
$out1 = $out1.$in1[$i];
}
print OUT1 "$out1\n";
$out1 = undef;
}
close(IN1);
close(OUT1);
11111 ,1−2−3,ABCDEF ,1,2,3,20011001,20020228,20020131,01,05,9999
22222 ,ABC ,BCDEFG ,5,5,5,20011001,20020228,20020131,01,05,8888
33333 ,αβ ,CDEFGH ,3,4,2,20011001,20020228,20020131,01,05,7777
44444 ,abc ,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666
55555 ,貸借対照表,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666
66666 ,航空機 ,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666
77777 ,山﨑髙彦 ,FGHIJK ,1,2,8,20011001,20020228,20020131,01,05,5555
88888 ,①②③④ ,GHIJKL ,2,4,9,20011001,20020228,20020131,01,05,4444
99999 ,漢字 ,LMNOPQ ,3,8,5,20011001,20020228,20020131,01,05,3333
11111 1−2−3ABCDEF 12320011001200202282002013101059999
22222 ABC BCDEFG 55520011001200202282002013101058888
33333 αβ CDEFGH 34220011001200202282002013101057777
44444 abc EFGHIJ 22220011001200202282002013101056666
55555 貸借対照表EFGHIJ 22220011001200202282002013101056666
66666 航空機 EFGHIJ 22220011001200202282002013101056666
77777 山﨑髙彦 FGHIJK 12820011001200202282002013101055555
88888 ①②③④ GHIJKL 24920011001200202282002013101054444
99999 漢字 LMNOPQ 38520011001200202282002013101053333