固定長CSVデータとは、通常のCSVデータが可変長であるのに対し、各項目の長さがすべて最大の長さをしているようなCSVデータです。実際の項目の長さよりも長い分については、スペースが入っています。言い換えれば、固定長データを項目ごとに区切り文字(ここでは、カンマ)で区切ったデータであるということもできます。
具体的には、区切り文字をはずして、すべての項目を結合させれば固定長データになるので、項目ごとに結合しているだけです。したがって、入力ファイルに漢字などの全角文字が含まれているかどうかによって、スクリプトが変わることはありません。
# fcsv2fix.pl # 内容 :固定長CSVファイル(一定の箇所に「,」があるテキスト形式)を # 固定長ファイルに変換する # 前提 :入力ファイルとスクリプトはshift_jisとする。 # Copyright (c) 2002-2011 Mitsuo Minagawa, All rights reserved. # (minagawa@fb3.so-net.ne.jp) # 使用方法 : c:\>perl fcsv2fix.pl # use Encode; open(IN1,"fcsv.txt"); open(OUT1,">output.txt"); while ($line1 = <IN1>) { chomp($line1); # CSV形式の $line1 から値を取り出して @in1 に入れる my $tmp = $line1; $tmp =~ s/(?:\x0D\x0A|[\x0D\x0A])?$/,/; @in1 = map {/^"(.*)"$/ ? scalar($_ = $1, s/""/"/g, $_) : $_} ($tmp =~ /("[^"]*(?:""[^"]*)*"|[^,]*),/g); # for ($i = 0; $i <= $#in1; $i++) { $out1 = $out1.$in1[$i]; } print OUT1 "$out1\n"; $out1 = undef; } close(IN1); close(OUT1);
11111 ,1−2−3,ABCDEF ,1,2,3,20011001,20020228,20020131,01,05,9999 22222 ,ABC ,BCDEFG ,5,5,5,20011001,20020228,20020131,01,05,8888 33333 ,αβ ,CDEFGH ,3,4,2,20011001,20020228,20020131,01,05,7777 44444 ,abc ,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666 55555 ,貸借対照表,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666 66666 ,航空機 ,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666 77777 ,山﨑髙彦 ,FGHIJK ,1,2,8,20011001,20020228,20020131,01,05,5555 88888 ,①②③④ ,GHIJKL ,2,4,9,20011001,20020228,20020131,01,05,4444 99999 ,漢字 ,LMNOPQ ,3,8,5,20011001,20020228,20020131,01,05,3333
11111 1−2−3ABCDEF 12320011001200202282002013101059999 22222 ABC BCDEFG 55520011001200202282002013101058888 33333 αβ CDEFGH 34220011001200202282002013101057777 44444 abc EFGHIJ 22220011001200202282002013101056666 55555 貸借対照表EFGHIJ 22220011001200202282002013101056666 66666 航空機 EFGHIJ 22220011001200202282002013101056666 77777 山﨑髙彦 FGHIJK 12820011001200202282002013101055555 88888 ①②③④ GHIJKL 24920011001200202282002013101054444 99999 漢字 LMNOPQ 38520011001200202282002013101053333