Perlの細道・けもの道

■Windows版Perlの細道・けもの道

■ナビゲータ

[南北館（最初のメニュー）]

[Windows版Perlの細道・けもの道]

[3-1.固定長データとCSVデータとの変換]

[スクリプトと入力データのサンプル]

rubyではどう処理する？

同じことをrubyではこうしています。

3.応用編

3-1.固定長データとCSVデータとの変換

3-1-7.CSVデータを固定長CSVデータに変換する

通常のCSVデータを固定長CSVデータに変換するには、pack関数を利用して、各項目ごとに必要なスペース付加するような形で変換していきます。

なお、CSVファイルから固定長CSVファイルに変換したときに、漢字などの全角文字が含まれていると、文字化けを起こすことがあります。下記のスクリプトでは、これに対応するため、Encodeモジュールを使っています。この場合、漢字などの全角文字は文字数にあわせた値を設定する必要があります(たとえば、ファイルレイアウトで20バイトある項目に漢字などの全角文字が最大10文字入る場合は、文字数の10を指定します。下記の例では$fieldsの2番目の項目に全角文字が入っていますが、バイト数の「10」ではなく、文字数の「5」となっている点に注意してください)。

Encodeモジュールについては、[3-5-1.文字コードの変換(Encodeモジュール利用)]を参照してください。

実際に利用するには、入出力のファイル名と「$fields = "10,5,7,1,1,1,8,8,8,2,2,4"」の部分を実際のファイルレイアウトにあわせて変更します。

下記の例では、2番目の項目に漢字などの全角文字があるため、レイアウトより文字数が短い場合は、全角スペースで埋めるようにしてます。具体的には「 $in1[1] = $in1[1].decode('cp932', "　" x 5 );」のところですが、ここは、入力ファイルに全角文字がなければ不要になります。また、全角文字がある項目が複数ある場合は、それぞれの項目ごとに指定する必要があります。

【スクリプト】

# csv2fcsv.pl   
# 内容 :CSVファイルを
#       固定長CSVファイル（一定の箇所に「,」があるテキスト形式）に変換する
# 前提 :入力ファイルとスクリプトはshift_jisとする。
# Copyright (c) 2002-2011 Mitsuo Minagawa, All rights reserved.
# (minagawa@fb3.so-net.ne.jp)  
# 使用方法 : c:\>perl csv2fcsv.pl   
#   
use Encode; 

open(IN1,"csv.txt");    
open(OUT1,">output.txt");   
@fields =   (10,5,7,1,1,1,8,8,8,2,2,4);        
for ($i =   0;  $i  <=  $#fields;   $i++)   {       
    $fields[$i] =   "A".$fields[$i];        
}       
while   ($line1 =   <IN1>)      {   

# shift_jis から utf-8(Perlの内部コード) に変換
    $line1  =   decode('cp932', $line1);    
    chomp($line1);  
# CSV形式の $line1 から値を取り出して @in1 に入れる     
    my $tmp =   $line1; 
    $tmp    =~  s/(?:\x0D\x0A|[\x0D\x0A])?$/,/; 
    @in1    =   map {/^"(.*)"$/ ? scalar($_ = $1, s/""/"/g, $_) : $_}   
                ($tmp =~ /("[^"]*(?:""[^"]*)*"|[^,]*),/g);  

#文字数(ここでは5文字)にあわせて、全角スペースを入れておく。
    $in1[1] =   $in1[1].decode('cp932', "　" x 5 );  
    for ($i =   0;  $i  <=  $#in1;  $i++)   {       
        $in1[$i]    =   pack($fields[$i],$in1[$i]);     
    }       
    $out1   =   join(",",@in1); 

# utf-8(Perlの内部コード) から shift_jis に変換
    $out1   =   encode('cp932', $out1); 
    print   OUT1    "$out1\n";  
}       
close(IN1);
close(OUT1);

【スクリプト(全角文字を含まない場合)】

上記のスクリプトは入力ファイルに漢字などの全角文字を含む場合ですが、全角文字を含まない場合は下記のようになります。

# csv2fcsv_2.pl 
# 内容 :　CSVファイルを 
#         固定長CSVファイル（一定の箇所に「,」があるテキスト形式）に変換する    
# 前提 :入力ファイルとスクリプトはshift_jisとする。 
#      :(入力ファイルに漢字などの全角文字を含まない場合)    
# Copyright (c) 2002-2011 Mitsuo Minagawa, All rights reserved. 
# (minagawa@fb3.so-net.ne.jp)   
# 使用方法 : c:\>perl csv2fcsv_2.pl 
#   
open(IN1,"csv.txt");        
open(OUT1,">output.txt");       
@fields =   (10,10,7,1,1,1,8,8,8,2,2,4);        
for ($i =   0;  $i  <=  $#fields;   $i++)   {       
    $fields[$i] =   "A".$fields[$i];        
}       
while   ($line1 =   <IN1>)  {       
    chomp($line1);          
# CSV形式の $line1 から値を取り出して @in1 に入れる     
    my $temp    =   $line1; 
    $temp   =~  s/(?:\x0D\x0A|[\x0D\x0A])?$/,/; 
    @in1    =   map {/^"(.*)"$/ ? scalar($_ = $1, s/""/"/g, $_) : $_}   
                ($temp =~ /("[^"]*(?:""[^"]*)*"|[^,]*),/g); 

    for ($i =   0;  $i  <=  $#in1;  $i++)   {       
        $in1[$i]    =   pack($fields[$i],$in1[$i]);     
    }       
    $out1   =   join(",",@in1);     
    print   OUT1    "$out1\n";      
}       
close(IN1);     
close(OUT1);

【スクリプトとデータのサンプル】

スクリプトはこちらにあります(入力ファイルに全角文字を含む場合)。

スクリプトはこちらにあります(入力ファイルに全角文字を含まない場合)。

入力データのサンプルはこちらにあります。

【入力データ】

11111,１−２−３,ABCDEF,1,2,3,20011001,20020228,20020131,01,05,9999
22222,ＡＢＣ,BCDEFG,5,5,5,20011001,20020228,20020131,01,05,8888
33333,αβ,CDEFGH,3,4,2,20011001,20020228,20020131,01,05,7777
44444,ａｂｃ,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666
55555,貸借対照表,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666
66666,航空機,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666
77777,山﨑髙彦,FGHIJK,1,2,8,20011001,20020228,20020131,01,05,5555
88888,①②③④,GHIJKL,2,4,9,20011001,20020228,20020131,01,05,4444
99999,漢字,LMNOPQ,3,8,5,20011001,20020228,20020131,01,05,3333

【出力データ】

11111     ,１−２−３,ABCDEF ,1,2,3,20011001,20020228,20020131,01,05,9999
22222     ,ＡＢＣ　　,BCDEFG ,5,5,5,20011001,20020228,20020131,01,05,8888
33333     ,αβ　　　,CDEFGH ,3,4,2,20011001,20020228,20020131,01,05,7777
44444     ,ａｂｃ　　,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666
55555     ,貸借対照表,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666
66666     ,航空機　　,EFGHIJ ,2,2,2,20011001,20020228,20020131,01,05,6666
77777     ,山﨑髙彦　,FGHIJK ,1,2,8,20011001,20020228,20020131,01,05,5555
88888     ,①②③④　,GHIJKL ,2,4,9,20011001,20020228,20020131,01,05,4444
99999     ,漢字　　　,LMNOPQ ,3,8,5,20011001,20020228,20020131,01,05,3333