■Windows版Perlの細道・けもの道

■ナビゲータ

[南北館(最初のメニュー)]

  1. [Windows版Perlの細道・けもの道]
    1. [1.準備編]
    2. [2.基本編]
    3. [3.応用編]
      1. [3-1.固定長データとCSVデータとの変換]
        1. [3-1-1.固定長データとCSVデータ]
        2. [3-1-2.固定長データをCSVデータに変換する]
        3. [3-1-3.CSVデータを固定長データに変換する]
        4. [3-1-4.固定長CSVデータを固定長データに変換する]
        5. [3-1-5.固定長データを固定長CSVデータに変換する]
        6. [3-1-6.固定長CSVデータをCSVデータに変換する]
        7. [3-1-7.CSVデータを固定長CSVデータに変換する]
      2. [3-2.重複データの処理]
      3. [3-3.フォルダ内の一括処理]
      4. [3-4.1つのファイルを複数のファイルに分割する ]
      5. [3-5.文字コードの変換]
      6. [3-6.半角全角変換]
      7. [3-7.多次元配列の処理]
      8. [3-9.その他]
    4. [スクリプトと入力データのサンプル]
rubyではどう処理する?
同じことをrubyではこうしています。

3.応用編

3-1.固定長データとCSVデータとの変換

3-1-2.固定長データをCSVデータに変換する

固定長データをCSVデータに変換するにはいくつかの方法がありますが、ここでは、unpack関数を利用する方法について説明します。unpack関数は第1引数に「テンプレート」と呼ばれる指定文字を指定し、第2引数に文字列を指定する関数で、テンプレートで指定した文字列にしたがって、第2引数の文字列を変換する機能があります。テンプレートに「Axx」(xxには文字数が入る)と指定すると文字列からその文字数分だけ出力することを利用し、「$fields」に桁数を指定したリストをセットしておき、これをテンプレートに変換しています。具体的には、桁数を「10,10,7,1・・・」のように指定しておき、これを「A10A10A7A1」のようなテンプレートに変換しています。

ただし、unpack関数では全角スペースは削除できませんので、以下のスクリプトではそのまま残しています。全角スペースも削除するのであれば、「$out1[1] =~ s/(\x8140)+$//;」を追加します(\x8140は全角スペースを表します)。

なお、固定長ファイルからCSVファイルに変換したときに、漢字などの全角文字が含まれていると、文字化けを起こすことがあります。下記のスクリプトでは、これに対応するため、Encodeモジュールを使っています。この場合、漢字などの全角文字は文字数にあわせた値を設定する必要があります(たとえば、ファイルレイアウトで20バイトある項目に漢字などの全角文字が最大10文字入る場合は、文字数の10を指定します。下記の例では$fieldsの2番目の項目に全角文字が入っていますが、バイト数の「10」ではなく、文字数の「5」となっている点に注意してください)。

Encodeモジュールについては、[3-5-1.文字コードの変換(Encodeモジュール利用)]を参照してください。

実際に利用するには、入出力のファイル名と「$fields = "10,5,7,1,1,1,8,8,8,2,2,4"」の部分を実際のファイルレイアウトにあわせて変更します。

【スクリプト】
# fix2csv.pl    
# 内容 :固定長ファイルをCSVファイルに変換する 
# 前提 :入力ファイルとスクリプトはshift_jisとする。
# Copyright (c) 2002-2011 Mitsuo Minagawa, All rights reserved.
# (minagawa@fb3.so-net.ne.jp)  
# 使用方法 : c:\>perl fix2csv.pl    
#   
use Encode; 

open(IN1,"fix.txt");    
open(OUT1,">output.txt");   

$fields =   "10,5,7,1,1,1,8,8,8,2,2,4";    
$fields =~  s/,/A/g;        
$fields =   "A".$fields;        
while   ($line1 =   <IN1>)  {       

# shift_jis から utf-8(Perlの内部コード) に変換
    $line1  =   decode('cp932', $line1);    
    chomp($line1);      
    @out1   =   unpack($fields, $line1);    
    $out1   =   join(",",@out1);    

# utf-8(Perlの内部コード) から shift_jis に変換
    $out1   =   encode('cp932', $out1); 
    print   OUT1    "$out1\n";  
}       
close(IN1);
close(OUT1);
    
【スクリプト(全角文字を含まない場合)】

上記のスクリプトは入力ファイルに漢字などの全角文字を含む場合ですが、全角文字を含まない場合は下記のようになります。

# fix2csv_2.pl  
# 内容 : 固定長ファイルをCSVファイルに変換する 
# 前提 :入力ファイルとスクリプトはshift_jisとする。 
#      :(入力ファイルに漢字などの全角文字を含まない場合)    
# Copyright (c) 2002-2012 Mitsuo Minagawa, All rights reserved. 
# (minagawa@fb3.so-net.ne.jp)   
# 使用方法 : c:\>perl fix2csv_2.pl  
#   
open(IN1,"fix.txt");        
open(OUT1,">output.txt");       

$fields =   "10,10,7,1,1,1,8,8,8,2,2,4";        
$fields =~  s/,/A/g;        
$fields =   "A".$fields;        
while   ($line1 =   <IN1>)  {       
    chomp($line1);      
    @out1   =   unpack($fields, $line1);    
    print   OUT1    join(",",@out1),"\n";   
}       
close(IN1);     
close(OUT1);        
    
【スクリプトとデータのサンプル】

スクリプトはこちらにあります(入力ファイルに全角文字を含む場合)。

スクリプトはこちらにあります(入力ファイルに全角文字を含まない場合)。

入力データのサンプルはこちらにあります。

【入力データ】
11111     1−2−3ABCDEF 12320011001200202282002013101059999
22222     ABC  BCDEFG 55520011001200202282002013101058888
33333     αβ   CDEFGH 34220011001200202282002013101057777
44444     abc  EFGHIJ 22220011001200202282002013101056666
55555     貸借対照表EFGHIJ 22220011001200202282002013101056666
66666     航空機  EFGHIJ 22220011001200202282002013101056666
77777     山﨑髙彦 FGHIJK 12820011001200202282002013101055555
88888     ①②③④ GHIJKL 24920011001200202282002013101054444
99999     漢字   LMNOPQ 38520011001200202282002013101053333
    
【出力データ】
11111,1−2−3,ABCDEF,1,2,3,20011001,20020228,20020131,01,05,9999
22222,ABC  ,BCDEFG,5,5,5,20011001,20020228,20020131,01,05,8888
33333,αβ   ,CDEFGH,3,4,2,20011001,20020228,20020131,01,05,7777
44444,abc  ,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666
55555,貸借対照表,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666
66666,航空機  ,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666
77777,山﨑髙彦 ,FGHIJK,1,2,8,20011001,20020228,20020131,01,05,5555
88888,①②③④ ,GHIJKL,2,4,9,20011001,20020228,20020131,01,05,4444
99999,漢字   ,LMNOPQ,3,8,5,20011001,20020228,20020131,01,05,3333
    



Copyright (c) 2004-2013 Mitsuo Minagawa, All rights reserved.