■Windows版Rubyの細道・けもの道

■ナビゲータ

[南北館(最初のメニュー)]

  1. [Windows版Rubyの細道・けもの道]
    1. [1.準備編]
    2. [2.基本編]
    3. [3.応用編]
      1. [3-1.固定長データとCSVデータとの変換]
        1. [3-1-1.固定長データとCSVデータ]
        2. [3-1-2.固定長データをCSVデータに変換する]
        3. [3-1-3.CSVデータを固定長データに変換する]
        4. [3-1-4.固定長CSVデータを固定長データに変換する]
        5. [3-1-5.固定長データを固定長CSVデータに変換する]
        6. [3-1-6.固定長CSVデータをCSVデータに変換する]
        7. [3-1-7.CSVデータを固定長CSVデータに変換する]
      2. [3-2.重複データの処理]
      3. [3-3.フォルダ内の一括処理]
      4. [3-4.1つのファイルを複数のファイルに分割する]
      5. [3-5.文字コードの変換]
      6. [3-6.半角全角変換]
      7. [3-7.多次元配列の処理]
      8. [3-9.その他]
    4. [スクリプトと入力データのサンプル]
Perlではどう処理する?
同じことをPerlではこうしています。

3.応用編

3-1.固定長データとCSVデータとの変換

3-1-3.CSVデータを固定長データに変換する

CSVデータを固定長データに変換するためには、いくつかの方法がありますが、ここでは、packメソッドを利用する方法について説明します。packメソッドは引数に「テンプレート」と呼ばれる指定文字を指定することで、テンプレートで指定した文字列にしたがって、オブジェクトの文字列を変換し、バイナリデータを作成する機能があります。テンプレートに「Axx」(xxには文字数が入る)と指定すると文字列からその文字数分だけ出力する機能がありますが、指定した文字数よりも実際の文字数が短い場合はスペースを入れるので、各項目ごとに変換した結果を結合すれば、固定長データになるのです。

具体的には、桁数を「10,10,7,1・・・」のように指定しておき、これを「A10,A10,A7,A1」のように変換して配列にセットしておきます。CSVデータを項目別に分解した後、その項目に対応するテンプレートで変換しています。

なお、固定長ファイルからCSVファイルに変換したときに、漢字などの全角文字が含まれていると、文字化けを起こすことがあります。下記のスクリプトでは、これに対応するため、NKFライブラリを使っています。packメソッドを使う場合、漢字などの全角文字は文字数の2倍の値を設定する必要があります(たとえば、ファイルレイアウトで20バイトある項目に漢字などの全角文字が最大10文字入る場合でも、20を指定します。下記の例では$fieldsの2番目の項目に全角文字が入っていますが、文字数の「5」ではなく、バイト数の「10」となっている点に注意してください。(この点はPerlと異なる点です))。

また、下記の例では、入力ファイルに漢字などの全角文字を含むことを前提としていますが、入力ファイルが半角の英数字だけの場合は、コメントになっている「out1_file.print in1.pack(fields),"\n"」のコメントを外し、「out1 = in1.pack(fields)」から「out1_file.print out1,"\n"」までの3行をコメントにしても実行可能です(それ以外にもNKFライブラリを使っている箇所はすべてコメントにしておく必要があります)。

また、空データは変換しないので、以下のように1バイトのスペースに変換しています。

    if  (i.empty?)  
        i   =   " "   
    end 
   

実際に利用するには、入出力ファイル名を変更するとともに、

    fields =   "10,10,7,1,1,1,8,8,8,2,2,4"   
   

の部分を入力ファイルのレイアウトにあわせて、必要な桁数に変更します。また、タブ区切りのデータの場合は、

    in1 = line1.split("\t",-1)   
   

と指定します。

また、以下のfor文はeachメソッドで表すこともできますが、その場合、以下のようになります。

for文では「0...in1.size」のように「...」という範囲演算子を使いますが、「0..in1.size」とすると最後に「,」がつくことになります。

    for i   in  0...in1.size
        if      (in1[i] ==  nil)
                in1[i]  =   " "
        end	
    end	
   

eachメソッドでは

    in1.each    { |i|       
        if  (i.empty?)  
            i   =   " " 
        end 
    }   
   

とします。

【スクリプト】
# coding:windows-31j    
# csv2fix.rb    
# 内容 :CSVファイルを固定長ファイルに変換する   
# 前提 :入力ファイルとスクリプトはshift_jisとする。 
# Copyright (c) 2002-2015 Mitsuo Minagawa, All rights reserved. 
# (minagawa@fb3.so-net.ne.jp)   
# 使用方法 : c:\>ruby csv2fix.rb    
#   

require 'nkf'   

# 入力ファイル  
in1_file    =   open("csv.txt","r") 
# 出力ファイル  
out1_file   =   open("output.txt","w")  

# 入力ファイルのレイアウトを指定する。  
fields      =   "10,10,7,1,1,1,8,8,8,2,2,4" 
fields      =   "A" + fields.gsub(/,/,"A")  

# 主処理    
while   (line1  =   in1_file.gets)  
# shift_jis から euc-jp に変換  
    line1   =   NKF::nkf( '-Sxem0--cp932', line1 )  
    line1.chomp!    
#カンマ区切りのとき     
    in1 =   (line1 + ',')   
            .scan(/"([^"\\]*(?:\\.[^"\\]*)*)",|([^,]*),/)   
            .collect{|x,y| y || x.gsub(/(.)/, '\1')}    

#文字数(ここでは5文字)にあわせて、全角スペースを入れておく。    
    in1[1]  =   in1[1] + NKF::nkf( '-Sxem0--cp932', " " * 5)   
    for i   in  0...in1.size    
        if      (in1[i] ==  nil)    
                in1[i]  =   " " 
        end     
    end     
#   in1.each    {   |i| 
#       if  (i.empty?)  
#           i   =   " " 
#       end 
#   }       
#   out1_file.print in1.pack(fields),"\n"   
    out1    =   in1.pack(fields)    
# euc-jp から shift_jis に変換  
    out1    =   NKF::nkf( '-Exsm0--cp932', out1 )   
    out1_file.print out1,"\n"   
end 

# ファイルのクローズ    
in1_file.close      
out1_file.close     
   

Ruby1.9以降でprintメソッドの引数で漢字などの全角文字を使っていますので、マジックコメントを使っています。マジックコメントの指定方法については、[2-1-5.スクリプトの中で漢字を使う]を参照してください。

Ruby1.8以前で実行するには、$KCODEを使用します。$KCODEについても[2-1-5.スクリプトの中で漢字を使う]を参照してください。

【スクリプト(全角文字を含まない場合)】

上記のスクリプトは入力ファイルに漢字などの全角文字を含む場合ですが、全角文字を含まない場合は下記のようになります。

# coding:windows-31j    
# csv2fix_2.rb  
# 内容 :CSVファイルを固定長ファイルに変換する   
# 前提 :入力ファイルとスクリプトはshift_jisとする。 
#      :(入力ファイルに漢字などの全角文字を含まない場合)    
# Copyright (c) 2002-2015 Mitsuo Minagawa, All rights reserved. 
# (minagawa@fb3.so-net.ne.jp)   
# 使用方法 : c:\>ruby csv2fix_2.rb  
#   

# 入力ファイル  
in1_file    =   open("csv.txt","r") 
# 出力ファイル  
out1_file   =   open("output.txt","w")  

# 入力ファイルのレイアウトを指定する。  
fields      =   "10,10,7,1,1,1,8,8,8,2,2,4" 
fields      =   "A"+fields.gsub(/,/,"A")    

# 主処理    
while   (line1  =   in1_file.gets)  
    line1.chomp!    
#カンマ区切りのとき     
    in1 =   (line1 + ',')   
            .scan(/"([^"\\]*(?:\\.[^"\\]*)*)",|([^,]*),/)   
            .collect{|x,y| y || x.gsub(/(.)/, '\1')}    

    for i   in  0...in1.size    
        if      (in1[i] ==  nil)    
                in1[i]      =   " " 
        end     
    end     
#   in1.each    {   |i| 
#       if  (i.empty?)  
#           i   =   " " 
#       end 
#   }   
    out1_file.print in1.pack(fields),"\n"   
end     

# ファイルのクローズ    
in1_file.close  
out1_file.close 
    
【スクリプトとデータのサンプル】

スクリプトはこちらにあります(入力ファイルに全角文字を含む場合)。

スクリプトはこちらにあります(入力ファイルに全角文字を含まない場合)。

入力データのサンプルはこちらにあります。

【入力データ】
11111,1−2−3,ABCDEF,1,2,3,20011001,20020228,20020131,01,05,9999
22222,ABC,BCDEFG,5,5,5,20011001,20020228,20020131,01,05,8888
33333,αβ,CDEFGH,3,4,2,20011001,20020228,20020131,01,05,7777
44444,abc,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666
55555,貸借対照表,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666
66666,航空機,EFGHIJ,2,2,2,20011001,20020228,20020131,01,05,6666
77777,山﨑髙彦,FGHIJK,1,2,8,20011001,20020228,20020131,01,05,5555
88888,①②③④,GHIJKL,2,4,9,20011001,20020228,20020131,01,05,4444
99999,漢字,LMNOPQ,3,8,5,20011001,20020228,20020131,01,05,3333
   
【出力データ】
11111     1−2−3ABCDEF 12320011001200202282002013101059999
22222     ABC  BCDEFG 55520011001200202282002013101058888
33333     αβ   CDEFGH 34220011001200202282002013101057777
44444     abc  EFGHIJ 22220011001200202282002013101056666
55555     貸借対照表EFGHIJ 22220011001200202282002013101056666
66666     航空機  EFGHIJ 22220011001200202282002013101056666
77777     山﨑髙彦 FGHIJK 12820011001200202282002013101055555
88888     ①②③④ GHIJKL 24920011001200202282002013101054444
99999     漢字   LMNOPQ 38520011001200202282002013101053333
   



Copyright (c) 2004-2015 Mitsuo Minagawa, All rights reserved.