浦東 聡介
税務大学校
研究部研究員

要約

1 研究の目的

本研究は、国税庁においてICT・AI技術を効果的に利活用するための論点整理並びに各論点についての留意点及び方向性の考察を目的とする。近年、税務行政を取り巻く環境はICTやAIが著しく発展するとともに、新たに社会保障・税番号制度やマイナポータルが導入されるなど大きく変化している。このような中、国税庁では、内国税の適正かつ公平な賦課及び徴収の実現という国税庁の任務を十分に果たしていくため、納税者の利便性向上や税務行政の効率化等の観点から、業務・システムの見直しに取り組んでいる。こうした見直しを円滑かつ効率的に実施するためには、ICT・AI技術によるデータ活用を業務の中核に据え、それらを活用して何ができるのかを中心に検討し、業務改革を実施する必要がある。しかしながら、AI技術は近年急速に発展した分野であり、その技術の本質やAIの利点を十分に引き出すための体制などについて十分な知見が蓄積されていない。そこで、本稿では、国税庁が取り扱う典型データである損益計算書を対象としたプロトタイプの予測モデル作成や官民のAI利活用に関する動向調査などを通じて、国税庁が保有するデータの特性を踏まえたAI利活用における留意点や、継続的なAI利活用が可能となるAI人材の確保・育成戦略や組織体制等について検討する。

2 研究の概要

(1)AIの概要

AIに関する研究は、ヒトの知能そのものを持つ機械を作ろうとする伝統的立場と、ヒトが知能を使ってすることを機械にさせようとする立場が存在する(1)。このような立場の違いや「知能」のとらえ方の違いなどから、AIの統一的定義は存在しない。本稿では、データを利用してコンピュータに何らかの推定を行わせる試みである機械学習を(2)AIに含める近年の傾向に従い、深層学習を含む機械学習をAIと定義する。
 機械学習は、教師あり学習、教師なし学習、強化学習に大別される。これらのうち、本稿では教師あり学習に焦点を当て損益計算書を対象としたプロトタイプモデルを作成して考察する。教師あり学習とは、正解値などのラベルが付与された学習用のデータを利用して学習済みモデルを作成し、推論時にラベルのない新たなデータに対して分類や予測を行う手法(3)で、ロジスティック回帰、サポートベクターマシン、決定木及びランダムフォレスト等が例として挙げられる。AIで解決すべき具体的な課題が与えられた際には、これらの手法から最も適切な手法を選択する必要があるが、絶対的な選択基準は存在しない。そのため、利用できる機器の性能や求められる説明性及び解釈性を勘案し、選択肢を限定した上で、複数の機械学習手法でモデルを構築し、予測精度の高いモデルを選択することが望ましい。

(2)データ分析

イ 利用データの概観及びスケーリング

調査・徴収の効率化・高度化に向けて、損益計算書データを用いたプロトタイプの予測モデルを作成し、その過程及び結果を考察した。予測モデルの作成は、データ概要把握、前処理例としてスケーリング、予測モデル作成の順で実施した。
 データ概要把握において、損益計算書に記載される値は、相関係数及び分散拡大係数(VIF)が高くなることが認められた。スケーリングでは、ミニマックススケーリング、標準化、ロバストスケーリングに加えて業務知識に基づく方法として各データを売上額で除算する方法及びミニマックススケーリングを行方向に行う方法を実施した。スケーリングを実施しない場合、ミニマックススケーリングを実施する場合、各データを売上額で除算する場合で散布図を比較したところ、各データを売上額で除算する場合は散布図の形状が大きく異なることを確認した。このことは、業務知識に基づく前処理が予測モデルの精度に大きな影響を与える可能性があることを示唆している。そのため、予測モデルを作成する際には、エンジニアのみならず業務知識豊富な担当者の参画が重要となる。

ロ 予測モデル作成

損益計算書データのうちランダムに選択した半数に対して売上額を10%削減し、疑似的に誤りのある損益計算書を作成した。同様の方法で、売上額を5%、2.5%削減したデータセット及び仕入額を10%、5%、2.5%増加させたデータセットの合計6種類のデータセットを作成した。当該データセットに対して、6種類のスケーリング手法及び5種類の機械学習手法(ロジスティック回帰、サポートベクターマシン、決定木、ランダムフォレスト及び深層学習)を組み合わせて予測モデルを構築し、その予測精度を比較した。
 6種類のデータセットに対する予測精度の最高値の達成状況は、サポートベクターマシン2回、ランダムフォレスト2回、決定木1回であった。しかしながら、6種類のデータセットと6種類のスケーリング方法の組み合わせである36のケースにおける予測精度について、機械学習ごとに平均値を算出すると、深層学習以外は全て68%台であり、大きな差は認められなかった。このことは、サポートベクターマシン及びランダムフォレストは高精度を示すことが多いものの、安定性を欠いたことを示唆している。同一の損益計算書から作成したデータセットであっても、売上額や仕入額の削減・増加割合の違いとスケーリング手法の違いによって最も高い予測精度を達成するアルゴリズムが異なったことが示すように、最適な機械学習手法を事前に選択することは困難である。そのため、実務において予測モデルを作成する際には、利用可能な機器の性能、求められる説明性及び解釈性を勘案した上で、複数のモデルを並行作成しつつ、過学習のリスクなど各機械学習手法の特徴及び利用予定の業務の特性を踏まえて、最適なモデルを選択することが望ましい。

(3)AIの説明性及び解釈性

AIが出した予測結果について、その理由や根拠が不明瞭だとAIに求められる社会的要請である公平性、透明性及び説明責任の確保が困難となるため、AIの説明性及び解釈性が重要となる。本稿では、説明性を「予測結果又は予測モデルを数学的に説明可能であり、その説明をヒトが理解できる形式で提示できること。」、解釈性を「AIの予測結果や予測モデルに対する数学的説明について、ヒトが予測結果と結び付けて理解できること。」と定義した。
 AIのブラックボックス化は、予測結果の理解及び予測モデルの理解という2つの観点において、説明性及び解釈性を損ない公平性、透明性のある意思決定及びその結果に対する説明責任の適切な確保に向けた阻害要因となる。一方で、ロジスティック回帰や決定木に代表されるホワイトボックス型とされるAIは、予測結果の理解及び予測モデルの理解という2つの観点において数学的な説明が明確であるため説明性に優れている。しかしながら、ホワイトボックス型AIの数学的説明でも、具体的な誤り個所を提示できないことや、判断過程が専門家と異なる等の理由から、予測結果に対する数学的説明と予測結果を結び付けて理解することが困難であり解釈性に欠ける場合がある。そのため、ホワイトボックス型のAIであっても、そのAIを選択するのみでは説明責任を十分に確保できない可能性があることに留意する必要がある。
 AIの説明性及び解釈性の向上に向けては、近年注目されるXAI技術の活用が有効であると考えられる。また、それに加えて、誤りの有無という2値分類ではなく、具体的な誤り内容を判定対象とする多クラス分類の予測モデル作成といったモデル作成者における工夫及びAIとは別にヒトの観点から予測結果を確認するといったAI利用者の態度もAIを有効に利活用するためには重要である。
 さらに、AIの公平性、透明性及び説明責任の確保に向けては、このようなAI作成者及び利用者の工夫に加え、AIを利用する一連の業務における判断過程、判断理由、判断に対する責任の所在を明確にするための事務運営体制及び事務処理手順の整備が重要である。

(4)AIを活用するための組織体制について

AIを有効に活用するためには、単にAIを技術として導入するのみではなく人材及びデータ活用環境の双方の充実が重要である。特に人材に関しては、AIサイエンティスト、AIエンジニア及びAIプランナーといったAI専門家が長期的に不足することが予測されるため、計画的な確保が必要である。この点について、民間企業の6割以上が不足するAI人材を自社育成する方針を示している(4)。このことは、AIの利活用に当たっては、業務知識が必要であると判断されたことが一因と考えられる。そのため、国税庁においてもAIの有効活用に向けて計画的な人材育成が重要である。
 人材育成で目標とすべき具体的レベルの設定においては、予測モデルなどを作成するAI専門家レベルと予測モデルの利活用部署レベルに大別される。AI専門家レベルでは、予測モデルを作成するための知識及び作成した予測モデルの妥当性を評価するための統計及び数理基礎知識の習得が必要と考える。利活用部署レベルでは、四分位偏差、分散及び標準偏差などのデータの散らばりや、散布図や相関係数などのデータの相関把に関する知識を全職員が持つことが望ましい。また、利活用部署レベルにおける上位レベル(組織全体としての標準的レベル)としては、AIに関する基礎知識、データの可視化技術、データの集計、ツールによるデータ解析技術等を習得することが望まれる。


(1) 人工知能学会「What's AI」(https://www.ai-gakkai.or.jp/whatsai/AIwhats.html)(令和5年5月8日最終閲覧)。

(2) 独立行政法人情報処理推進機構AI白書編集委員会『AI白書2020〔第1版〕』88頁(KADOKAWA、2020)。

(3) 独立行政法人情報処理推進機構AI白書編集委員会・前掲注(2)46頁。

(4) 独立行政法人情報処理推進機構『IT人材白書2019〔第1版〕』99頁(独立行政法人情報処理推進機構、2019)。


目次

項目 ページ
はじめに 385
第1章 AIの概要 387
第1節 AIとは 387
1 AIの概念 387
2 本稿におけるAIの範囲 388
3 小括 389
第2節 AIの数学的理解 390
1 線形回帰問題 390
2 線形分類問題 392
3 説明変数の数 394
4 深層学習 396
5 小括 399
第3節 機械学習の概要 400
1 機械学習の学習手法 400
2 主な教師あり学習 402
3 主な教師なし学習 404
4 手法の選択 404
5 小括 407
第2章 データ分析 408
第1節 利用データの概観及びスケーリング 408
1 利用データ 409
2 損益計算書データの特徴 409
3 損益計算書データのスケーリング 411
4 小括 419
第2節 予測モデル作成 420
1 データ作成 421
2 スケーリング 421
3 学習結果 422
4 全体考察 429
5 機械学習の手法別考察 434
6 小括 446
第3章 AIの説明性及び解釈可能性 447
第1節 AIに対する社会的要請 447
1 AIに求められる公平性 447
2 AIに求められる透明性 448
3 AIに求められる説明責任 448
4 小括 449
第2節 AIの説明性及び解釈可能性 449
1 AIの説明性及び解釈可能性 449
2 AIのブラックボックス化 450
3 ホワイトボックス型AIの説明力 456
4 小括 473
第3節 AIの説明性及び解釈可能性を踏まえた 社会的要請への対応 473
1 ブラックボックス型AIの「モデルの理解」及び「予測結果の理解」の改善 474
2 AIの予測結果に対する納得感の獲得 475
3 AIに対する社会的要請を踏まえたAIの利用方法 476
4 小括 480
第4章 AIを活用するための組織体制について 481
第1節 民間企業における取組状況等 481
1 民間企業のAI活用に向けた体制づくり 481
2 AI活用に必要な能力 483
3 小括 489
第2節 国税庁においてAI活用するために必要な体制 490
1 全職員が備えるべき知識 491
2 標準的知識 491
3 専門的知識(ミドルレベル) 492
4 専門的知識(エキスパートレベル) 494
5 小括 494
結びにかえて 495