KST 2026 · Accepted Paper

Seeing Isn't Always Believing:
Evaluating Grad-CAM Faithfulness
in Lung Cancer CT Classification

A rigorous, quantitative evaluation of Grad-CAM faithfulness and localization reliability across modern deep learning architectures.

Teerapong Panboonyuen Chulalongkorn University MARSAIL Lab KST 2026

Conference · KST 2026 Paper · Accepted Medical Imaging XAI · Grad-CAM CT Classification

Read Paper View Code Cite

GradFaith-CAM main figure showing Grad-CAM heatmaps across architectures

Fig. 1 — Grad-CAM activation maps across CNN and Vision Transformer architectures on lung CT scans.

02 · Key Contributions

Five core advances

🎯

Faithfulness-Aware Evaluation

First framework that quantitatively measures whether Grad-CAM highlights truly drive model decisions in CT lung cancer classification.

🔀

Cross-Architecture Analysis

Systematic comparison across CNNs (ResNet, DenseNet, EfficientNet) and Vision Transformers — revealing fundamentally different failure modes.

📐

Quantitative Explanation Metrics

Novel evaluation metrics that go beyond visual inspection — enabling objective comparison of explanation quality.

🚨

Shortcut Learning Exposure

Evidence of shortcut learning in DenseNet — models that appear to explain correctly while relying on spurious correlations.

🏥

Clinical Implications

Practical guidelines for deploying trustworthy medical AI systems where explainability must meet clinical standards.

03 · Dataset

IQ-OTH/NCCD Lung Cancer CT Dataset

Publicly available, ethically approved, expert-annotated by radiologists and oncologists.

CT Slices

Patients

Classes

Class	Description	Annotation
Normal	No abnormal findings in CT scan	Radiologist verified
Benign	Non-cancerous pulmonary nodule present	Oncologist annotated
Malignant	Cancerous tissue identified	Multi-expert consensus

🔒 All data are de-identified and ethically approved. No patient-identifiable information is included in this repository.

04 · Models Evaluated

Five architectures, two paradigms

From classical convolutional networks to attention-based Vision Transformers.

Architecture	Type	Parameters	Mechanism
ResNet-50	CNN	25.6M	Residual connections
ResNet-101	CNN	44.5M	Deep residual blocks
DenseNet-161	CNN	28.7M	Dense skip connections
EfficientNet-B0	CNN	5.3M	Compound scaling
ViT-Base-Patch16-224	Transformer	86M	Self-attention over patches

05 · Method

GradFaith-CAM: beyond pretty heatmaps

Three complementary faithfulness metrics that together answer: does the highlighted region actually matter for the prediction?

Localization Accuracy

Measures spatial overlap between Grad-CAM activation maps and ground-truth tumor regions annotated by radiologists.

Perturbation-Based Faithfulness

Quantifies drop in model confidence when highlighted regions are occluded — a faithful map should cause a significant confidence drop.

Explanation Consistency

Evaluates stability of activation patterns across random seeds and model re-initializations to measure explanation robustness.

Interpretability without faithfulness is just another illusion.

06 · Key Findings

Grad-CAM is NOT uniformly reliable

Our quantitative evaluation reveals systematic failures in saliency-based explanation across all tested architectures.

1

CNNs produce coarse or misleading attention. ResNet and EfficientNet frequently highlight background tissue rather than tumor regions, despite achieving high classification accuracy on the test set.
2

DenseNet shows signs of shortcut learning. Dense skip connections create activation pathways that bypass clinically relevant features, producing saliency maps that appear plausible but fail perturbation tests.
3

ViT provides precise but sometimes non-faithful localization. Vision Transformers achieve better spatial precision in heatmaps, but attention-to-Grad-CAM translation introduces faithfulness gaps not present in pure attention visualization.
4

High accuracy does not equal trustworthy explanation. Models achieving >90% accuracy demonstrated some of the lowest faithfulness scores — reinforcing that classification performance is a poor proxy for explanation quality.

Grad-CAM comparison across architectures showing varying localization quality on lung CT scans

Fig. 2 — Grad-CAM activation maps across all evaluated architectures. Note the significant variation in localization precision and faithfulness.

07 · Code

Reproduce our experiments

All code, configs, and pretrained checkpoints are available in the repository.

Installation

git clone https://github.com/yourusername/GradFaith-CAM.git
cd GradFaith-CAM
pip install -r requirements.txt

Train a model

python experiments/train.py --config configs/resnet.yaml

Evaluate Grad-CAM faithfulness

python experiments/evaluate.py --model resnet50

Visualize explanations

python experiments/visualize.py --image sample.png

08 · Citation

Cite this work

If you use this code or findings in your research, please cite:

BibTeX

@inproceedings{panboonyuen2026gradfaithcam,
  title     = {Seeing Isn't Always Believing: Analysis of Grad-CAM
               Faithfulness and Localization Reliability in Lung
               Cancer CT Classification},
  author    = {Panboonyuen, Teerapong},
  booktitle = {Proceedings of the 18th International Conference on
               Knowledge and Smart Technology (KST)},
  year      = {2026}
}

09 · Author

About the researcher

Teerapong Panboonyuen

Chulalongkorn University · MARSAIL Laboratory

Medical Imaging Explainable AI Deep Learning Computer Vision

This research was conducted at Chulalongkorn University and MARSAIL (Motor AI Recognition Solution Artificial Intelligence Laboratory).

Seeing Isn't Always Believing: Evaluating Grad-CAM Faithfulnessin Lung Cancer CT Classification

Why faithfulness mattersin medical AI

Five core advances

Faithfulness-Aware Evaluation

Cross-Architecture Analysis

Quantitative Explanation Metrics

Shortcut Learning Exposure

Clinical Implications

IQ-OTH/NCCD Lung Cancer CT Dataset

Five architectures, two paradigms

GradFaith-CAM: beyond pretty heatmaps

Localization Accuracy

Perturbation-Based Faithfulness

Explanation Consistency

Grad-CAM is NOT uniformly reliable

Reproduce our experiments

Cite this work

About the researcher

Seeing Isn't Always Believing:
Evaluating Grad-CAM Faithfulness
in Lung Cancer CT Classification

Why faithfulness matters
in medical AI