시각장애인과 AI의 관계를 거꾸로 보기: 지속적인 고려와 협업의 필요성

KAIST 전산학부 석사 과정+, 생명과학부 학사 과정*

정은기+, 조호연*, 최진+

eunki, hohi1114, jeannechoi@kaist.ac.kr

마법 도구로서의 인공지능을 넘어서

인간-컴퓨터 상호작용(Human-Computer Interaction; HCI)과 의과학에 관심이 많은 우리 세 사람은 AI의 사회적 영향을 다루는 수업에서 만났다. 프로젝트 회의를 하면서 각자의 관심사를 통합하여 주제를 정하고자 했다. 긴 회의 끝에 우리는 모두 시각장애인에 관한 이야기를 풀어 보고 싶다는 것을 알게 되었다. 시각장애인이라는 주제를 심도 있게 다루는 것은 사회에 미칠 수 있는 긍정적인 영향이 크다고 생각했기 때문이다.

그러나 우리의 팀 프로젝트는 초반 난관을 겪었다. 우리는 AI가 사용자에게 어떤 차별적 경험을 주는지 알아보는 것에서 탐색을 시작한 데 반해, 많은 언론은 시각장애인에게 보이지 않는 세상을 ‘보게 해주는’ AI 기술에 대해서만 다루고 있었기 때문이다. 이러한 AI 기술의 장점은 명확해 보였지만, AI의 긍정적인 면만 부각하는 것은 단편적인 분석에 그칠 수 있다는 생각을 하게 되었다.

시각장애인은 이동의 어려움, 웹을 자유롭게 사용하는 것의 어려움 등 다양한 문제를 겪는다. 컴퓨터 비전 모델과 같은 AI는 이러한 문제를 해결하는 ‘눈’의 기능을 한다.  마이크로소프트가 2023년 출시한 ‘보는 인공지능(Seeing AI)’1라는 이름의 애플리케이션이 그 사례 중 하나다. 이 애플리케이션은 카메라로 주변을 인식하고 음성 단서를 통해 시각장애인에게 길을 안내한다. 마이크로소프트는 이를 소개하며 기술이 “좋은 일을 가능케 하는 것(enabler of good)”이고 사람들로 하여금 전보다 훨씬 많은 것을 성취할 수 있게 한다고 밝히고 있다. 다만 모든 기술이 그러하듯 좋은 면만 가지고 있을 수는 없다.

그림1. 사진을 포함한 질문과 각 질문에 해당하는 답 총 12개가 두 줄로 배열되어 있다. 첫번째 줄에 있는 예시들에는 "What is this?"라는 질문과 지폐 사진에 대해 "10 euros"라는 답변이 있는 등 구체적인 답이 나와 있다. 두번째 줄에 있는 예시들에는 "What type of pills are these?"라는 질문과 흔들린 사진에 대해 "unsuitable image"라고 써 있는 등 답하기 어렵다고 기록되어 있다.
<그림 1> 시각장애인이 촬영한 사진으로 이루어진 VizWiz 데이터셋 (Gurari et al. 2018)

하나의 예시로는 AI 기술에 내재된 시각장애인에 대한 차별이 있다. 예컨대 Gurari et al.(2018)2은 이미지를 통한 질문과 답변 시스템에서 시각장애인의 삶과 동떨어진 컴퓨터 비전 모델의 예를 찾았다. 그들은 이미지넷과 같은 기존의 이미지 데이터셋이 대부분 비장애인이 촬영한 사진으로 만들어져 있다고 지적하면서, 이러한 데이터셋을 학습한 시스템은 시각장애인의 필요를 성공적으로 해결하지 못한다고 보았다. 그러면서 전맹(blind) 시각장애인들이 만든 사진과 질문의 모음인 VizWiz 데이터셋을 제작했는데, 이 데이터셋은 이미지가 비장애인의 관점에서 이해하기 힘든 경우가 많고 질문 데이터가 음성으로 입력되어 구어체에 가깝다는 특징이 있었다. 실험 결과 기존에 많이 쓰이는 비전 모델들이 이 데이터셋에서는 잘 작동하지 않았다. 이렇게 시각장애인이 만든 입력값을 잘 이해하지 못하는 AI가 시각 지원을 위해 사용된다면 그 기술은 시각장애인에게 실질적인 도움을 주지 못할 가능성이 높다.

우리는 시각장애인의 필요를 시각 능력의 보조로 환원하고 AI 기술을 보이지 않는 것을 보이게 하는 마법 도구로 홍보하는 대신, 시각장애인의 삶을 기술을 통하여 개선하고자 노력하는 사람들이 겪는 실질적인 문제를 이해하고 싶었다. 그러기 위해서 시각장애인 당사자로서 재활 공학을 연구하고 있는 가현욱 교수와 시각장애인 대상의 쇼핑몰 ‘소리마켓’을 운영하는 박지혁 대표를 인터뷰했다.

시각장애인 당사자의 입장에서 기술을 바라보다: 가현욱 교수와의 인터뷰

기술적인 해결책을 제안함으로써 특수 사용자의 니즈를 만족시킬 수 있는 방안에 대해 연구하는 가현욱 교수를 만난 이야기를 소개해보고자 한다. 가 교수는 특수 사용자란 ‘감각이나 기능에 문제가 있는 사용자’이며, ‘시각장애·청각장애·인지장애’가 있는 사용자가 포함된다고 설명했다.

우선 우리는 시각장애를 가진 사용자의 경험에 대해 질문하는 것으로 시작했다. 가 교수는 인공지능을 기반으로 한 서비스를 사용한 경험을 바탕으로 해당 서비스들이 가지고 있는 명확한 한계를 지적하였다.

<그림 2> 가현욱 교수의 정면 얼굴 사진

“인공지능 기반 서비스가 그(특정한) 기능이 있는 사람들이 추가적으로 쓸 수 있도록만 디자인되고, 그 기능이 없어서 그 기능을 기술을 통해 대체 혹은 증진하려는 사람을 고려하여 디자인되지 않았습니다. 현재 보이지 않는 눈을 대신해 주는 컴퓨터 비전 기술이 있지만, 정보의 유용성을 고려하고 있지 않습니다. 저는 미국에서 우버의 자율 주행 서비스를 이용하여 택시를 불렀지만, 택시가 도착했음에도 이 사실을 알지 못하였습니다. 택시가 도착했다는 알림을 주는 것은 고도의 기술이 필요하지 않음에도 서비스 개발에 이러한 점들이 고려되고 있지 못합니다. (…) 인공지능을 통해서 하고자 하는 것은 자동화인데 설계상 이런 점들이 고려되지 못하면 전통적인 사회보다 (장애인과 비장애인의) 양극화가 훨씬 심해질 가능성이 높습니다.”

이처럼 현재의 인공지능 기반 서비스를 포함한 디지털 서비스는 인간의 삶을 더욱 풍요롭게 해줄 능력을 가지고 있지만, 개발 과정에서 미처 고려하지 못한 부분들로 인하여 장애를 가진 사용자들이 서비스 사용으로부터 배제되는 경우도 많다. 이에 우리는 장애를 가진 사용자들의 디지털 라이프를 보장해줄 수 있는 어떠한 보호막이 존재하는지 궁금해졌다.

장애를 가진 사용자를 위한 법적 지원이 가장 먼저 눈에 들어왔다. 장애인차별금지 및 권리구제 등에 관한 법률에는 시각장애를 포함하여 장애를 가진 사람들이 디지털 정보에 비장애인과 동등하게 접근할 권리를 보호할 의무가 규정되어 있다. 더불어, UN 장애인 권리 협약(Convention on the Rights of Persons with Disabilities; CRPD)은 이를 더욱 포괄적인 개념으로 접근하여 동등한 행복을 위해 시각장애를 가진 사용자들의 디지털 라이프는 반드시 보장받아야 함을 명시하고 있다. 그러나 이러한 법률은 추상적인 수준에 그치고 있고, 장애인의 디지털 경험을 보장하기 위한 구체적인 가이드라인을 명시하지는 않는다. 이때문에 장애인을 위한 서비스의 실제 수준은 높지 않은 실정이다. 가교수 또한 “사회 취약계층에 대한 최소한의 요구사항은 최저임금처럼 사회나 문화가 발전할수록 올라가야” 함에도 “현재 법이 요구하고 있는 기준은 사회적, 문화적, 기술적 수준과 시대적 상황에 연동되어 있지 않”다고 말하였다.

이러한 법적 제도의 미비는 장애를 가진 사람에 대한 사회적 경험의 부족과도 관련이 있다. 가 교수가 미국에서 유학하던 시절, 미국 사람에게 길 안내를 부탁하면 적절한 도움을 제공해주는 사람들이 많았다고 한다. 가 교수는 미국인들은 어렸을 적부터 장애인을 보고 자랐기에 어떻게 행동해야 하는지를 잘 알고 있는 것이라고 말해 주었다. 그러나 한국에서 가 교수가 “길을 좀 안내해 주시겠어요.”라고 말하면 많은 사람이 그를 감싸 안고 안내한다고 한다. 하지만 그렇게 되면 가 교수는 보이지 않는 길을 앞서 가야 하기 때문에 불안함을 느끼게 된다. 가 교수가 제시한 더 나은 방법은 “팔꿈치를 빌려주고 안내하는 사람이 반 발짝만 앞서가는” 것이다. 가 교수는 이와 같은 사실이 한국 사회에 잘 알려져 있지 못한 것이 “문화적으로 장애인에게 노출된 경험이 없어 인식 수준의 차이”가 존재하기 때문이라고 했다.

현재의 제도가 닿지 못하는 부분을 극복하려면, 기술을 개발하는 과정에서도 마찬가지로 장애인이 지속적으로 가시화되는 것이 중요해 보인다. 가 교수는 인공지능을 사용한 서비스를 개발하는 과정에서 “최종 사용자에 대한 영향 요인 분석을 먼저 하여 혜택을 받지 못하는 사람이 없게 해야” 한다고 했다. 이 단계가 추가되면 서비스 개발 시간 자체는 길어질 수 있다. 그렇기에 많은 개발자들이 “인공지능 기반 서비스를 설계할 때 처음부터 장애인의 필요를 반영하기보다는, 서비스를 만든 뒤 장애인의 필요를 반영”하려고 한다. 이에 대해 가 교수는 “가장 도전적인 사용자가 쓸 수 있는 제품이나 서비스는 훨씬 더 많은 사람들에게 유익한 것”이라고 언급하며 전반적인 서비스 개발 방식이 바뀔 수 있음을 제시했다. 배제되는 사용자가 없게 노력한다면, 결국 다양한 니즈를 요구하는 사용자 그룹이 만족할 수 있는 서비스를 만들 수 있게 된다는 것이다.

시각장애인이라는 사용자를 이해하려는 노력: 박지혁 대표와의 인터뷰

두번째로 우리는 실질적인 서비스를 개발하며 시각장애를 가진 사용자들의 니즈를 충족시키기 위해 노력하는 와들의 박지혁 대표를 만나보았다.

와들의 대표 서비스는 ‘소리마켓’으로, 소리마켓은 “시각장애인이 스스로 쇼핑을 할 수 있도록 자립적인 소비 생활을 도와주는 인공지능 기술 기반의 배리어프리 (장벽(barrier) + 없애다(free); 장벽을 없앤) 쇼핑 플랫폼”이다.

<그림 3> 팔짱을 끼고 웃고 있는 박지혁 대표의 사진

“해당 플랫폼에서는 OCR(Optical Character Recognition; 광학문자인식) 기술로 이미지 안의 텍스트를 인식 및 추출해서 음성으로 변환하여 유저에게 설명해줍니다. 하지만 2차원의 정보를 1차원으로 바꾸는 것에 기본적인 시각적 정보의 손실도 있지만, 정보를 받아들이는 방법의 효율성에서도 손실이 발생합니다. 이를 극복할 수 있는 방법 중 하나로는 ‘대화형 서비스’가 있습니다. 현재는 기술적인 진보에 따라 LLM(Large Language Model; 거대언어모델)을 기반으로 대화형 서비스를 만드는 데에 성공을 했습니다.”

OCR과 LLM을 기반으로 하는 AI 서비스는 시각장애를 가진 사용자들에게 도움을 제공할 수 있다. OCR은 디지털 이미지 상의 텍스트를 해석하는 기술로 시각장애를 가진 사용자들이 디지털 서비스에 더 쉽게 접근할 수 있도록 도와준다. 또한, LLM은 딥러닝과 빅데이터를 활용하여 데이터를 이해, 요약, 생성 및 예측할 수 있는 AI 알고리즘으로 대화형 서비스를 제공할 때 중요한 역할을 한다.

시각장애인들은 대화형 인터페이스를 이용하여 디지털 서비스와 유기적인 소통을 하고 이를 더욱 가치 있게 활용할 수 있다. 이러한 이유로 와들은 LLM 기반의 대화형 서비스를 도입하여 시각장애를 가진 사용자들에게 더 나은 경험을 제공하고자 노력하고 있다.

와들은 여기서 한발 더 나아가서, 주어진 기술을 사용자 맞춤형으로 발전시키려고 노력하였다.

“와들은 이미지 안에 들어있는 텍스트만이라도 추출해서 제공하자는 취지로 OCR을 도입했고, 오픈 소스를 그대로 차용하기보다 추가적인 알고리즘을 붙여서 사용했습니다. 시각장애인의 접근성을 높이기 위한 알고리즘을 추가적으로 개발하고 있습니다.”

이처럼 인공지능의 학습 능력은 사용자의 필요에 맞춰질 수 있다. (즉, 가 교수가 언급한 바와 같이 기술은 어떻게 발전되는지에 따라 사용자의 니즈에 최적화된 도움을 줄 수 있는 잠재력을 충분히 가지고 있다.) 하지만 어떠한 기술도 분명 완벽할 수는 없다. 이에 박 대표는 현재 다양한 인공지능 서비스가 사용하고 있는 LLM의 기술적 한계를 언급하였다.

“LLM에 정확도 100%라는 것은 없어서, 오류는 계속 나오고 있습니다. 기본적으로 생성형 AI는 ‘생성’을 하기에 본질적으로 다음 단어를 예측하는 것인데, 커머스(Commerce; 상거래)  대화형 서비스에서 절대 하면 안 되는 것이 존재하지 않는 상품, 그리고 원산지 및 여러 상품 정보를 가짜로 만들어 내는 것입니다. 따라서 할루시네이션(Hallucination; 환각)은 커머스에서 훨씬 더 치명적이기 때문에 굉장히 민감한 문제입니다.”

여기서 할루시네이션이란, LLM이 존재하지 않는 근거를 기반으로 데이터를 생성하는 현상을 말한다. 할루시네이션은 AI 알고리즘이 학습 데이터를 기반으로 하지 않고 결과물을 생성하기 때문에 발생한다. 이로 인해 시각장애를 가진 사용자들은 오류를 포함한 정보를 온전히 믿는 위험에 처할 수 있다. 쇼핑몰 뿐만 아니라, 다양한 디지털 서비스에서도 옳지 않은 정보가 생성되어 사용자에게 제공되는 위험성이 존재한다. 이는 AI 기반 서비스를 개발하는 과정에서 항상 유의해야할 부분이다.

한편, 와들이 겪고 있는 어려움은 이뿐만이 아니다. 사실은 ‘시각장애인’이라는 유저를 이해하는 과정 자체가 하나의 도전이다.

“‘시각’은 제 1의 감각, 즉 무언가를 받아들일 때 시각 정보에 가장 의존합니다. 하지만 시각 장애를 가지게 되면 시각적인 정보를 받아들일 수 없다는 물리적인 변화 뿐만 아니라 심리적, 정신적, 대인관계에서의 변화 등 모든 것이 바뀌게 됩니다. (…) 즉 이러한 시각장애인들의 삶을 이해하는 데까지 시간이 오래 걸리기 때문에 단발적인 프로젝트를 통해 그들의 삶에 온전히 침투하는 것은 어렵습니다.”

서비스를 개발하는 사람과 전혀 다른 입장을 가진 사람이 서비스를 사용하기 때문에 박 대표는 그러한 사용자들의 삶 자체를 이해하기 위해 노력했다고 했다. 그 방법 중 하나가 사용자들을 자주 만나는 것이라고 한다. 수많은 만남들을 통해 얻게 된 사용자 니즈를 소리마켓과 같은 서비스에 적용시킨 것이다.

그렇다면 와들이 개발하는 다양한 서비스들과 같이 시각장애를 가진 유저들에게 포용적인 인공지능 서비스를 만들기 위해서는 어떻게 노력해야 할까.

“인공지능 기술은 사회를 시각장애인에게 포용적인 방향으로 만들기 위한 목적 달성을 하기 위한 수많은 방법 중 하나이고, ‘인공지능 기술이 어떤 방향으로 발전해야하는가’에 대한 답은 뚜렷하게 있지 않습니다. ‘인공지능 기술을 어떻게 개발하는가’가 아닌, 결국 ‘시각장애인을 포용할 수 있는 사회를 어떻게 만들어야 하는가’가 더 중요한 문제입니다. 결국에는 이런 아젠다가 우리 사회에서 중요하게 다루어지는 포인트가 되어야 합니다.”

이는 가 교수가 말한 부분과 일맥상통한다. 우리 사회가 사회 속에 존재하는 다양한 사용자들을 인식하고, 그들이 무엇을 진정으로 필요로 하는지 이해해야 한다. 그 중 하나의 방법이 그들을 위한 사회적 안전장치를 만드는 것이기에, 관련 법과 정책의 마련에 대한 논의가 반드시 지속적으로 필요하다.

“인공지능이라는 기술의 흐름은 너무 거대하기에 시각 장애인의 필요 혹은 어떠한 그룹의 필요와 무관하게 알 수 없는 방향으로 진보할 것이고, 그렇게 진보하는 기술을 시각장애인의 편의를 위해 알맞게 사용해야 합니다. 예를 들어 스마트폰이 처음 출시되었을 때 시각장애인은 이를 사용하지 못했기에 더욱 소외되고 격차가 생겼습니다. 이런 사실을 계속해서 감독하고 생각하는 사회의 틀을 마련하는 것이 중요합니다.”

지속적인 고려와 협업을 기대하며

와들의 서비스는 이미지 안의 텍스트를 인식하고 대화형 인터페이스를 통해 시각장애인이 스스로 쇼핑을 할 수 있도록 지원하는 것으로서, 가현욱 교수가 말한 “정보의 유용성”을 고려한 기술을 제작하려는 시도로 볼 수 있다. 그러나 박지혁 대표는 이러한 기술이 사용될 때 LLM과 OCR의 정확도가 완벽하지 않기에 상품 정보를 잘못 안내할 수 있고, 이것이 소비자 분쟁으로 이어질 수 있다는 점을 함께 소개해주었다. 뿐만 아니라 시각 장애인이 아닌 개발자들이 시각 장애인의 심리적, 사회적 특성을 충분히 이해하는 것이 어려운 일이라는 점도 설명해주었다. 그래서 소리마켓과 같은 시각장애인 대상의 인공지능 서비스를 개발하는 과정은 해당 사용자들과의 끊임없는 만남을 요구한다. 이러한 만남이 없다면 인공지능 기술의 진보는 결국 시각장애인을 포함한 다양한 사용자들의 삶에 별다른 긍정적인 영향을 끼치지 못할 것이다.

HCI 수업 첫 시간에 학생들은 ‘사용자 중심 디자인’에 대해 배운다. 사용자에게 묻고 사용자를 관찰하여 그가 정말 필요로 하는 것을 디자인해야 한다는 것이다. 인터뷰를 하면서 시각장애인에 대해서도 ‘사용자 중심 디자인’이 무엇보다 중요하다고 느꼈다. 동시에 시혜적인 시선과 ‘안 보이는 것을 보이게 하는’ 단순한 접근으로 시각장애인의 페르소나(persona; 사용자 중심 디자인에서 타겟이 되는 사용자들의 특징을 대표하는 가상의 사용자)를 한정한다면 ‘사용자 중심 디자인’은 껍질에 불과하게 될 것임을 생각할 수 있었다.

우리는 컴퓨터 비전 모델을 포함한 인공지능이 시각장애인의 모든 문제를 해결하는 마법 도구가 아니라 여전히 위험과 제한이 있는 테크놀로지임을 드러내며, 시각장애인을 고려한 인공지능 서비스에 관련된 모두가 염두에 두어야 할 점으로 2C를 제안하면서 글을 마치고자 한다.

2C는 지속적인 고려(Continuous consideration)와 협업(Collaboration)을 의미한다. 우리 사회의 구성원인 시각장애인은 인공지능 기술 개발 과정의 시작부터 배포 이후까지 ‘지속적으로 고려’되어야 한다. 개발 초기에 시각장애인이라는 최종 사용자에 대한 영향 요인 평가가 이뤄져야 하고, 개발된 기술이 시각장애인에게 불편하거나 차별적이지 않은지 역시 평가되어야 한다. 또한 실제 기술 개발은 시각장애인과의 ‘협업’을 중시하여야 한다. 이는 좁은 의미에서는 기술 개발자와 시각장애인의 끊임없는 만남을 의미하지만, 넓은 의미에서는 시각장애인이 인공지능 기술 개발의 실천에 주체로서 참여함을 인지하고 지원함을 의미한다. 이러한 고려와 협업은 법적, 정책적 수단으로도 함께 보장되어야 할 것이다.


읽을거리

김지해, 안광옥, 노은래, 권효순 and 은선덕. (2022). 보조기기 열린페이지: 노인과 장애인을 위한 보조기기 오픈소스 공유 플랫폼 디자인 연구. 한국HCI학회 논문지, 17(1), 25-36.

한국 재활원에서 노인과 장애인 대상으로 진행된 ‘보조기기 열린 플랫폼’ 프로젝트는 장애인 당사자, 메이커, 학계, 산업계 및 정책가가 함께 참여하여 보조기기를 디자인하고 사업화한 사례입니다. 이 프로젝트가 진행되는 동안 장애인들은 이미 개발된 디자인에 피드백을 주는 사람이 아니라 장애인의 삶에 전문적인 지식을 가진 디자인의 주체로서 타 분야 (메이킹, 사업, 정책) 전문가들과 협업에 참여했습니다. 이는 장애인의 삶에 미칠 영향이 디자인 과정에 필연적으로 고려될 수밖에 없다는 점에서 의미가 있는 실천이라고 생각하여 추천합니다.


References

1  “Seeing AI: An app for visually impaired people that narrates the world around you”, https://www.microsoft.com/en-us/garage/wall-of-fame/seeing-ai/

2  D. Gurari et al. (2018), “VizWiz Grand Challenge: Answering Visual Questions from Blind People,” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018, pp. 3608-3617.

댓글 남기기

Powered by 워드프레스닷컴.

Up ↑

과학뒤켠에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기