최신연구
-
[한욱신 교수] 부하 불균형을 해결한 GPU 데이타베이스 시스템의 개발
[연구의 필요성] 최근 GPU의 병렬 처리 성능이 급속히 발전하고 있으며, 이에 따라 데이터 분석을 위한 관계형 질의를 GPU에서 병렬 처리하는 새로운 기술이 제안되고있다. 그러나 이 기술들은 GPU 스레드 간에 발생하는 부하 불균형 문제로 인해 GPU의 병렬 처리 능력을 완전히 활용하지 못하는 한계를 지니고 있다. 세부적으로, 이 기술들은 관계형 질의 처리라는 태스크를 GPU 스레드들에게 분배하지만, 각 GPU 스레드에게 할당된 태스크의 수행 시간이 기하급수적으로 큰 차이가 나는 문제를 갖고 있다. 그리고, 큰 태스크를 할당 받은 GPU 스레드가 태스크를 수행하는 동안, 작은 크기의 태스크를 할당 받은 GPU 스레드는 태스크를 빨리 처리하고 낭비가되는 문제가 발생한다. [포스텍이 가진 고유의 기술] 본 기술의 핵심 아이디어는, 관계형 질의 처리라는 태스크를 아주 작은 단위의 서브태스크로 나누어 표현하고, 서브태스크들을 GPU 스레드들에게 동적으로 분배하는 것이다. 각 서브태스크 수행의 시간 복잡도는 O(1)이며, 그로 인해 서브태스크 간 크기 차이는 매우 작다. 그리고, 이러한 특성을 통해, 본 기술은 남은 수행 시간이 가장 긴 스레드를, 남은 서브태스크의 수로 특정할 수 있고, 해당 스레드의 서브태스크 절반을 서브태스크가 남아 있지 않은 스레드에게 동적으로 재할당하는 방식을 통해 스레드의 낭비를 줄인다. 만약 남은 서브태스크의 수가 별로 없는 스레드의 서브테스크를 분배하였다면, 서브태스크를 분배한 스레드와 분배받은 스레드 모두 금방 서브태스크들을 처리하고 낭비가 될 것이다. 또한, 본 기술은 데이터 분석 벤치마크에서 기존 기술 대비 379배 빠른 성능을 보인다. [연구의 의미] 제안된 기술을 활용하면, 데이터 분석을 위한 관계형 질의들을 GPU를 통해 빠르게 처리할 수 있어, 비즈니스 인텔리전스, 소셜 네트워크 분석 등을 포함한 산업 전반에서 활용이 가능한 유용한 기술이다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 데이터베이스 분야 최고 학술대회인 VLDB 2025에 발표될 예정이며, 이번 연구의 핵심 기술을 기반으로 GPU 기반 그래프 데이터 처리 연구에 접목하고자 하는 것이 향후 계획이다. [성과와 관련된 실적] 1. Hong, K., Kim, K., Lee, Y., Moon, S., Bhowmick, S., Han, W., Themis: A GPU-accelerated Relational Query Execution Engine” Proceedings of the VLDB Endowment 18.2 (2024) (Corresponding author) [성과와 관련된 이미지]
한욱신 교수 2024.11.06 1303 -
[이근배 교수] Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards
[연구의 필요성] 최근 자동 작문 채점 기술 (Automated Essay Scoring; AES)은 단일 특성을 평가하는 것에서 벗어나 다양한 특성을 평가하여 보다 풍부한 피드백을 제공하는 Multi-trait AES 기술로 나아가고 있다. Multi-trait AES 시스템의 성능은, 단일 AES와 마찬가지로 모델 예측 점수와 인간 채점자와의 동의도를 평가하는 QWK를 기준으로 평가되지만, 미분 불가능성으로 인해 딥러닝 기반 모델 학습에 직접적으로 사용되지 못하였다. 본 연구에서는, 실제 채점 체계를 반영하지 못하는 기존의 단순 오차율 기반 회귀 학습법에서 벗어나, 등급 체계를 고려할 수 있는 평가 지표를 모델 학습에 직접적으로 활용하고자 한다. [포스텍이 가진 고유의 기술] 본 연구에서는 Multi-trait AES 시스템의 질을 향상시키기 위해 채점 체계를 반영한 다중 보상 강화학습 (Scoring-aware Multi-reward Reinforcement Learning; SaMRL)을 제안한다. 양방향 QWK 기반 리워드와 MSE 기반 패널티의 다중 리워드를 설계하여 평가 체계를 학습 과정에서 반영하도록 한다. 또한, 넓은 범위의 점수 예측에 취약하던 기존의 분류 (classification) 방식의 강화학습 도입 방법론 대신 자동 회귀 (autoregressive) 점수 생성 프레임워크를 기반으로 강화학습을 도입하여 토큰 생성 확률을 활용함으로써 다양하고 넓은 범위의 다중 특성 점수 예측 성능을 향상시킨다. [연구의 의미] 제안된 방법은, AES를 생성 문제로 접근하여, MSE나 QWK와 같은 채점 관련 지표들이 전혀 고려되지 못하여 불안정했던 문제를 보완함으로써 다측면에서 성능 향상을 보였다. 또한, 강화 학습을 적용하기 위해 분류 문제로 접근했던 기존 모델에서 점수 범위가 넓은 경우 성능이 급격히 저하되던 문제도 동시에 해결하였다. 분류 기반 접근법들의 한계로 인해 많이 탐구되지 못했던 AES에서의 강화학습을 생성 문제로 전환함으로써 다측면에서 자동 채점의 질을 개선하며 분야의 발전에 기여하였다. [연구결과의 진행 상태 및 향후 계획] 현재는 Multi-trait 점수를 예측함에 있어서 데이터 수가 많은 측면에서 적은 측면으로 순차적으로 예측하는 방법을 도입하였다. 추후에는 예측 순서의 변화를 주는 것에 대해 추가적인 고려를 할 생각이다. 또한, 현재는 전체 trait 예측이 끝난 시점에서 policy를 한번에 업데이트 하지만, 향후 각 action 마다 업데이트를 함으로써 policy를 학습하는 방법론을 도입하고자 한다. [성과와 관련된 실적] 본 연구는 자연어 처리 분야의 EMNLP 2024 학회에서 발표될 예정이다. [성과와 관련된 이미지]
이근배 교수 2024.10.25 1249 -
[이근배 교수] Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning
[연구의 필요성] 현재 대화 기반 시스템은 음성 인식을 통해 사용자와의 상호작용을 처리하지만, ASR 시스템의 오류는 이후의 대화 모델 성능에 직접적인 영향을 미칩니다. ASR 오류는 특히 대화의 맥락을 활용할 때 더욱 큰 문제가 되며, 이러한 맥락 오류를 줄이는 방법이 필요합니다. 이를 해결하기 위해 잡음 표현 학습(CNRL)과 같은 방법을 통해 ASR의 성능을 향상시켜야 하므로 이 연구는 매우 중요합니다. [포스텍이 가진 고유의 기술] 대화 맥락에 강건한 ASR 시스템을 개발하기 위한 잡음 표현 학습(CNRL) 기술을 제안했습니다. 이 기술은 대화 이력에서 발생하는 ASR 오류의 영향을 최소화하고, 음성 인식 성능을 높이는 데 중점을 둡니다. 또한, 텍스트 기반 대화 데이터를 활용한 디코더 사전 훈련 기법도 함께 사용하여 더 나은 성능을 확보합니다. [연구의 의미] 이 연구는 대화 기반 음성 인식의 정확성을 높이고, 특히 노이즈가 많은 환경에서의 성능을 개선하는 데 의미가 있습니다. 잡음 표현 학습(CNRL)을 통해 오류가 있는 대화 맥락에서 발생할 수 있는 성능 저하를 극복하고, 대화 시스템의 신뢰성을 크게 높일 수 있다는 점에서 중요한 의미를 갖습니다. [연구결과의 진행 상태 및 향후 계획] 연구는 CNRL을 통한 성능 향상을 입증했으며, 실험 결과에서 잡음이 많은 환경에서도 강력한 성능을 보였습니다. 향후 연구는 이 방법을 다양한 데이터셋에 적용하여 성능을 더 개선하고, ASR과 후속 대화 모델 간의 통합 성능을 높이는 방향으로 진행될 예정입니다. [성과와 관련된 실적] Wonjun Lee*, San Kim*, Gary Geunbae Lee, SIGDIAL 2024 Accepted, Best Paper Nominee. [성과와 관련된 이미지]
이근배 교수 2024.10.25 967 -
[이근배/옥정슬 교수] An Investigation Into Explainable Audio Hate Speech Detection
[연구의 필요성] 오디오 기반의 SNS 등의 플랫폼(i.e. YouTube, TikTok) 등이 증가 함에 따라 증오표현이 포함된 오디오 content이 굉장히 증가했습니다. 따라서 이러한 유해한 content를 필터링 해야 하는 필요성이 생겼습니다. 이 때, 전체 오디오가 유해한지 아닌지 판단하는 것을 넘어서, 해당 오디오 안에서 구체적으로 어떤 부분이 증오표현인지 판단하는, 설명가능한, 방법론이 중요해 졌습니다. 그러나, 현재까지 오디오에서 설명가능한 증오표현 탐지 연구는 한 번도 이루어진 적이 없었기 때문에 우리는 이 문제를 처음으로 해결해보고자 했습니다. [포스텍이 가진 고유의 기술] 이 테스크를 수행하기 위해 크게 2가지를 진행했습니다. 첫째로 설명가능한 증오표현 오디오 데이터셋을 최초로 제작했습니다. TTS(Text-To-Speech) 또는 실제 사람의 육성을 기반으로 한 오디오 데이터셋을 구축하고, 해당 오디오에서 증오표현이 어떤 시간 구간에서 발생하는지 annotation을 진행했습니다. 두번째로 설명가능한 증오표현 탐지 모델을 제안했습니다. 이 모델은 오디오를 input으로 받고 전체 오디오가 증오표현이 포함되었다고 판단되었을 때, 어떤 시간구간이 증오표현이 포함되었는지 알려주는 모델입니다. 모델은 오디오를 End-to-End(E2E)로 사용하는 방식, 오디오를 텍스트로 바꿔서 사용하는 Cascading 방식으로 2가지 종류가 있습니다. [연구의 의미] 본 연구는 크게 2가지 의미가 있습니다. 우선 이 연구는 최초로 설명가능한 오디오 탐지 분야를 개척한 연구입니다. 설명가능한 오디오 데이터셋이란 무엇이고, 어떤 모델을 사용할 수 있고, 또한 어떤 평가 지표로 오디오의 설명가능성을 측정할 수 있는지 제안했습니다. 두 번째로는 설명가능한 오디오 증오 표현 탐지에는 오디오를 직접적으로 사용하는 E2E가 Cascading 방식보다 효과적이라는 사실을 알아냈고, 그 이유를 분석하기 위한 실험도 진행했습니다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 SIGDIAL 2024에서 포스터 발표되었고, 오디오를 넘어선 다양한 modality에서 설명가능한 증오표현 탐지를 진행할 계획입니다. [성과와 관련된 실적] Jinmyeong An, Wonjun Lee, Yejin Jeon, Jungseul Ok, Yunsu Kim, and Gary Geunbae Lee. 2024. An Investigation into Explainable Audio Hate Speech Detection. In Proceedings of the 25th Annual Meeting of the Special Interest Group on Discourse and Dialogue(SIGIDIAL), pages 533–543, Kyoto, Japan. [성과와 관련된 이미지]
이근배/옥정슬 교수 2024.10.25 945 -
[이근배 교수] Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing
[연구의 필요성] Semantic Parsing(SP)은 자연어로 표현된 utterance를 SQL이나 파이썬 코드와 같은 의미 표현으로 변환하는 기술이다. 이러한 작업을 학습시키기 위한 영어 데이터는 풍부하게 확보되어 있지만, 다국어 데이터셋은 상대적으로 부족하여 최근에는 다국어 pretrained language model을 활용한 zero-shot cross-lingual transfer 기법으로 SP 모델을 다국어로 확장하려는 노력이 이루어지고 있다. 그럼에도 불구하고 영어와 비영어 언어 간의 성능 차이는 여전히 상당하다. [포스텍이 가진 고유의 기술] 본 연구에서는 Cross-lingual Back Parsing(CBP)이라는 기술을 제안한다. 이 기술은 다국어 번역기나 병렬 코퍼스의 존재를 가정하지 않는 zero-resource 환경에서 작동한다. CBP는 다국어 pretrained language model의 인코더 표현 공간의 기하학적 특성을 활용하여 주어진 의미 표현(meaning representation)으로부터 다양한 언어의 utterance를 합성할 수 있다. 실험 결과, CBP는 도전적인 zero-resource 상황에서도 목표 언어로의 utterance 합성을 성공적으로 수행했을 뿐만 아니라, 그 의미 또한 효과적으로 보존함을 확인할 수 있었다. 또한, CBP로 합성된 다국어 데이터를 기존의 영어 데이터와 함께 사용하면 SP 모델의 다국어 성능이 크게 향상되는 것을 확인할 수 있었다. [연구의 의미] 본 연구는 기존에 다루어지지 않았던 zero-resource 환경에서의 다국어 semantic parsing 문제를 해결하고자 하였으며, multilingual pretrained language model의 인코더 표현 공간을 조작한 학습 방법을 통해 모델의 생성 언어를 통제할 수 있음을 밝혀냈다. 이 방법론은 semantic parsing뿐만 아니라 다양한 seq2seq 작업에서도 다국어 성능을 향상시키는 데 활용될 수 있을 것이다. [연구결과의 진행 상태 및 향후 계획] 본 연구는 자연어처리 분야 최우수 국제학술대회인 EMNLP2024에 소개될 예정이다. 추후에는 code와 같은 복잡한 meaning representation을 대상으로 해당 방법론을 확장할 방법을 모색하려고 한다. [성과와 관련된 실적] Deokhyung Kang, Seonjeong Hwang, Yunsu Kim, Gary Geunbae Lee, EMNLP 2024 (accepted) [성과와 관련된 이미지]
이근배 교수 2024.10.25 987 -
[류일우 교수] Leveraging Input-Level Feature Deformation with Guided-Attention for Sulcal Labeling
[연구의 필요성] 대뇌 피질 고랑의 식별은 피질의 기능적 및 구조적 발달을 이해하는 데 중요한 요소이다. 1차/2차 고랑은 대부분의 연구에서 많은 주목을 받는 반면, 더 작고 변동성이 큰 3차 고랑에 대한 탐구는 상대적으로 덜 연구되었다. 특히, posterior medial cortex (PMC) 영역은 뇌의 후두부에 위치하여, 주로 시각적, 공간적 정보 처리 및 인지 기능을 담당하는 역할을 하는 영역으로, 인간의 인지 능력에 대한 신경과학적 분석을 위해 정확한 영역을 예측하고 위치화시키는 것은 매우 중요하다. 하지만, 해당 영역을 자동적으로 예측하는 것은, 1) 사람들간의 큰 해부학적 변동성, 2) 다른 영역들과 비교했을 때 상대적으로 작은 영역의 크기, 그리고 3) 지도학습을 위해 필요한 레이블의 수가 한정적이라는 어려움이 있다. [포스텍이 가진 고유의 기술] 해당 연구에서는 대뇌 피질 3차 고랑에 대한 고도화된 자동화 레이블링 기술을 개발하였다. 구체적으로, 구형 합성곱 신경망 네트워크 위에서 대뇌 피질의 기하학적 특징들을 해부학적 변동성을 완화시키는 방향으로 변형시키는 기술을 개발하였다. 더불어, 변형된 정도를 지침 삼아, 적은 수의 레이블만을 가지고 상대적으로 작은 관심 영역에 대해 효과적으로 레이블링을 수행하기위한 어텐션 모듈을 개발하였다. [연구의 의미] 해당 연구에서 제시한 인공지능 모델은, 제한된 레이블을 가진 환경에서 해부학적 변동성이 큰 대뇌 피질의 3차고랑을 효과적으로 레이블링하는 방법을 제시함으로써, 인간의 인지 기능과 관련된 신경과학적, 임상병리학적 분석을 용이하게 하는데에 도움을 줄 수 있다. [연구결과의 진행 상태 및 향후 계획] 해당 연구는 의료 영상 분야의 우수 국제 저널인 IEEE Transactions on Medical Imaging (TMI) 2024에 출판되었다. 향후, 좀 더 견고한 대뇌 피질 고랑의 자동화 레이블링을 수행하기 위해서, 사람과 상호작용 가능한 방법론 및 능동 학습 기법을 개발할 계획이다. [성과와 관련된 실적] Seungeun Lee, Seunghwan Lee, Ethan H. Willbrand, Benjamin J. Parker, Silvia A. Bunge, Kevin S. Weiner, and Ilwoo Lyu, “Leveraging Input-Level Feature Deformation with Guided-Attention for Sulcal Labeling”, IEEE Transaction on Medical Imaging, 2024 [성과와 관련된 이미지]
류일우 교수 2024.10.14 1274 -
[배경민 교수] PLC 소프트웨어의 요구사항 자동검증 기술 개발
[연구의 필요성] -Programmable Logic Controller (PLC)는 선박, 공장, 로봇 등 산업 현장을 제어하기 위해 널리 사용되는 컴퓨터 시스템으로, 물리적인 외부 환경과 상호작용하기 때문에 오류 발생시 사고로 이어져 큰 피해를 발생시킬 수 있으므로 높은 안전성이 요구됨. -PLC 소프트웨어의 높은 신뢰성을 보장하기 위해서, 기존에 개발자가 수동으로 코드를 분석하거나 테스트를 수행하는 전통적인 방법을 벗어나, 안전성 요구사항을 자동으로 분석하여 엄밀하게 검증하는 기술의 필요성이 요구되고 있음. -기존의 PLC를 자동으로 검증하기 위한 기술들은 대부분 단일 작업에만 초점을 맞추어, 실제 PLC 시스템에 사용되는 선점형 멀티태스킹을 통하여 발생하는 복잡한 경우들을 엄밀하게 분석하지 못하는 문제로 실제 시스템에 적용이 제한됨. [포스텍이 가진 고유의 기술] -논리적으로 기술된 안전성 요구사항을 바탕으로, PLC 소프트웨어의 행위를 자동으로 분석하기 위한 이론과 알고리즘을 개발하고, 이를 바탕으로 PLC에서 가장 널리 쓰이는 프로그래밍 언어인 Structured Text(ST)를 검증하는 STbmc 도구를 개발함. -선점형 멀티태스킹과 실시간 제약조건을 고려한 PLC ST 언어의 수학적인 의미구조를 엄밀하게 제안하였으며, 요약해석 이론에 기반하여 연속적인 시간 흐름에 따른 무한히 많은 행위들을 유한한 동등한 행위들로 요약하는 이론을 개발하였음. -선점형 멀티태스킹을 고려하는 복잡한 PLC 소프트웨어의 알고리즘적인 분석의 성능을 높이기 위하여, PLC ST 언어의 의미구조에 기반하는 상태기반 축소 기술을 개발하고, 이를 바탕으로 효과적인 모델검증(Model checking) 알고리즘을 개발하였음. [연구의 의미] -기존에 거의 연구되지 않았던 선점형 멀티태스킹을 고려한 PLC ST 프로그래밍 언어의 의미구조를 최초로 제시하였음. PLC ST 소프트웨어의 정적분석, 테스팅, 모델검증 등 향후 다양한 연구에서 본 연구에서 제안된 의미구조가 사용될 것으로 예상됨. -단순한 이론 및 알고리즘 뿐만 아니라, 실제 PLC 소프트웨어 개발에 활용될 수 있는 STbmc 도구를 개발함. 해당 도구는 유럽 입자 물리학 연구소(CERN)에서 개발하여 사용하고 있는 PLC 언어 검증 도구(PLCVerif)와 비교하여 더 우수한 성능을 보임. -산업 현장에서 널리 사용되고 있는 PLC 소프트웨어의 안전성과 신뢰성을 향상시킬 수 있는 기술을 개발함으로써, 소프트웨어 오류로 인한 인명 및 재산 피해를 미연에 방지하고 소프트웨어 오류가 야기하는 사회적 비용 및 기업 손실 방지. [연구결과의 진행 상태 및 향후 계획] -PLC ST 언어의 선점형 멀티태스킹 의미구조에 대한 연구 결과는 정형기법 분야에서 가장 저명한 국제학술회의인 International Symposium on Formal Methods(FM)에 2024년에 발표되었음. -후속 연구로, PLC에 의해 제어되는 외부 물리 모델의 행위를 동시에 고려하여 검증을 수행할 수 있는 기술을 연구하고 있으며, 검증 도구인 STbmc를 오픈소스로 공개하고 이를 다양한 시스템의 검증에 적용하는 사례연구를 진행하고 있음. [성과와 관련된 실적] -Jaeseo Lee and Kyungmin Bae. Formal Semantics and Analysis of Multitask PLC ST Programs with Preemption. International Symposium on Formal Methods (FM), -Jaeseo Lee, Sangki Kim, and Kyungmin Bae. Bounded Model Checking of PLC ST Programs using Rewriting Modulo SMT. ACM SIGPLAN International Workshop on Formal Techniques for Safety-Critical Systems (FTSCS), 2022. [성과와 관련된 이미지] 그림 PLC 소프트웨어 자동검증 기술 개요 그림 산업현장에 설치된 PLC 머신
배경민 교수 2024.10.14 1619 -
[배경민 교수] 보안운영체제 신뢰실행환경 API의 정형명세
[연구의 필요성] -신뢰 실행 환경(Trusted Execution Environment, TEE)은 프로그램을 격리된 환경에서 실행함으로써 민감한 데이터를 소프트웨어 및 하드웨어 공격으로부터 보호하기 위한 기술을 의미하며, 모바일, 금융, IoT 등 다양한 분야에서 널리 활용되고 있음. -하지만 TEE가 안전한 격리 환경을 제공할 수 있는지는 구현의 정확성에 크게 의존하며, 구현 과정에서 발생할 수 있는 취약점은 보안성을 심각하게 위협할 수 있음. 따라서 TEE가 실제로 보안성을 유지할 수 있는지를 사전에 엄밀하게 검증하는 것이 필수적임. -TEE에서 구동되는 응용프로그램(Trusted Application) 개발에 사용되는 TEE API에 대한 요구사항은 산업 표준으로 관리되고 있으나, 자연어로 기술된 문서이기 때문에 이를 바탕으로 엄밀한 검증 기술을 적용하기는 어려운 한계가 있음. [포스텍이 가진 고유의 기술] -TEE API의 산업 표준 요구사항을 수학적인 언어로 엄밀하게 기술하는 정형명세(Formal Specification)를 최초로 개발하였음. 특히, TEE에 기반한 응용프로그램의 구현에서 중요한 역할을 하는 TEE 저장소 API와 TEE 암호화 API를 모두 명세하였음. -TEE API는 다양한 객체들이 복잡하고 동시(Concurrent)적인 상호작용을 수행할 수 있기 때문에 정형명세가 어려우며, 이를 해결하기 위하여 본 연구에서는 동시성 행동 명세에 효과적인 Rewriting Logic에 바탕을 둔 TEE API 정형명세 방법론을 제안하였음. -개발한 TEE API 정형명세의 유효성을 입증하기 위하여, 정형모델을 기반으로 TEE 응용프로그램을 자동으로 검증할 수 있는 프레임워크를 개발하고, 이를 오픈소스 IoT 응용프로그램인 MQT-TZ에 적용하여 보안취약점을 발견하고 및 패치를 제안하였음. [연구의 의미] -본 연구는 TEE API에 대한 범용적인 정형명세를 개발하고, TEE 응용프로그램의 정형 검증을 위한 프레임워크를 제안함으로써, 신뢰성 높은 TEE 시스템을 구축하기 위한 모델을 제시하였다는 점에서 큰 의의를 가짐. -본 연구에서 개발된 TEE API의 정형명세는, TEE 응용 프로그램 구현 시 발생할 수 있는 잠재적인 보안 취약점을 사전에 탐지하고 수정하기 위한, 정적분석, 자동 테스팅, 자동 패치 등 다양한 기술 개발에 활용될 수 있어 높은 파급효과를 기대함. -궁국적으로, 본 연구는 TEE 기반 시스템의 신뢰성을 보장하고, 보안 무결성을 검증할 수 있는 기술적 토대를 마련함으로써 향후 더 안전하고 신뢰성 높은 TEE 환경 구축하고 이를 통해 다양한 산업 분야에서 시스템의 보안성을 향상시킬 수 있음. [연구결과의 진행 상태 및 향후 계획] -연구 결과는 정형기법 및 소프트웨어 공학 분야의 우수국제학회인 International Conference on Fundamental Approaches to Software Engineering 에 2024년 발표되었음. -본 연구에서 개발한 정형명세를, 저장소 및 암호화 API 뿐만 아니라, TEE API의 전반적인 산업표준을 다룰 수 있도록 확장할 계획임. -TEE 기반 오픈소스 보안 운영체제인 OP-TEE 등과 같은 실제적인 시스템의 검증을 개발한 정형명세를 바탕으로 수행하는 연구를 수행하고 있음. [성과와 관련된 실적] Geunyeol Yu, Seunghyun Chae, Kyungmin Bae, and Sungkun Moon. Formal Specification of Trusted Execution Environment APIs. International Conference on Fundamental Approaches to Software Engineering (FASE), 2024. [성과와 관련된 이미지] 그림 1. 전반적인 TEE 아키텍처 예제 그림 2. TEE API 정형명세 개요
배경민 교수 2024.10.14 1474 -
[이근배 교수] Audio-Based Linguistic Feature Extraction for Enhancing Multi-lingual and Low-Resource Text-to-Speech
[연구의 필요성] 다국어 음성합성은 음성합성이라는 분야가 가지는 특성상 데이터에 큰 영향을 받을 수 밖에 없습니다. 그리고 이는 저자원 언어들에 대한 연구들로 이어지고 있습니다. 기존의 다국어 음성합성 연구들은 언어별 토큰을 사용하여 언어별 특징을 학습하기에 보지 못했던 언어에 대해서 추가적으로 학습하는 방식에 대해서 많은 부족함을 가지고 있습니다. 이를 위해서 저희는 토큰 기반 방식이 아닌 오디오로부터 바로 언어별 특징을 추출하여 학습에 활용하여 일반적인 환경에서의 다국어 음성합성뿐 아니라 저자원 환경에서도 잘 작동하는 방법론을 제시합니다. [포스텍이 가진 고유의 기술] 언어별 특징을 추출하기 위해서 우선 speaker verification 방식으로 학습된 ECAPA-TDNN 구조로 이루어진 pretrained language encoder를 사용하였습니다. 사전학습을 진행할 때 여러가지 언어로 language classification task를 진행하여 언어별 특징을 잘 추출해낼 수 있도록 학습합니다. 그리고 저자원 환경으로의 전이학습 시에는 적은 데이터로 학습할 경우 language encoder가 편향되는 부분을 방지하기 위해서 language encoder 부분을 freezing하고 학습을 진행하였습니다. 또한 speaker adversarial training 방식을 활용해서 언어별 특징을 추출할 때, 화자에 대한 영향을 받지 않도록 하여 화자에 독립적으로 언어별로 같은 representation을 얻을 수 있도록 학습하였습니다. [연구의 의미] 본 연구에서는 다국어 음성합성시에 언어별 토큰을 활용하지 않고 해당 언어의 특징을 추출할 수 있기에 기존에 보지 못했던 언어에 대해서도 활용할 수 있다는 장점이 있습니다. 일반적인 환경에서도 다국어의 특징을 잘 추출해내어 성능에 유의미한 효과를 가지고 왔고 저자원 환경에서도 기존보다 좋은 성능을 보이는 것을 확인하였습니다. [연구결과의 진행 상태 및 향후 계획] 다양한 실제 저자원 언어들에 대한 적용을 시도해보고 좀더 robust하게 linguistic feature를 뽑아내기 위한 방법론을 연구할 계획입니다. [성과와 관련된 실적] Youngjae Kim, Yejin Jeon, Gary Geunbae Lee, “Audio-Based Linguistic Feature Extraction for Enhancing Multi-lingual and Low-Resource Text-to-Speech”, EMNLP 2024 Findings (Accepted) [성과와 관련된 이미지]
이근배 교수 2024.10.14 1102