반응형
반응형

생성형 AI 골드러시 속에서 초기 사용 사례로 각광받는 것 중 하나는 코딩 어시스턴트였다. 그러나 기대했던 생산성 향상 효과는 기대에 미치지 못하고 있다는 보고서가 등장해 눈길을 끈다.

많은 개발자가 AI 코딩 어시스턴트가 생산성을 높여준다고 말하지만, 최근의 한 연구에 따르면 생산성을 측정한 결과 큰 이득을 얻지 못했다. 코딩 및 협업 데이터에서 인사이트를 제공하는 업레벨(Uplevel)은 해당 연구 보고서에서 깃허브 코파일럿을 사용할 때 버그도 41% 더 많이 발생했다고 전했다. 

이 연구는 코드를 리포지토리에 병합하는 데 걸리는 시간인 PR(풀 리퀘스트) 주기와 병합된 풀 리퀘스트의 수인 PR 처리량을 측정해 효과를 살펴봤다. 그 결과 코파일럿 사용 개발자에게는 유의미한 개선 사항이 발견되지 않았다. 업레벨은 고객 기업들이 생성한 데이터를 사용하여 약 800명의 개발자가 3개월 동안 깃허브 코파일럿을 사용한 결과와 도입 전 3개월 동안의 결과물을 비교했다고 설명했다.
 

번아웃 측정
업레벨 연구는 생산성과 더불어 개발자의 번아웃 요인도 살펴봤다. 그 결과 깃허브 코파일럿이 번아웃에도 도움이 되지 않는다는 사실을 드러났다. 코딩 도구를 사용한 대조군과 테스트군 모두 표준 시간 외의 작업 시간이 감소했지만, 개발자가 코파일럿을 사용하지 않았을 때 오히려 더 많이 감소했다.

업레벨의 제품 관리자이자 데이터 분석가인 매트 호프만은 AI 코딩 어시스턴트가 보편화되면서 생산성이 크게 향상될 것이라는 주장에 대한 호기심에서 이 연구를 진행하게 되었다고 전했다. 지난 8월에 발표된 깃허브 설문조사에 따르면 소프트웨어 엔지니어, 개발자, 프로그래머의 97%가 AI 코딩 어시스턴트를 사용한다고 답했다.

호프만은 “생산성에 큰 도움이 된다는 주장을 담은 여러 연구들이 있었다. 어떤 사람들은 '그거 알아? 나는 앞으로 [코드] 리뷰어가 되어야 할 것 같아"라고 말하기도 했다”라고 전했다.

한편 깃허브 코파일럿 이번 업레벨의 연구에 대해 직접적으로 언급하지 않았다. 단 개발자가 코딩 어시스턴트를 사용하여 코드를 55% 더 빠르게 작성할 수 있었다는 최근의 연구를 언급했다. 

호프만에 따르면 업레벨은 당초 생산성 향상을 기대하며 연구에 착수했다. 그는 “우리 팀의 가설은 PR 주기 단축 효과에 대한 긍정이었다. 코드를 더 많이 작성할 수 있을 것이라고 생각했고, 실제로 코드를 배포하기 전에 이러한 생성형 AI 도구를 사용하여 코드를 검토하기 때문에 결함률이 낮아질 것이라고 생각했다”라고 말했다.

호프만은 PR 주기 시간과 PR 처리량 외에도 개발자의 생산성을 측정하는 방법이 더 있을 수 있다는 점을 인정한다면서도, 업레벨은 이들 메트릭이 개발자의 성과를 측정하는 확실한 척도로 보고 있다고 말했다.

앞으론 달라질 수도
업레벨은 이번 연구 결과에도 불구하고 코딩 어시스턴트가 빠르게 발전하고 있다는 점을 감안할 때 코딩 어시스턴트 사용을 중단하라고 제안하지는 않는다고 밝혔다. 호프만은 “코드 생성보다 코드 리뷰에 투입하는 시간이 늘고 있다. 코드가 제대로 작동하고 있다고 착각하기 쉽다. 무엇이 생성되는지, 예상한 대로 작동하는지를 면밀히 주시해야 한다”라고 말했다.

현장의 개발 팀들은 엇갈린 결과를 보고하고 있다. 맞춤형 소프트웨어 개발 회사인 게트소프트 USA(Gehtsoft USA)의 개발자들은 LLM(대규모 언어 모델) AI를 기반으로 한 코딩 어시스턴트를 통해 생산성이 크게 향상되지 않았다고 이 회사의 CEO인 이반 게트는 전했다. 게트소프트는 샌드박스 환경에서 코딩 어시스턴트를 테스트해 왔지만 아직 고객 프로젝트에 사용한 적은 없다.
 

“AI가 생성한 코드를 이해하고 디버깅하는 것이 점점 더 어려워지고 있다. 문제 해결에 투입되는 리소스가 크기 때문에 코드를 수정하는 것보다 처음부터 다시 작성하는 것이 더 쉬운 편이다.”
-이반 게크트, Gehtsoft CEO


게트 CEO는 “생산성 향상을 위해 LLM을 사용하려면 LLM이 실제 사람에 필적하는 능력을 갖춰야 하고, 실제 사용자도 LLM을 효율적으로 사용하는 방법을 알아야 한다. LLM은 비판적 사고, 자기 인식, 사고 능력이 없다”라고 말했다.

게트는 몇 줄의 코드를 작성하는 것과 본격적인 소프트웨어 개발에는 차이가 있다고 지적했다. 코딩은 문장을 쓰는 것과 같고, 개발은 소설을 쓰는 것과 같다고 그는 표현했다. “소프트웨어 개발은 요구 사항을 이해하고, 시스템을 설계하고, 한계와 제약을 고려하는 등 90%는 두뇌의 작동이다. 모든 지식과 이해를 실제 코드로 변환하는 것은 더 간단한 부분이다”라고 게트는 말했다.

업레벨 연구와 마찬가지로 AI 비서가 코드에 오류를 발생시키는 경우도 발견했다고 그는 전했다. AI가 생성한 코드가 반복적으로 재활용되면서 일관성 문제로 이어진다는 것이다. 개발자마다 다른 프롬프트를 사용함에 따라 나타나는 문제다. “AI가 생성한 코드를 이해하고 디버깅하는 것이 점점 더 어려워지고 있다. 문제 해결에 투입되는 리소스가 크기 때문에 코드를 수정하는 것보다 처음부터 다시 작성하는 것이 더 쉬운 편이다"라고 그는 말했다.

실효 체감
클라우드 서비스 제공업체 이노베이티브 솔루션(ovative Solutions)에서는 다르다. 이 회사의 CTO인 트래비스 렐은 클로드 데브 및 깃허브 코파일럿과 같은 코딩 어시스턴트를 사용하여 상당한 생산성 향상을 경험하고 있다고 전했다. 또한 자체 개발한 앤트로픽 통합을 사용하여 풀 리퀘스트를 모니터링하고 코드 품질을 검증하고 있다는 설명이다.

렐은 개발자 티켓의 완료 속도, 고객 결과물의 처리 시간, 코드 내 버그 수로 측정한 티켓의 품질을 기준으로 개발자 생산성이 2~3배 향상되는 것을 확인했다며, 과거 30일 정도 걸렸던 고객 프로젝트를 코딩 어시스턴트를 사용하여 24시간 만에 완료한 사례도 최근 있었다고 덧붙였다. 

하지만 코딩 어시스턴트가 전체 개발팀을 대체할 것이라는 주장 등 코딩 어시스턴트에 대한 일부 과대광고는 비현실적이라고 렐은 강조했다. 그저 코딩 어시스턴트는 코드의 일부를 재작업하여 코드를 빠르게 대체하거나 코드 경로를 최적화하는 데 사용되기에 적합하다고 그는 덧붙였다.

“코딩 어시스턴트가 처음부터 전체 코드를 올바르게 작성하지는 못한다. 코딩 어시스턴트에 대한 기대치를 낮춰야 한다. 단코딩 어시스턴트를 올바르게 사용하면 개발자의 코딩 속도를 두세 배까지 높일 수 있다”라고 그는 말했다.

 

https://www.ciokorea.com/news/351488

반응형
반응형

최근 아마존 CEO 앤디 제시는 35만여 명의 회사 직원이 오는 2025년 1월부터 기본적으로 주 5일 사무실에 근무해야 한다고 발표했다. 제시는 이 정책이 더 나은 업무 성과를 가져올 것이라고 주장했다.

그러나 직장인 커뮤니티 블라인드(Blind)가 아마존 직원 2,585명을 대상으로 진행한 설문조사에 따르면, 91%가 사무실 근무 요구 사항에 찬성하지 않는다고 답했다. 특히 73%의 응답자는 이 정책으로 인해 이직을 고려할 것이라고 답했다. 또한 응답자 5명 중 4명은 발표 이후 다른 직장을 찾고 있는 회사 직원을 알고 있다고 언급했다.

블라인드는 이런 변화가 특히 부모인 아마존 직원과 원격 근무를 위해 고용된 직원, 더 유연한 근무 시간 조정을 받은 직원에게 영향을 미칠 수 있다고 지적했다.

자신이 부모라고 밝힌 아마존 직원은 “특히 사무실에서 멀리 떨어진 지역에서 채용된 직원에게는 터무니없는 정책이다. 이곳에 아이와 가족이 있어 이사하고 싶지 않다. 그렇지 않더라도 어차피 6개월 내에 해고될 위험이 너무 큰데 굳이 위험을 무릅쓰고 옮길 이유가 있을까?”라고 말했다.

아마존의 새로운 정책은 오는 2025년 1월 2일부터 시행될 예정이다. https://www.ciokorea.com/news/351460

반응형
반응형
  • 맥도날드 등 패스트푸드 체인의 셀프 서비스 키오스크는 25년 전 처음 도입되었을 때 일자리를 없앨 것으로 우려되었음
  • 하지만 실제로는 예상과 다른 일이 일어났음
  • 키오스크는 주방 직원의 업무를 증가시키고, 고객들이 계산대에서보다 더 많은 음식을 주문하도록 만들었음
    • 패스트푸드와 소매업에서 기술이 의도치 않은 결과를 가져온 사례임
  • 체인들은 현재 드라이브스루에서 인공지능을 실험하고 있으며, 키오스크 경험이 이에 대한 교훈을 제공함

키오스크의 실제 활용

  • 오늘날 기업들은 키오스크를 직원 대체가 아닌 다른 업무로 전환하고, 매출 증대와 가격 조정, 서비스 속도 향상을 위해 사용함
  • Shake Shack CEO는 키오스크가 밀크쉐이크나 감자튀김 같은 "추가 판매 기회를 보장한다"고 말함
  • 맥도날드 가맹점주들은 현금을 받고 거스름돈을 주는 키오스크를 도입하고 있지만, 계산원을 키오스크 사용을 돕는 "게스트 경험 리더" 등 다른 역할로 재배치하고 있음

키오스크의 한계

  • 이론적으로 키오스크는 인건비를 절약해야 하지만, 실제로는 모바일 주문과 배달로 인해 복잡성이 증가했고, 키오스크로 절약된 인력은 이러한 노력에 재할당되는 경우가 많음
  • 키오스크는 "레스토랑 안의 레스토랑"을 만들어냈음
  • Bowlero와 같은 일부 체인에서는 키오스크가 실패하기도 함

키오스크의 예상치 못한 결과

  • 체인이 홍보하는 키오스크의 장점인 고객 추가 판매 유도와 주문 속도 향상이 항상 실현되는 것은 아님
  • Temple University 연구에 따르면, 키오스크 사용 중 줄이 길어지면 고객은 더 많은 스트레스를 받고 음식을 덜 구매함
  • 일부 고객은 키오스크로 주문하고 결제하는 데 계산원에게 주문하는 것보다 더 많은 시간이 소요됨
  • 키오스크가 오작동하거나 고장 날 수도 있음

키오스크와 최저임금 인상

  • 키오스크는 최저임금 인상에 대한 패스트푸드 업계의 대응책으로 여겨지기도 함
  • 전 맥도날드 CEO는 2016년 키오스크 확대 후 "내가 말했듯이" 노조의 최저임금 인상 요구가 기업으로 하여금 셀프 서비스 대안에 투자하도록 만들 것이라고 주장함
  • 캘리포니아는 올해 패스트푸드 근로자 최저임금을 시간당 $4 인상한 $20로 올렸고, 이에 따라 근로자들이 키오스크 등 기술로 대체될 것이라는 주장이 다시 제기됨

레스토랑 산업의 성장

  • 그러나 퀵서비스와 패스트 캐주얼 레스토랑 산업은 계속 성장하고 있음
  • 노동부 최신 자료에 따르면 직원 수는 팬데믹 이전 수준보다 약 15만 명, 즉 3% 증가함

셀프 서비스 기술의 영향

  • Drew University의 사회학자 Christopher Andrews는 키오스크의 영향이 ATM이나 슈퍼마켓 셀프 계산대와 같은 다른 셀프 서비스 기술과 유사하다고 말함
  • 두 기술 모두 일자리 감소를 초래할 것으로 예측되었음
  • 그러나 ATM 도입이 은행 창구 직원의 대량 실업으로 이어지지는 않았고, 오히려 저부가가치 업무에서 벗어나 다른 가치 창출 업무를 수행할 수 있게 해줌
  • 셀프 계산대 또한 소매 일자리 감소를 초래하지 않았음. 오히려 셀프 계산대는 고객 실수나 고의적 만행으로 인한 상품 손실을 증가시켜 일부 체인에게 역효과를 낳기도 함

셀프 서비스 기술에 대한 소통 필요성

  • Andrews는 패스트푸드 체인과 소매업체가 키오스크와 셀프 계산대의 잠재적 이점을 소비자와 직원에게 더 잘 전달해야 한다고 말함
  • 고객 입장에서는 이 기술이 어떻게 더 나은 서비스를 제공하는지 알아야 하며, 그렇지 않으면 단순히 노동 비용 절감을 위한 자동화 시도로 여길 것임

 

https://edition.cnn.com/2024/09/20/business/self-service-kiosks-mcdonalds-shake-shack

반응형
반응형

당신이 최고의 성과를 이끌어내기 위해 무엇을 배우고 따를 수 있는지 알아보세요.

무언가를 하려고 생각하지만 계획을 세우지 않을 때.

나는 결코 그것을 다 끝내지 못하는 것 같아.

특정한 시간과 장소에서 작업을 완료하는 것에 대해 스스로에게 말한다면,

완성할 가능성이 높아집니다.

무언가를 하기 위해 간단한 계획을 세우면 놀라운 효과가 나타날 수 있습니다.

생각해보세요,

루틴이 당신을 위해 할 수 있는 일

1. 하루를 일찍 시작하세요

생산성이 높은 사람들은 하루를 일찍 시작하기 위해 종종 일찍 일어납니다.

이런 조용한 시간은 그들이 방해받지 않고 중요한 업무에 집중할 수 있게 해줍니다.

- 일정한 기상 시간을 정하세요: 주말에도 매일 같은 시간에 일어나도록 노력하세요.

- 알람 시계를 사용하세요: 스누즈 버튼을 누르는 일을 방지하려면 방 반대편에 두세요.

- 애플 CEO 팀 쿡은 일찍 일어나 하루를 시작합니다.

2. 아침 운동

유명인이 아침 일과에 신체 활동을 포함시킨다는 말을 몇 번이나 보셨나요?

왜냐하면,

운동은 에너지를 높이고 집중력을 향상시킵니다.

- 빠른 속도로 걷는다: 20~30분만 걸어도 큰 변화를 느낄 수 있다.

- 요가나 스트레칭을 해보세요. 이러한 활동은 신체와 정신 모두에 좋습니다.

3. 건강한 아침 식사

영양가 있는 아침 식사는 하루를 위해 몸과 마음에 에너지를 공급합니다. 무겁거나 설탕이 많은 음식을 피하면 나중에 에너지가 폭락하는 것을 예방할 수 있습니다.

- 단백질과 섬유질을 섭취하세요: 계란, 오트밀, 스무디 등이 좋은 선택입니다.

- 수분을 충분히 섭취하세요. 하루를 물 한 잔으로 시작하세요.

4. 하루를 계획하세요

아침에 몇 분만 시간을 내어 하루를 계획하면 생산적인 분위기를 조성할 수 있습니다. 이 시간을 이용해 업무와 우선순위를 간략하게 정리하세요.

- 할 일 목록을 만드세요. 그날의 가장 중요한 업무를 적으세요.

- 시간 차단을 활용하세요. 각 작업에 대해 구체적인 시간 슬롯을 할당하세요.

5. 중요한 작업에 먼저 집중하세요

생산성이 높은 사람들은 에너지 수준이 가장 높을 때, 보통 아침 시간에 가장 중요한 업무를 처리합니다.

- 작업 우선순위를 정하세요. 아이젠하워 매트릭스를 사용하여 어떤 작업이 긴급하고 중요한지 확인하세요.

- 멀티태스킹을 피하세요: 더 나은 결과를 얻으려면 한 번에 한 가지 작업에만 집중하세요.

6. 정기적으로 휴식을 취하세요

하루 종일 짧은 휴식을 취하는 것은 생산성을 유지하고 소진을 예방하는 데 도움이 됩니다.

- 포모도로 테크닉을 따르세요. 25분 동안 작업한 다음 5분 휴식을 취하세요.

- 스트레칭이나 움직임: 휴식시간을 이용해 걷거나 가볍게 스트레칭을 하세요.

7. 산만함을 제한하세요

생산적인 사람들은 집중력을 유지하기 위해 방해 요소를 최소화합니다.

잠시 전화기를 던져 보세요.

- 경계 설정: 방해해서는 안 될 때를 다른 사람에게 알리세요.

- 기술을 현명하게 사용하세요. 기기에서 불필요한 알림을 끄세요.

8. 반성하고 내일을 계획하세요

하루가 끝나면 지금까지 이룬 일을 검토하고 다음 날 계획을 세우는 시간을 가지세요.

- 할 일 목록을 검토하세요. 완료된 작업에 체크 표시를 하고, 완료하지 못한 작업이 있는지 확인하세요.

- 내일의 목표 설정: 꼭 해결해야 할 가장 중요한 세 가지 작업을 적어보세요.

9. 충분한 수면을 취하세요

좋은 수면은 생산성을 유지하는 데 필수적입니다. 매일 밤 7~8시간의 양질의 수면을 목표로 하세요.

- 취침 전 루틴을 만드세요. 독서나 명상 등 편안한 활동을 하며 하루를 마무리하세요.

- 화면 시간 제한: 잠자리에 들기 전 최소 1시간 전에는 전자 기기를 피하세요.

일상에 머무르면 가능한 가장 효과적인 결과를 얻을 수 있습니다. 월요일과 화요일에는 열심히 일하고 나머지 주에는 무시하면 일이 잘 되지 않습니다.

일관성이 핵심이라는 점을 기억하세요. 작은 변화도 시간이 지나면서 상당한 개선으로 이어질 수 있습니다.

 

https://medium.com/@adityapatel880099/the-daily-routine-of-highly-productive-people-b8e73964557c

반응형
반응형

## pyenv lets you easily switch between multiple versions of Python. It's simple, unobtrusive, and follows the UNIX tradition of single-purpose tools that do one thing well.

This project was forked from rbenv and ruby-build, and modified for Python.

https://github.com/pyenv/pyenv

 

GitHub - pyenv/pyenv: Simple Python version management

Simple Python version management. Contribute to pyenv/pyenv development by creating an account on GitHub.

github.com

## What pyenv does...
* Lets you change the global Python version on a per-user basis.
* Provides support for per-project Python versions.
* Allows you to override the Python version with an environment variable.
* Searches for commands from multiple versions of Python at a time. This may be helpful to test across Python versions with tox.

## In contrast with pythonbrew and pythonz, pyenv does not...
* Depend on Python itself. pyenv was made from pure shell scripts. There is no bootstrap problem of Python.
* Need to be loaded into your shell. Instead, pyenv's shim approach works by adding a directory to your PATH.
* Manage virtualenv. Of course, you can create virtualenv yourself, or pyenv-virtualenv to automate the process.

반응형
반응형

생성형 AI 프롬프트에 악의적인 요청을 자연어 대신 수학 방정식으로 입력하면, 생성형 AI의 보안 장치를 피할 수 있다는 연구 결과가 공개됐다.  MathPrompt
 
미국 텍사스 대학교 샌안토니오, 멕시코 몬테레이 공과대학교, 미국 플로리다 국제 대학교 연구진이 지난주 발표한 연구에 따르면, 생성형 AI 시스템의 악용 방지를 위한 보안장치가 자연어가 아닌 수학 방정식을 입력하는 방식을 통해 무력화될 수 있는 것으로 나타났다. 연구진은 이를 '매쓰프롬프트'라고 명명했으며, 챗GPT와 같은 대규모 언어 모델의 보안 보호 장치를 피할 수 있다는 점에서 '탈옥' 공격의 한 형태라고 설명했다. 또한 "매쓰프롬프트는 현재 AI 안전 조치를 무력화하는 핵심 취약점"이라고 표현했다.

많은 보안 전문가가 CISO들은 여전히 신중을 기해야 하며, 직원들이 사용하는 LLM 시스템에서 민감한 데이터가 노출되지 않도록 주의를 기울여야 한다고 강조했다.

미 컬럼비아 대학 교수이자 AI 및 사이버 보안 전문가 조셉 스타인버그는 파운드리 산하 보안전문 매체 CSO와의 인터뷰에서 "수학 방정식을 이용해 생성형 AI 시스템을 속이는 개념은 '이상한 기호'로 가짜 URL을 만드는 것과 유사하다"라며 "URL을 더 안전하게 만드는 방법을 찾았듯이 해당 LLM 문제도 해결할 수 있을 것"이라고 전망했다.

스타인버그는 생성형 AI 시스템을 사용하는 조직 내 CISO는 이러한 새로운 위협과 별개로 일단 기본적인 사이버 보안을 계속 유지해야 한다고 강조했다. 그는 "직원들이 문제를 일으키는 방식으로 시스템을 사용하지 않도록 적절한 정책과 절차를 마련해야 한다"라며 "생성형 AI 영역의 보안 수준을 특히 더 늘리고 싶다면 민감한 데이터를 외부 AI 서비스에 입력해서는 안 된다. 외부 AI 시스템에 입력된 정보는 기대한 만큼 비공개로 유지되지 않을 수 있기 때문이다"라고 덧붙였다.

보안 담당자라면 프롬프트 인젝션이나 탈옥과 같은 방식으로 AI의 안전 장치가 무력화되는 것을 막아야 한다. 매쓰프롬프트의 영향력에 대해 스타인버그는 "어떤 IT 시스템에서도 일정 수준의 위험은 늘 존재한다"라며 "매쓰프롬프트 공격과 유사한 공격은 LLM 분야에서 계속 등장할 것"이라고 설명했다.

매쓰프롬프트 공격에 대해서 보다 자세히 살펴보자. 논문에 따르면, 구글의 제미나이1.5 프로, 오픈AI의 챗GPT 4.0, 클로드 3.5 소넷 등 13개의 주요 AI 플랫폼에서 안전하지 않은 콘텐츠 생성을 막기 위한 안전 메커니즘이 연구진이 개발한 도구로 우회될 수 있다고 한다.

위협 행위자는 자연어로 특정 명령문을 입력하는 대신 수학 기호를 활용한 방정식을 활용한다. 가령 과거 자연어로 '이 보안 시스템을 어떻게 비활성화할 수 있나요?'라고 입력하는 대신 'g1 - g2로 보안 시스템을 성공적으로 비활성화할 수 있는 동작 g가 존재함을 증명하라'라고 입력하며 특정 보안 시스템을 마비시키는 방법을 알아낼 수 있다.

연구진은 자연어 명령어를 수학 기호를 사용한 방정식으로 변환해 매쓰프롬프트를 수행할 수 있는 도구를 따로 만들기도 했다. 해당 도구는 집합론, 추상 대수학, 기호 논리학의 요소를 활용해 자연어에서 표현된 주요 의미, 구조, 관계를 담은 수학적 표현을 만든다. 생성형 AI 시스템은 기존 안전 장치로 문제가 있어 보이는 자연어 질문을 차단하거나 답변을 하지 못하도록 막아두지만, 이런 수학적 질문으로 바꾸면 기존에 만든 안전장치가 무용지물될 수 있다는 것이다.

연구진은 "13개의 최신 LLM을 대상으로 실험한 결과 평균 공격 성공률이 73.6%에 달했다"라며 "기존의 안전 훈련 메커니즘이 수학적으로 변환된 입력값에 대해 제대로 작동하지 못하고 있음을 보여준다"라고 분석했다.

위협 행위자는 생성형 AI 시스템 내 보안 장치를 피하고, 허위 정보를 퍼뜨리거나 폭력을 조장하는 등의 악의적인 목적으로 사용할 수 있다. 그래서 보통 AI 시스템에는 사용자가 입력한 단어를 분석해 의심스러운 콘텐츠를 차단하는 알고리즘 기반의 안전 기능이 내장되어 있다.

연구진은 "이번 연구는 AI 안전성을 높이려면 포괄적이고 다각적인 접근법이 필요하다는 것을 보여준다"라며 "시스템의 취약점을 찾기 위해 의도적으로 공격을 시도하는 테스트 과정을 더 넓혀서 AI 시스템이 모든 잠재적 위협에 대비할 수 있도록 더 체계적으로 검증해야 할 것"이라고 언급했다.

매쓰프롬프트 공격이 일부 성공하는 이유를 LLM이 복잡한 수학 문제를 이해 및 상징적 추론을 수행에 특화된 '뛰어난 능력'을 가지고 있기 때문이다. 연구진은 "LLM의 기호적 수학 작업 능력은 단순 계산을 넘어 수학적 개념을 이해하고, 자연어와 수학 표기법을 번역하는 능력을 가지고 있다"라며 "이러한 수학적 능력은 LLM의 다양한 응용 분야를 열어줬지만, 동시에 AI 안전 메커니즘에 취약점을 만든다"라고 설명했다.

연구진은 매쓰프롬프트의 효과를 테스트하기 위해 모델에 대한 질문 목록을 만들었다. 이 목록에는 다른 연구진이 이미 작성한 유해한 행동에 대한 120개의 자연어 질문 데이터셋이 일부 포함되었다.

테스트 결과, LLM 시스템이 악의적인 요청을 처리할 때, 약 73.6%의 비율로 안전 메커니즘을 우회하고 요청에 응답했다. 다시 말해 악의적인 요청(예: 해킹 방법이나 유해한 정보 요청)을 일반적인 방식으로 입력하면 LLM이 이를 차단하거나 응답하지 않도록 설계되어 있지만, 수학적 표현이나 기호를 사용해 입력하면 LLM이 이를 악의적인 요청으로 인식하지 못하고 응답한 경우가 73.6%였다는 뜻이다. 가장 높은 성공률을 보인 것은 클로드 3의 하이쿠 버전으로 87.5%의 성공률을 기록했고, GPT4가 85%로 그 뒤를 이었다.

구글의 제미나이 1.5 프로에서 매쓰프롬프트 테스트는 안전 시스템을 킨 상태에서 74.2%, 안전 시스템을 끈 상태에서 75%의 성공률을 기록했다. CSO는 구글 측에 매쓰프롬프트와 관련해 추가 의견을 요청했으나, 구글의 대변인은 기사 작성 시점에 회사의 전문가가 부재 중이라고 밝혔다.

 

https://www.ciokorea.com/news/351159

반응형

+ Recent posts