This exercise is one of my all-time favorite movements and although it gained popularity through “animal” based movement practices, the Step-Through origins can be traced back to the warm-ups, solo drills, and movement prep of many forms of Martial Arts and combat sports, more specifically a variation can be found being performed in Jiu-Jitsu and wrestling!
The Step-Through is a bodyweight exercise that is not so easy to perform and master. Engaging the core and maintaining proper stability throughout the movement is only a few of the important steps to keep in mind during this exercise, which will really test your bodyweight strength, coordination, and balance.
Breaking this drill down, and practicing Mountain Climbers and Sit Throughs beforehand, will really help you to build enough strength and mobility to perform the Step-Through.
Enjoy!
Thanks for watching/reading :)
If you're interested in learning this movement (and many others) in more detail, check out our online Mobility program, which comes with over 50 follow-along, verbal tutorial videos! https://www.phase6online.com/product/...
Also, check out my IG page for plenty of bodyweight workouts, movement preps, and decompression circuits, alongside tutorials for my favorite movements! / steph.rose.phase6
Each ML/AI project stakeholder requires specialized tools that efficiently enable them to manage the various stages of an ML/AI project, from data preparation and model development to deployment and monitoring. They tend to use specialized open source tools because oftheir contribution as a significant catalyst to the advancement, development, and ease of AI projects. As a result, numerous open source AI tools have emerged over the years, making it challenging to pick from the available options.
This article highlights some factors to consider when picking open source tools and introduces you to 25 open-source options that you can use for your AI project.
Picking open source tools for AI project
The open source tooling model has allowed companies to develop diverse ML tools to help you handle particular problems in an AI project. The AI tooling landscape is already quite saturated with tools, and the abundance of options makes tool selection difficult. Some of these tools even provide similar solutions. You may be tempted to lean toward adopting tools just because of the enticing features they present. However, there are other crucial factors that you should consider before selecting a tool, which include:
Popularity
Impact
Innovation
Community engagement
Relevance to emerging AI trends.
Popularity
Widely adopted tools often indicate active development, regular updates, and strong community support, ensuring reliability and longevity.
Impact
A tool with a track record of addressing pain points, delivering measurable improvements, providing long-term project sustainability, and adapting to evolving needs of the problems of an AI project is a good measure of an impactful tool that stakeholders are interested in leveraging.
Innovation
Tools that embrace more modern technologies and offer unique features demonstrate a commitment to continuous improvement and have the potential to drive advancements and unlock new possibilities.
Community engagement
Active community engagement fosters collaboration, provides support, and ensures a tool's continued relevance and improvement.
Relevance to emerging AI trends
Tools aligned with emerging trends like LLMs enable organizations to leverage the latest capabilities, ensuring their projects remain at the forefront of innovation.
25 open source tools for your AI project
Based on these factors, here are 25 tools that you and the different stakeholders on your team can use for various stages in your AI project.
1. KitOps
Multiple stakeholders are involved in the machine learning development lifecycle which requires different MLOps tools and environments at various stages of the AI project., which makes it hard to guarantee an organized, portable, transparent, and secure model development pipeline.
This introduces opportunities for model lineage breaks and accidental or malicious model tampering or modifications during model development. Since the contents of a model are a "black box”—without efficient storage and lineage—it is impossible to know if a model's or model artifact's content has been tampered with between model development, staging, deployment, and retirement pipelines.
KitOpsprovides AI project stakeholders with a secure package called ModelKit that they can use to share and manage models, code, metadata, and artifacts throughout the ML development lifecycle.
The ModelKit is an immutable OCI-standard artifact that leverages normal container-native technologies (similar to Docker and Kubernetes), making them seamlessly interoperable and portable across various stakeholders using common software tools and environments. As an immutable package, ModelKit is tamper-proof. This tamper-proof property provides stakeholders with a versioning system that tracks every single update to any of its content (i.e., models, code, metadata, and artifacts) throughout the ML development and deployment pipelines.
2. LangChain
LangChainis a machine learning framework that enables ML engineers and software developers to build end-to-end LLM applications quickly. Its modular architecture allows them to easily mix and match itsextensive suite of componentsto create custom LLM applications.
LangChain simplifies the LLM application's development and deployment stages with its ecosystem of interconnected parts, consisting ofLangSmith,LangServe, andLangGraph. Together, they enable ML engineers and software developers to build robust, diverse, and scaleable LLM applications efficiently.
LangChain enables professionals without a strong AI background to easily build an application with large language models (LLMs).
3. Pachyderm
Pachydermis a data versioning and management platform that enables engineers to automate complex data transformations. It uses a data infrastructure that provides data lineage via a data-driven versioning pipeline. The version-controlled pipelines are automatically triggered based on changes in the data. It tracks every modification to the data, making it simple to duplicate previous results and test with various pipeline versions.
Pachyderm's data infrastructure provides "data-aware" pipelines with versioning and lineage.
4. ZenML
ZenMLis a structured MLOps framework that abstracts the creation of MLOps pipelines, allowing data scientists and ML engineers to focus on the core steps of data preprocessing, model training, evaluation, and deployment without getting bogged down in infrastructure details.
ZenML framework abstracts MLOps infrastructure complexities and simplifies the adoption of MLOps, making the AI project components accessible, reusable, and reproducible.
5. Prefect
Prefectis an MLOps orchestration framework for machine learning pipelines. It uses the concepts of tasks (individual units of work) and flows (sequences of tasks) to construct an ML pipeline for running different steps of an ML code, such as feature engineering and training. This modular structure enables ML engineers to simplify creating and managing complex ML workflows.
Prefect simplifies data workflow management, robust error handling, state management, and extensive monitoring.
6. Ray
Rayis a distributed computing framework that makes it easy for data scientists and ML engineers to scale machine learning workloads during model development. It simplifies scaling computationally intensive workloads, like loading and processing extensive data or deep learning model training, from a single machine to large clusters.
Ray's core distributed runtime, making it easy to scale ML workloads.
7. Metaflow
Metaflowis an MLOps tool that enhances the productivity of data scientists and ML engineers with a unified API. The API offers a code-first approach to building data science workflows, and it contains the wholeinfrastructure stackthat data scientists and ML engineers need to execute AI projects from prototype to production.
8. MLflow
MLflowallows data scientists and engineers to manage model development and experiments. It streamlines your entire model development lifecycle, from experimentation to deployment.
MLflow’s key features include: MLflow tracking:It provides an API and UI to record and query your experiment, parameters, code versions, metrics, and output files when training your machine learning model. You can then compare several runs after logging the results.
MLflow projects:It provides a standard reusable format to package data science code and includes API and CLI to run projects to chain into workflows. Any Git repository / local directory can be treated as an MLflow project.
MLflow models:It offers a standard format to deploy ML models in diverse serving environments.
MLflow model registry:It provides you with a centralized model store, set of APIs, and UI, to collaboratively manage the full lifecycle of a model. It also enables model lineage (from your model experiments and runs), model versioning, and development stage transitions (i.e., moving a model from staging to production).
9. Kubeflow
Kubeflowis an MLOps toolkit for Kubernetes. It is designed to simplify the orchestration and deployment of ML workflows on Kubernetes clusters. Its primary purpose is to make scaling and managing complex ML systems easier, portable, and scalable across different infrastructures.
Kubeflow is a key player in the MLOps landscape, and it introduced a robust and flexible platform for building, deploying, and managing machine learning systems on Kubernetes. This unified platform for developing, deploying, and managing ML models enables collaboration among data scientists, ML engineers, and DevOps teams.
10. Seldon core
Seldon coreis an MLOps platform that simplifies the deployment, serving, and management of machine learning models by converting ML models (TensorFlow, PyTorch, H2o, etc.) or language wrappers (Python, Java, etc.) into production-ready REST/GRPC microservices. Think of them as pre-packaged inference servers or custom servers. Seldon core also enables the containerization of these servers and offers out-of-the-box features like advanced metrics, request logging, explainers, outlier detectors, A/B tests, and canaries.
Seldon Core's solution focuses on model management and governance. Its adoption is geared toward ML and DevOps engineers, specifically for model deployment and monitoring, instead of small data science teams.
11. DVC (Data Version Control)
Implementing version control for machine learning projects entails managing both code and the datasets, ML models, performance metrics, and other development-related artifacts. Its purpose is to bring the best practices from software engineering, like version control and reproducibility, to the world of data science and machine learning.DVCenables data scientists and ML engineers to track changes to data and models like Git does for code, making it able to run on top of any Git repository. It enables the management of model experiments.
DVC's integration with Git makes it easier to apply software engineering principles to data science workflows.
12. Evidently AI
EvidentlyAIis an observability platform designed to analyze and monitor production machine learning (ML) models. Its primary purpose is to help ML practitioners understand and maintain the performance of their deployed models over time. Evidently provides a comprehensive set of tools for tracking key model performance metrics, such as accuracy, precision, recall, and drift detection. It also enables stakeholders to generate interactive reports and visualizations that make it easy to identify issues and trends.
13. Mage AI
Mage AIis a data transforming and integrating framework that allows data scientists and ML engineers to build and automate data pipelines without extensive coding. Data scientists can easily connect to their data sources, ingest data, and build production-ready data pipelines within Mage notebooks.
14. ML Run
ML Runprovides a serverless technology for orchestrating end-to-end MLOps systems. The serverless platform converts the ML code into scalable and managed microservices. This streamlines the development and management pipelines of the data scientists, ML, software, and DevOps/MLOps engineers throughout the entire machine learning (ML) lifecycle, across their various environments.
15. Kedro
Kedrois an ML development framework for creating reproducible, maintainable, modular data science code. Kedro improves AI project development experience via data abstraction and code organization. Using lightweight data connectors, it provides a centralized data catalog to manage and track datasets throughout a project. This enables data scientists to focus on building production level code through Kedro's data pipelines, enabling other stakeholders to use the same pipelines in different parts of the system.
Kedro focuses on data pipeline development by enforcing SWE best practices for data scientists.
16. WhyLogs
WhyLogsby WhyLabs is an open-source data logging library designed for machine learning (ML) models and data pipelines. Its primary purpose is to provide visibility into data quality and model performance over time.
With WhyLogs, MLOps engineers can efficiently generate compact summaries of datasets (called profiles) that capture essential statistical properties and characteristics. These profiles track changes in datasets over time, helping detect data drift – a common cause of model performance degradation. It also provides tools for visualizing key summary statistics from dataset profiles, making it easy to understand data distributions and identify anomalies.
17. Feast
Defining, storing, and accessing features for model training and online inference in silos (i.e., from different locations) can lead to inconsistent feature definitions, data duplication, complex data access and retrieval, etc.Feastsolves the challenge of stakeholders managing and serving machine learning (ML) features in development and production environments.
Feast is a feature store that bridges the gap between data and machine learning models. It provides a centralized repository for defining feature schemas, ensuring consistency across different teams and projects. This can ensure that the feature values used for model inference are consistent with the state of the feature at the time of the request, even for historical data.
Feast is a centralized repository for managing, storing, and serving features, ensuring consistency and reliability across training and serving environments.
18. Flyte
Data scientists and data and analytics pipeline engineers typically rely on ML and platform engineers to transform models and training pipelines into production-ready systems.
Flyteempowers data scientists and data and analytics engineers with the autonomy to work independently. It provides them with a Python SDK for building workflows, which can then be effortlessly deployed to the Flyte backend. This simplifies the development, deployment, and management of complex ML and data workflows by building and executing reliable and reproducible pipelines at scale.
19. Featureform
The ad-hoc practice of data scientists developing features for model development in isolation makes it difficult for other AI project stakeholders to understand, reuse, or build upon existing work. This leads to duplicated effort, inconsistencies in feature definitions, and difficulties in reproducing results.
Featureformis a virtual feature store that streamlines data scientists' ability to manage and serve features for machine learning models. It acts as a "virtual" layer over existing data infrastructure like Databricks and Snowflake. This allows data scientists to engineer and deploy features directly to the data infrastructure for other stakeholders. Its structured, centralized feature repository and metadata management approach empower data scientists to seamlessly transition their work from experimentation to production, ensuring reproducibility, collaboration, and governance throughout the ML lifecycle.
20. Deepchecks
Deepchecksis an ML monitoring tool for continuously testing and validating machine learning models and data from an AI project's experimentation to the deployment stage. It provides a wide range of built-in checks to validate model performance, data integrity, and data distribution. These checks help identify issues like model bias, data drift, concept drift, and leakage.
21. Argo
Argoprovides a Kubernetes-native workflow engine for orchestrating parallel jobs on Kubernetes. Its primary purpose is to streamline the execution of complex, multi-step workflows, making it particularly well-suited for machine learning (ML) and data processing tasks. It enables ML engineers to define each step of the ML workflow (data preprocessing, model training, evaluation, deployment) as individual containers, making it easier to manage dependencies and ensure reproducibility.
Argo workflows are defined using DAGs, where each node represents a step in the workflow (typically a containerized task), and edges represent dependencies between steps. Workflows can be defined as a sequence of tasks (steps) or as a Directed Acyclic Graph (DAG) to capture dependencies between tasks.
22. Deep Lake
Deep Lake(formerly Activeloop Hub) is an ML-specific database tool designed to act as a data lake for deep learning and a vector store for RAG applications. Its primary purpose is accelerating model training by providing fast and efficient access to large-scale datasets, regardless of format or location.
23. Hopsworks feature store
Advanced MLOps pipelines with at least anMLOps maturity level 1architecture require a centralized feature store.Hopsworksis a perfect feature store for such architecture. It provides an end-to-end solution for managing ML feature lifecycle, from data ingestion and feature engineering to model training, deployment, and monitoring. This facilitates feature reuse, consistency, and faster model development.
24. NannyML
NannyMLis a Python library specialized in post-deployment monitoring and maintenance of machine learning (ML) models. It enables data scientists to detect and address silent model failure, estimate model performance without immediate ground truth data, and identify data drift that might be responsible for performance degradation.
25. Delta Lake
Delta Lakeis a storage layer framework that provides reliability to data lakes. It addresses the challenges of managing large-scale data in lakehouse architectures, where data is stored in an open format and used for various purposes, like machine learning (ML). Data engineers can build real-time pipelines or ML applications using Delta Lake because it supports both batch and streaming data processing. It also brings ACID (atomicity, consistency, isolation, durability) transactions to data lakes, ensuring data integrity even with concurrent reads and writes from multiple pipelines.
Considering factors like popularity, impact, innovation, community engagement, and relevance to emerging AI trends can help guide your decision when picking open source AI/ML tools, especially for those offering the same value proposition. In some cases, such tools may have different ways of providing solutions for the same use case or possess unique features that make them perfect for a specific project use case.
고통스러운 일상이라도 늘 고통스럽지만은 않다. 점심까지만 해도 뭐라도 올 것처럼 잔뜩 찌푸렸던 하늘이 언제 그랬냐는 듯 청명하게 갠 오후를 보여 주기도 하지 않은가? 작은 블라인드 틈 사이로 강렬한 햇빛이 파고들더니 그대로 책상 앞까지 가득한 걸 보면 감동 그 자체 아닌가?
- 김범준의 《지옥에 다녀온 단테》 중에서 -
* 모든 것은 양면을 가집니다. 고통이 있기에 영광이 있고, 영광에 탐닉하다 천 길 추락을 경험합니다. 어둠은 빛을, 빛은 어둠을 낳습니다. 모든 것은 가장 알맞은 때에, 알맞은 모습으로 드러납니다. 어려운 국면에서 길이 보이지 않는다면 기다림으로 희망을 갖고, 너무 잘나가는 듯하면 절제와 겸손으로 몸을 낮추어야 합니다.
국방부가 네이버클라우드 기반에서 신규 시스템을 구축한다. 클라우드 전문성을 보유한 메가존이 구축 전반을 이끈다.
국방부 내 첫 민간 클라우드 기반 시스템 구축 사례로 향후 공공 민간 클라우드 확산에도 선례가 될 전망이다.
21일 업계에 따르면 국방부는 최근 '장병체감형 원스톱 서비스 플랫폼 구축 사업' 우선협상대상자를 선정했다.
이 사업은 입영 전부터 복무 중, 전역 후 등 장병 전주기에 걸쳐 원스톱 서비스를 제공하기 위해 기획됐다. △장병 행정 △장병 복지 △군장병 역량강화 △보건·의료 등 장병지원 4대 분야 서비스를 연계·통합한 것이 특징이다.
민간 클라우드 기반에서 시스템을 구현하다는 점에서 업계 주목을 받았다.
20일 진행한 사업자 평가 결과 네이버클라우드를 제안한 메가존이 평점(기술·가격) 1위로 우선협상자가 됐다.
이 사업을 의욕적으로 준비했던 삼성SDS는 자체 클라우드인 삼성클라우드플랫폼(SCP)을 제안했지만 가격과 기술 평가 모두 근소한 차이로 밀렸다.
메가존과 네이버클라우드가 승기를 잡을 수 있었던 배경은 그동안 쌓은 클라우드 전문성 덕분으로 풀이된다.
이번 사업은 단순 클라우드 인프라만 사용하는데 그치지 않는다.
△클라우드 네이티브 기반 플랫폼 아키텍처 설계 △사용량에 따라 플랫폼의 자동 확장·축소 기능 제공 △컨테이너·MSA 기반 클라우드 네이티브 플랫폼 구축 △데브옵스 적용을 통한 안전·안정적인 무중단 배포체계 운영 등 클라우드 이점을 최대한 구현해야 한다.
인프라 이전 외에도 클라우드 운영·관리 전문성과 노하우가 없이는 사업 수행이 어렵다.
메가존은 국내 최대 클라우드 관리서비스 제공사(MSP)로 대기업부터 공공까지 다양한 성공 사례와 경험을 보유했다. 네이버클라우드 역시 클라우드보안인증(CSAP)을 획득한 사업자로서 공공 서비스형인프라(IaaS) 시장에서 자리잡는 등 양사 강점이 이번 평가에서 좋은 점수를 얻는데 주효했다.
사업은 향후 3년간 진행된다.
내년까지 민간 클라우드 기반 플랫폼과 서비스를 구축하는데 집중한다. 내후년에는 인공지능 도입까지 타진하는 등 클라우드 기반 신기술 도입도 추진한다.
업계는 이번 국방부 사례가 공공 클라우드 시장에 긍정적 영향을 미칠 것으로 기대한다.
그동안 공공 클라우드 사업이 다수 진행됐지만 주요 시스템 개발 초반부터 민간 클라우드로 구현한 경우는 거의 없다.
업계 관계자는 “보안에 민감한 국방부가 민간 클라우드를 선택했다는 점이 고무적”이라면서 “미국 등 해외도 국방부와 같은 주요 부처가 민간 클라우드를 도입한 후 공공 클라우드 확산이 탄력받았던 것처럼 우리나라도 비슷한 흐름이 이어질 것”이라고 말했다.
서론 ‘백문불여일견’이라는 말처럼 텍스트로 전달할 수 있는 정보량에 비해 시각적인 정보는 훨씬 다양한 의미 관계들을 전달할 수 있습니다. 또한 ‘몸이 100냥이면 눈이 90냥’이라는 말도 인간이 삶을 살아가는 데 시각으로 받아들이는 정보가 얼마나 중요한지 강조하고 있습니다. 만약 HyperCLOVA X (HCX)가 텍스트를 넘어 이미지를 이해할 수 있게 된다면, 가깝게는 문서나 이미지의 처리를 자동화할 수 있고, 더 나아가 HyperCLOVA X를 두뇌로 사용하는 로봇과 같은 독립적인 에이전트가 목표를 수행하는데도 시각 정보를 활용할 수 있을 것입니다.
시각 정보를 올바르게 처리하기 위해서는 대량의 다양한 이미지 · 텍스트 데이터를 활용하여 모델을 학습하는 것이 필수적입니다. 저희는 이를 위해 네이버 내외부에서 고품질의 원천 데이터를 확보해 왔습니다. 해당 데이터가 서로 상충하지 않고 시너지를 낼 수 있도록 학습하는 데에 지금까지 많은 노력을 기울여 왔고, 그 결과 HyperCLOVA X Vision은 문서의 이해를 포함한 여러 가지 능력을 갖추고 있습니다. 기존의 HyperCLOVA X에 이미지를 이해하는 능력을 추가하는 것뿐만 아니라 기존에 가지고 있던 텍스트 관련 능력을 잊지 않고, 안전 관련 요소들도 놓치지 않도록 다방면으로 노력을 기울여 왔습니다. 이 글에서는 HyperCLOVA X Vision의 기술적 개요와 현재의 성능 수준을 간단한 예제 위주로 구성하여 소개해 드리려고 합니다.
HyperCLOVA X Vision 기술 소개 HCX Vision은 기존의 거대 언어 모델(Large Language Model)에 이미지 이해 능력을 더해 거대 시각 언어 모델(Large Vision Language Model)로 발전했습니다. 이를 위해 다양한 시각 및 언어 데이터를 사용하여 추가 학습을 진행했으며, 이 과정에서 이미지와 텍스트를 동시에 이해할 수 있는 능력을 갖추게 되었습니다. 특히, 여러 시나리오에 맞춘 다양한 데이터를 수집하여 다양한 상황에서 시각과 언어 이해 작업을 수행할 수 있도록 했습니다. 예를 들어, 문서 인식이나 이미지 내 텍스트 이해와 같은 작업에서도 뛰어난 성능을 발휘할 수 있습니다.
네이버는 세계 최고 수준의 한국어와 손 글씨 인식 능력을 갖춘 OCR 기술을 보유하고 있습니다. 이러한 경험을 바탕으로, HCX Vision은 문서 처리와 글자 인식 능력을 강화하여 사용자에게 더욱 정확하고 신뢰성 있는 서비스를 제공합니다. HCX Vision은 초대량의 한국어 데이터로 학습된 거대 언어 모델인 HCX를 기반으로 하고 있습니다. 이에 따라 여러 한국어 및 한국 문화 관련 지식을 포함하고 있으며, 이러한 특성을 HCX Vision에 성공적으로 적용함으로써 한국어 문서와 이미지 내 텍스트 이해에 탁월한 성능을 발휘합니다.
HyperCLOVA X Vision 의 정량 지표
Public Benchmarks
SEEDv1 (image)
MMMU (val)
TextVQA (val)
DocVQA (test)
ChartQA (test)
InfographicVQA (test)
MathVista (testmini)
VQAv2
Average
GPT-4V
69.1
56.8
78
88.4
78.5
75.1
49.9
77.2
71.63
HCX-VLM
75.6
45.1
77.9
89.8
81
65.2
57.1
81
71.59
달성률(%)
99.94
HyperCLOVA X Vision의 여러 정량 지표를 소개해 드립니다. 성능 트래킹을 위해 내부적으로 30개에 가까운 지표를 사용하고 있지만, 여기서는 OpenAI GPT-4V와 직접적인 비교가 가능한 지표들만 일부 가져왔습니다. 앞으로 LLM의 Reasoning 능력 향상과 VLM 측면에서의 고해상도 처리를 위한 인코더 구조 변경, 추가적인 Vision Alignment Task 등 출시 이후 올해 하반기에도 점진적으로 성능을 향상할 예정입니다.
K-GED (한국 초 · 중 · 고 검정고시) 성능
Model
Correct Answers
GPT-4o
1152/1480 (77.8%)
HCX-VLM
1240/1480 (83.8%)
정량 평가 중에서도 한국향 데이터를 더 많이 학습한 모델이 강점을 보일 수 있는 영역이 무엇이 있을지 고민하다가, 대한민국 초 · 중 · 고등학교 검정고시를 벤치마크로 활용해 보았습니다. 총 1,480개의 사지선다 검정고시 기출 문제로 구성되어 있으며 이미지 형태로 입력했음에도 불구하고 83.8%로 상당히 높은 정답률을 보입니다. 참고로 검정고시의 합격 기준점은 60%이며 77.8%인 GPT-4o보다 높은 성능을 보여줍니다.
예제 기반의 HyperCLOVA X Vision 기능들
하기에서는 분야별 다양한 작업에 대한 예제들을 소개합니다. 한창 개발이 진행 중인 상황이라 100% 완벽하지는 않지만, 거대 모델이 출현하기 이전에 독립된 개별 작업을 별도의 모델로 하나씩 격파하던 기억을 떠올려 보면 직접 개발을 진행하는 입장에서도 격세지감이 드는 상황입니다.
Detailed Image Captioning 이미지에 대해 상세한 설명을 요구하는 작업으로 이미지 캡셔닝이라고도 불립니다. 별도의 객체 인식 모델을 사용하지 않음에도 불구하고 이미지의 세세한 부분까지도 비교적 정확하게 인식하고 묘사할 수 있습니다.
Reasoning 이미지에 대한 상세한 이해를 바탕으로 상황에 대해 추론하거나 다음 단계를 예측할 수 있습니다. 해당 능력은 LLM의 고유 능력을 활용하며, LLM이 여러 비전 기능을 직접적으로 받아들이도록 학습하였습니다.
Entity Recognition Entity는 의미를 갖는 단위를 지칭하며, 인명, 장소, 제품 등 다양한 형태를 가집니다. HCX Vision을 사용하여 역사적인 인물의 이름, 유명한 장소, 상품명, 음식의 이름을 이미지만으로 이해할 수 있습니다. 현시성 강화를 위한 검색 보강 생성 (Retrieval Augmented Generation; RAG) 등의 방식을 사용하지 않더라도, 기본적으로 학습 데이터에 존재했던 Entity를 무리 없이 인식할 수 있음을 확인했습니다.
Chart Understanding 사람의 직관적인 이해를 돕기 위하여 수치적인 데이터는 차트의 형태로 유통되는 경우가 많습니다. 사람에게는 쉽지만, 기계의 입장에서는 추상적인 표현을 이해해야 하기 때문에 성능을 내기가 매우 어려운 작업입니다.
Table Understanding 수치적인 비교 데이터는 표로 나타내는 것이 일반적입니다. 원본 데이터가 Excel이나 CSV 형태일 경우 텍스트 모달을 사용하는 LLM에 입력하여 바로 활용할 수도 있지만, 해당 데이터가 이미지의 캡처본일 경우에는 이미지에 있는 텍스트를 올바르게 인식하고, 그 위치적인 상관관계들을 이해할 수 있어야 프롬프트에 적합한 답변을 생성할 수 있습니다.
Document Understanding 일반적인 영어와 한글 문서뿐만 아니라, 한자 또는 일본어로 작성된 문서도 이해할 수 있습니다.
Culture and Humor (Meme Understanding) 유머나 문화를 이해하기 위해서는 매우 고차원적인 수준의 능력이 필요합니다. HCX Vision은 이미지와 텍스트 쌍으로 구성된 다량의 데이터를 학습하기 때문에 이러한 밈에 대한 이해가 가능합니다.
Equation Understanding 렌더링 되어 있는 수식은 사람이 쉽게 읽을 수 있는 데 반해서, 이를 다시 디지털 포맷으로 입력하는 것은 상당히 어려운 작업으로 TeX 문법이 익숙하지 않으면 오랜 시간이 소요됩니다. HCX Vision은 이러한 수동적인 입력 작업을 상당히 간소화할 수 있습니다.
Code Generation 특정 도형이나 차트, 그래프 등을 생성하는 데 필요한 코드를 생성할 수 있습니다.
Math Problem Solving 도형이 포함된 수학 문제를 이해하고 풀이를 제공할 수 있습니다.
Creative Writing (with Image Grounding) HCX LLM 본연의 기능에 가깝지만, 이미지에 포함된 요소들을 기반으로 창의적인 글쓰기가 가능합니다.
HyperCLOVA X Vision 미래 전망과 Sovereign AI 현재 하나의 이미지에 대한 이해에서 나아가 수백만 단위의 컨텍스트 길이를 활용하여, 한 시간 이상 분량의 영화를 통째로 이해한다거나, 스트림으로 연속적으로 들어오는 영상을 이해하는 것이 가까운 시일 내에 가능해질 것으로 전망합니다. 이에 추가로 실시간 처리 기술까지 동반된다면 AI가 독립적인 개체로써 상황에 유연하게 대응하는 것이 가능해지고 정말 영화에서나 보던 로봇이 일상생활에 녹아들어 유용함을 제공해 주는 시대가 머지않았습니다.
LVLM도 Text-only의 LLM과 마찬가지로 지역이나 문화적 배경에 따라 다양한 가치관을 이해하거나 표현할 수 있어야 합니다. 특히 시각적인 기호 등의 해석에서도 Sovereignty가 중요해질 전망이고 결국 이러한 데이터를 유리하게 확보하고 선점할 수 있는 그룹이 사람들에게 더 유용하고 안전한 AI를 개발할 수 있습니다. 네이버는 대한민국 최고의 플랫폼으로써 필요한 데이터를 효과적으로 확보할 수 있는 유리한 위치에 있습니다.