데이터계측분석/데이터계측 기술자료

측정데이터 파일형식 선택가이드

에이티에스 2023. 2. 18. 17:07
728x90
 
 

적절한 파일 형식 선택

 
 

응집력 있는 데이터 관리 솔루션을 달성하기 위한 첫 번째 단계는 데이터가 가장 효율적이고 체계적이며 확장 가능한 방식으로 저장되도록 하는 것입니다. 너무 자주 데이터는 설명 정보 없이 일관성 없는 형식으로 저장되고 컴퓨터 배열에 흩어져 있기 때문에 특정 데이터 세트를 찾고 결정을 도출하는 것을 극도로 어렵게 만드는 정보의 무덤을 만듭니다.

응용 프로그램에 따라 특정 특성을 다른 특성보다 우선시할 수 있습니다. ASCII, 바이너리 및 XML과 같은 일반적인 스토리지 형식은 서로 다른 영역에서 강점과 약점이 있습니다.

 

아스키 파일

많은 엔지니어는 형식의 쉬운 교환 가능성과 사람의 가독성 때문에 ASCII (정보 교환을위한 미국 표준 코드) 파일을 사용하여 데이터를 저장하는 것을 선호합니다. 그러나 ASCII 파일에는 저장소 공간이 제한된 경우(예: 분산 시스템에 데이터 저장) 문제가 될 수 있는 큰 디스크 공간을 포함하여 몇 가지 단점이 있습니다. 
ASCII 파일에서 데이터를 읽고 쓰는 것은 다른 형식에 비해 상당히 느릴 수 있으며 대부분의 경우 ASCII 파일의 쓰기 속도는 수집 시스템의 속도를 따라갈 수 없어 데이터가 손실될 수 있습니다.

그림 1. ASCII 파일은 교환하기 쉽지만 많은 응용 프로그램에서 너무 느리고 클 수 있습니다.

 

바이너리 파일

ASCII와 스펙트럼의 반대쪽 끝에 있는 또 다른 일반적인 저장 접근 방식은 이진 파일입니다. ASCII 파일과 달리 바이너리 파일은 디스크 공간이 훨씬 작고 매우 빠른 속도로 디스크로 스트리밍할 수 있으므로 채널 수가 많은 실시간 애플리케이션에 이상적입니다. 바이너리 사용의 단점은 사용자 간의 교환 가능성을 복잡하게 만드는 읽을 수없는 형식입니다.
바이너리 파일은 공통 소프트웨어로 즉시 열 수 없습니다. 응용 프로그램이나 프로그램에 의해 해석되어야합니다. 응용 프로그램마다 이진 데이터를 다른 방식으로 해석할 수 있으므로 혼동이 발생할 수 있습니다. 한 응용 프로그램은 이진 값을 텍스트 문자로 읽을 수 있고 다른 응용 프로그램은 값을 색상으로 해석 할 수 있습니다.
파일을 공유하려면 특정 이진 파일을 올바르게 해석하는 응용 프로그램을 동료에게 제공해야 합니다. 또한 수집 애플리케이션에서 데이터를 쓰는 방법을 변경하는 경우 이러한 변경사항은 데이터를 읽는 어플리케이션에도 반영되어야 합니다.
이로 인해 장기적인 응용 프로그램 버전 관리 문제와 골칫거리가 발생하여 궁극적으로 데이터가 손실될 수 있습니다.

그림 2. 이진 파일은 고속의 제한된 공간 응용 프로그램에 유용하지만 교환 가능성 문제를 일으킬 수 있습니다.

 

 

XML 파일

지난 몇 년 동안 XML 형식은 복잡한 데이터 구조를 저장할 수 있기 때문에 인기를 얻었습니다. XML 파일을 사용하면 원시 측정값과 함께 데이터 및 서식을 저장할 수 있습니다. XML 형식의 유연성을 사용하여 구조화된 방식으로 데이터와 함께 추가 정보를 저장할 수 있습니다. XML은 또한 비교적 사람이 읽고 교환 할 수 있습니다.

ASCII와 유사하게 XML 파일은 많은 일반 텍스트 편집기뿐만 아니라 Microsoft Internet Explorer와 같은 XML 지원 인터넷 브라우저에서 열 수 있습니다. 그러나 원시 형식의 XML에는 구조를 설명하는 태그가 파일 내에 포함됩니다. 이러한 태그는 이러한 응용 프로그램에서 XML 파일을 열 때도 나타나며, 이러한 태그를 이해할 수 있어야 하므로 가독성이 다소 제한됩니다. XML 파일 형식의 약점은 다른 파일에 비해 디스크 공간이 매우 커서 데이터를 디스크로 직접 스트리밍하는 데 사용할 수 없다는 것입니다.

또한 이러한 복잡한 구조를 저장할 수 있는 단점은 XML 구조의 레이아웃 또는 스키마를 디자인할 때 상당한 계획이 필요할 수 있다는 것입니다.

그림 3. XML 파일은 복잡한 구조를 정의하는 데 도움이 될 수 있지만 다른 형식보다 훨씬 크고 느립니다.

 

데이터베이스 파일

데이터베이스 파일은 열과 행을 사용하여 작성된 일련의 테이블로 구성되며 정보는 테이블 간에 연결되거나 연결되지 않을 수 있습니다. 검색 가능성은 데이터베이스 파일을 유리하게 만들지만, 수집된 데이터의 양과 처음부터 공식적인 데이터베이스 솔루션을 구매하거나 구축해야 하는 경우 시간 기반 측정 어플리케이션에는 실용적이지 않을 수 있습니다.

시간 기반 측정으로 인해 데이터베이스가 비대해져 쿼리 반환 속도가 느려지고 데이터베이스의 목적이 처음부터 무효화됩니다.

 

 

TDMS 파일

TDMS(기술 데이터 관리 스트리밍)는 바이너리 기반 파일 형식이므로 디스크 공간이 작고 데이터를 고속으로 디스크에 스트리밍할 수 있습니다. 동시에 TDMS 파일에는 데이터와 함께 설명 정보 또는 속성을 저장하는 헤더 구성요소가 포함되어 있습니다. 파일 이름, 날짜 및 파일 경로와 같은 일부 속성은 자동으로 저장됩니다.

그러나 사용자 지정 특성도 쉽게 추가할 수 있습니다. TDMS 파일 포맷의 또 다른 장점은 파일, 그룹, 채널 레벨의 3레벨 계층이 내장되어 있다는 것입니다. TDMS 파일은 무제한의 그룹을 포함할 수 있으며, 각 그룹은 무제한의 채널을 포함할 수 있습니다. 더 나은 이해를 위해 테스트 데이터를 설명하고 문서화하는 이러한 각 레벨에 속성을 추가할 수 있습니다.

이 계층 구조는 테스트 데이터의 고유한 구성을 만듭니다.

표 1. TDMS 파일 형식은 여러 데이터 스토리지 옵션의 장점을 하나의 파일 형식으로 결합합니다.

 

 
데이터를 파일로 효율적으로 스트리밍

파일에 데이터를 자주 쓸수록 프로세서가 따라갈 수 없는 가능성이 커집니다. 이 문제를 해결하려면 임시 버퍼를 만들어 사용 가능한 온보드 메모리를 활용하도록 프로그램을 설계해야 합니다.

그런 다음 모든 데이터를 더 큰 청크로 한 번에 디스크에 스트리밍하여 주기적으로 버퍼를 비울 수 있으며, 이 프로세스를 버퍼 플러시라고도 합니다.

이 방법을 사용하면 데이터를 주기적으로 청크로 저장하여 프로세서 시간을 최소화할 수 있습니다. 예를 들어, 60kB/s로 수집하고 모든 포인트를 파일에 개별적으로 저장하려고 하면 프로세서 리소스를 효율적으로 사용할 수 없습니다.

대신, 온보드 메모리에 10kB FIFO 버퍼를 설정하는 경우 수집을 따라잡기 위해 16ms마다 버퍼를 플러시하기만 하면 됩니다. 이 방법을 사용하면 프로세서가 쓰기 사이에 다른 작업을 처리할 수 있는 여유 시간을 확보할 수 있습니다.

 

하드 드라이브 공간 관리

올바른 파일 형식을 선택하는 것도 데이터를 효율적으로 스트리밍하는 데 중요한 부분입니다. ASCII에 필요한 큰 메모리 공간은 인라인 데이터 저장이 필요한 응용 프로그램에 적합하지 않습니다.

ASCII에서 각 문자는 123456789비트(123456789바이트)의 시스템 메모리를 차지합니다. 따라서 숫자 111010110111100110100010101에는 27 바이트의 메모리가 필요합니다. 이진수와 TDMS에서 전체 숫자는 일련의 <>과 <>으로 표시됩니다. 따라서이 경우 숫자 <>는 <>로 표시되며 <> 비트 (약 <> 바이트)의 메모리 만 필요합니다.

100바이트의 차이는 사소해 보일 수 있지만, 000,1개의 04자리 숫자가 포함된 파일을 외삽하여 고려하면 ASCII 파일은 390.<>MB가 되고 바이너리/TDMS 파일은 동일한 데이터 세트에 대해 <>kB만 차지합니다.

이것은 <>MB가 데이터 파일에 비해 여전히 상대적으로 작다는 점을 고려할 때 하드 드라이브 공간을 크게 절약한 것입니다.

 

 

결과 분석 및 보고

데이터 분석 및 보고 도구를 선택할 때 점점 더 우려되는 사항은 처리할 수 있는 데이터의 크기와 속도입니다. 그 어느 때보다 빠르게 더 많은 장소에서 더 많은 데이터를 수집하고 있습니다. 매일 사용하는 데이터 분석 및 보고 도구가 이러한 새로운 추세를 따라갈 수 없거나 저장한 데이터 파일을 읽을 수 없다면 그 어느 때보다 많은 데이터가 있지만 효과적으로 분석할 수 있는 데이터는 없습니다.

재무 분석을 위해 만들어진 데이터 분석 및보고 도구는 데이터 수집에 적합하지 않으며 많은 실망스러운 한계를 야기합니다. 큰 데이터 집합을 조작하거나 상관 관계를 지정하려는 경우 큰 데이터 집합용으로 빌드된 분석 및 보고 도구를 사용하는 것이 좋습니다. 적절한 데이터 분석이 없으면 분석을 수행하고 결과를 공유하기 위해 보고서를 생성하는 데 시간이 많이 걸리거나 엄청난 양의 데이터로 인해 분석 또는 보고를 전혀 하지 못할 수 있습니다.

 

 

올바른 데이터 저장 전략으로 애플리케이션의 성공 보장

측정 데이터를 저장하는 프로세스에는 측정 어플리케이션의 성공에 필수적인 많은 복잡한 고려 사항이 포함됩니다. 올바른 데이터 저장 전략을 선택하지 않으면 메모리 오버플로, 프로세서 과부하 및 사용할 수 없거나 의미 없는 데이터 파일이 발생할 수 있습니다. 이를 방지하려면 응용 프로그램의 메모리 요구 사항을 올바르게 예측하고 데이터를 저장하는 데 사용하는 방법, 사용하는 파일 형식, 파일에서 데이터를 구성하는 방법 및 응용 프로그램을 실행하기에 가장 적합한 시스템 유형에 대해 합리적인 결정을 내려야 합니다.

 

728x90
반응형
그리드형