Форматный ввод-вывод данных
2.32.1. Форматные преобразования (sprintf, sscanf).
Идеологию форматного ввода-вывода данных MATLAB заимствовал у языка программирования C, практически полностью сохранив набор соответствующих спецификаций. Разумееется, определенная специфика вносится тем обстоятельством, что элементом преобразуемых данных может быть массив, но тогда действие соответствующего форматного указателя распространяется на каждый элемент массива.
Преобразование списка данных (a1, a2, …) по формату fmt с записью результата в строку s выполняется с помощью функции sprintf:
[s,s_err]=sprintf(fmt,a1,a2,...)
причем помимо результата функция sprintf может выработать сообщение об ошибке во время выполнения операции, которое заносится в строку s_err. При нормальном завершении операции вместо сообщения об ошибке выдается пустая строка, которую можно и вовсе проигнорировать, если обратиться к функции с единственным выходным параметром
[s]=sprintf(fmt,a1,a2,...)
однако ошибка, обнаруженная привыполнении преобразования, может привести к получению пустой результирующей строки.
Строка формата fmt задает формат преобразования, состоящий из спецификаций, начинающихся с символа % (процент), и набора литерных символов, переносимых безо всяких иземенений из строки формата в результат. Каждая спецификация, управляющая способом преобразования, может содержать до пяти следующих компонент:
%[флажки][ширина][.точность][{b,t}]letter
где обязательными являются начальный символ (%) и завершающая буква (letter); флажки задаются как комбинация от одного до трех символов из набора (-,+, , #, 0), причем символ «-» (минус) устанавливает левый прижим (по умолчанию преобразуемое значение прижимается к правой границе поля заданной ширины), символ «+» (плюс) устанавливает режим обязательного вывода знака числа (даже если преобразуемые числа положительны), символ « » (пробел) устанавливает режим вывода знака положительного числа пробелом (по умолчанию на знак положительного числа специальная позиция не отводится), символ «#» влияет на вывод восьмеричных, шестнадцатиричных чисел, которые остались за пределами настоящей книги, а также на вывод вещественных чисел (в символьную запись вещественных чисел, преобразуемых по форматам f, e и E, обязательно включается десятичная точка (по умолчанию она опускается, если дробная часть равна нулю); в символьной записи вещественных чисел, преобразуемых по форматам g и G, не удаляются лидирующие нули и всегда включается десятичная точка); символ «0» при правом прижиме чисел включает режим вывода лидирующих нулей; ширина, задаваемая целым числом, определяет количество позиций (символов), которое отводится под преобразуемое значение; точность, также задаваемая целым числом, определяет количество цифр в дробной части (дробных цифр), сохраняемых в преобразованном значении; символ letter, завершающий форматную спецификацию, определяет тип преобразованного значения и должен согласовываться с типом преобразуемого данного (возможные варианты этого символа указаны в таблице 2.32.1); символы b или t, предшествующие указанному символу-спецификатору позволяют преобразовать в восьмеричный или шестнадцатеричный формат вещественные числа стандарта IEEE.
Таблица 2.32.1. Краткие сведения о символах-спецификаторах.
Спецификатор | Формат результата |
%c | Единственный символ |
%d | Целое десятичное число со знаком |
%e | Вещественное число в форме с плавающей точкой (порядок идентифицирует буква «e») |
%E | Вещественное число в форме с плавающей точкой (порядок идентифицирует буква «E») |
%f | Вещественное число в форме с фиксированной точкой |
%g | Компактная форма числа с фиксированной или плавающей точкой |
%G | Компактная форма числа с фиксированной или плавающей точкой |
%o | Целое восьмеричное число без знака |
%s | Строка символов |
%u | Целое десятичное число без знака |
%x | Целое шестнадцатеричное число с малыми буквами a - f. |
%X | Целое шестнадцатеричное число с большими буквами A - F. |
Спецификаторы %d, %u, %o, %x и %X имеет смысле применять к целочисленным значениям (хотя, тем не менее, и представленным в оперативной памяти в формате double), причем если соответствующий элемент списка не является целым числом, то MATLAB заменяет целочисленную спецификацию на формат вещественного числа.
Все символы, включенные в состав строки fmt и не относящиеся к форматным спецификациям, являются литералами, которые без изменения переносятся в результирующую строку. Среди литералов могут присутствовать управляющие символы, представленные в таблице 2.31.2, запись которых осуществляется согласно правилам языка программирования C.
Таблица 2.32.2. Краткие сведения об управляющих символах.
Символ | Назначение |
\b | Удаление предшествующего символа (Backspace) |
\f | Перевод страницы (Form feed) |
\n | Перевод строки (New line) |
\r | Возврат каретки (Carriage return) |
\t | Горизонтальная табуляция (Horizontal tab) |
\\ | Обратная косая черта (Backslash) |
\'' | Одинарная кавычка (') |
%% | Процент (%) |
Приведем ниже несколько примеров форматного вывода данных в системе MATLAB.
>> sprintf('%-7d %+7d %07d',12345,12345,12345)
ans =
12345 +12345 0012345
>> sprintf('% d',12345)
ans =
>> sprintf('% d',-12345)
ans =
-12345
>> sprintf('%10.6f',pi)
ans =
3.141593
>> sprintf('%9.5f',pi)
ans =
3.14159
>> sprintf('%d',pi)
ans =
3.141593e+00
>> sprintf('Число пи=%10.8f',pi)
ans =
Число пи=3.14159265
Обратная операция по извлечению данных из строки s, сформированной функцией sprintf, выполняется с помощью функции sscanf:
A=sscanf(s,fmt)
Такой вариант вызова обеспечивает выборку всех данных и их обратное преобразование из символьного представления в машинное в соответствии с форматными указателями строки fmt. Форматные спецификации в данном случае те же самые, что и при преобразовании в строку, хотя, разумеется, некоторые детали, характерные для вывода данных (прижим, точность, префиксы и т.д.), в обратном преобразовании не используются.
Среди дополнительных средств управления форматом следует выделить перечисленные ниже:
– использование флажка, задаваемого символом «*», обеспечивающего пропуск очередного данного в строке s;
– использование форматов %hd, %ld и %lg, позволяющих преобразовать
извлекаемое число в машинный код короткого целого (%hd), длинного целого (%ld) или вещественного числа двойной точности (%lg);
– использование формата %[s1s2...], обеспечивающего извлечение только тех символов из строки s, которые перечислены в квадратных скобках;
– использование формата %[^s1s2...], обеспечивающего извлечение только тех символов из строки s, которые не перечислены в квадратных скобках.
Приведем характерный пример:
>> s='2.7183 3.1416';
>> A=sscanf(s,'%f')
A =
2.7183
3.1416
Заметим, что при прямом преобразовании в строку для массива A также требовалась лишь одна спецификация формата:
>> s1=sprintf('%f ',A)
s1 =
2.718300 3.141600
Следует отметить использование литерального пробела в формате. Без него оба числовых значения оказались бы «склеянными», и для их разделения потребовались бы определенные усилия.
>> s1=sprintf('%f',A)
s1 =
2.7183003.141600
Такого рода склеивания, разумеется, можно было бы избежать за счет использования шрины, точности и прижма:
>> s1=sprintf('%-8.4f',A)
s1 =
2.7183 3.1416
Функция sscanf допускает и иные варианты вызова, обеспечивающие извлечение лишь заданного количества данных или их извлечение в цикле:
A=sscanf(s,fmt,size)
[A,count,s_err,nextindex]=sscanf(s,fmt)
Аналогами функций sprintf и sscanf при работе с файлами являются соответственно fprintf и fscanf, рассматриваемые далее.
2.32.2. Форматные преобразования при работе с файлами (fprintf, fscanf).
Даже в том случае, когда строка, записываемая в файл, представляет собой цепочку символов, она обязана подвергнуться преобразованию (форматированию) по следующим причинам:
– в оперативной памяти каждый символ представлен двумя байтами, а в файле – одним;
– для того, чтобы отделить одну строку от другой, вслед за последним символом на диск должна быть записана пара соответствующих управляющих кодов.
На практике символьная информация почти всегда перемежается с числовыми данными, которые могут быть тем или иным способом преобразованы из машинного формата в соответствующие поля строки. Таким конвертированием данных из внутреннего представления в символьное управляют форматные указатели, задаваемые в качестве одного из параметров функции fprintf.
Приведем пример форматной записи в текстовый файл:
>> f_id=fopen('sample.dat','wt'); % Открываем текстовый файл
>> x=fprintf(f_id,'%s\n','qwerty'); % Выводим строку в файл
>> fclose(f_id);
Форматные указатели всегда начинаются с символа %. В представленном примере такой указатель один – '%s', причем он означает, что перед записью на диск требуется преобразовать строку 'qwerty'. Управляющая комбинация '\n', следующая за форматным указателем записывается в файл как признак конца строки. Первый аргумент функции fprintf задает номер открытого файла. Заметим, что в качесте последнего может выступать число -1, и тогда данные передаются в файл стандартного вывода, т.е. в командное окно:
>> fprintf(1,'%s\n','qwerty')
qwerty
Аналогичная картина имеет место и при остутствии первого аргумента:
>> fprintf('%s\n','qwerty')
qwerty
Второй входной аргумент функции fprintf представлен строкой, содержащей форматные указатели и так называемые литеральные константы, к которым относятся все символы, не принадлежащие к форматным указателям. Литеральные константы включаются в выводимую строку без каких-либо преобразований. К литеральным константам в последнем примере относится, в частности, признак конца строки. Количество указателей в строке форматов может может не соответствовать количеству преобразуемых данных. Заметим, что этим MATLAB существенным образом отличается от других систем программирования. Если длина списка формальных указателей меньше, чем количество преобразуемых данных, то список циклически повторяется. Так, например, имеем:
>> fprintf('%5d',1,2,3,4)
1 2 3 4
Форматный указатель '%5d' в данном случае повторился четыре раза. Если количество указателей формата превышает длину выводимого списка, то лишние форматные указатели игнорируются:
>> fprintf('%d %f %e',4,7)
4 7.000000
Данные, подлежащие преобразованию перед записью в файл, задаются
третьим и последующими аргументами входными аргументами функции fprintf. Так, например, если требуется записать в очередную строку текстового файла два целых и одно вещественное значения переменных x, y и z, то это можно реализовать следующим образом:
>> x=123;
>> y=2015;
>> z=2.34567;
>> fprintf('%5d %d %8.3f\n',x,y,z);
123 2015 2.346
Значение переменной x преобразуется в формат целого числа (свидетельством этому является буква d в первом форматном указателе) и для его записи в выводной строке отводится 5 позиций. Между первым и вторым форматными указателями располагается один пробел, который считается литерной константой, разделяющей первое и второе числа. Значение переменной y преобразуется по формату %d и занимает в выводной строке 4 позиции. После второго числа вставляется еще один литеральный пробел, расположенный между вторым и третьим указателями формата. Следующие 8 позиций отведены для результата преобразования вещественного числа (свидетельством этому является буква f в третьем форматном указателе), у которого сохраняются три значащие цифры в дробной части (результат форматного преобразования при этом округляется в соответствии с общепринятыми математическими правилами).
В целом, следует отметить, что форматные указатели, используемые в функции fprintf, были привнесены в MATLAB после определенной модификации из языка программирования C++. Одной из важнейших модификаций в этом смысле является возможность использования матрицы в качестве элемента выводного списка (в этом случае список форматных указателей определяет преобразование каждого элемента очередного столбца матрицы).
В общем случае указатель формата начинается с символа '%', после которого могут быть расположены три необязательные компоненты – флажки, ширина (w) и точность (.n). Указатель завершается при этом одним из символов, характеризующих тип преобразования данных и представленных в таблице 2.32.3. Следует отметить, что использование целочисленных форматов (%d, %i, %u, %x, %X, %o) предполагает, что преобразуемое значение в самом деле является целым. При использовании целочисленных форматов для преобразования вещественного значения, перед выводом в файл такие величины необходимо округлить с помощью соответствующих функций (fix, round, floor или ceil).
Таблица 2.32.3. Символы, характеризующие тип преобразования данных.
Символ формата | Формат результата |
d | Преобразование целочисленного значения в десятичное число со знаком |
i | Преобразование целочисленного значения в десятичное число со знаком |
o | Преобразование целочисленного значения в восьмеричное число со знаком |
u | Преобразование целочисленного значения в десятичное число без знака |
x | Преобразование целочисленного значения в шестнадцатеричное число без знака с использованием строчных букв a, b, c, ..., f в качестве цифр |
X | Преобразование целочисленного значения в шестнадцатеричное число без знака с использованием заглавных букв A, B, C, ..., F в качестве цифр |
f | Преобразование числового значения в вещественное число с фиксированной точкой |
е | Преобразование числового значения в вещественное число с плавающей точкой (признак порядка – буква е) |
E | Преобразование числового значения в вещественное число с плавающей точкой (признак порядка – буква E) |
g | Преобразование числового значения в вещественное число с фиксированной или плавающей плавающей точкой в зависимости от того, какой формат числа занимает меньше места (незначащие нули в дробной части не выводятся) |
G | Преобразование числового значения в вещественное число с фиксированной или плавающей плавающей точкой в зависимости от того, какой формат числа занимает меньше места (незначащие нули в дробной части не выводятся) |
s | Преобразование текстового значения в строку символов. |
c | Преобразование единственного символа |
В качестве флажков, следующих непосредственно после символа '%', могут использоваться следующие символы:
– знак '-' – для вывода очередного символьного или числового значения, начиная с левой границы текущего поля (левый прижим; по умолчанию выводимое значение приближается к правой границе текущего поля);
– символ '+' – для обязательного включения знака числа (традиционно знак «плюс» у положительных чисел опускается);
– символ 'пробел' – для вывода пробела вместо знака положительного числа (традиционно такой пробел игнорируется);
– символ '#' – для формирования префиксов у восьмеричных и шестнадцатеричных чисел.
Ширина w, задаваемая целым числом, определяет количество позиций в текущем поле строки, в которых должна разместиться преобразуемая величина. Ширине может предшествовать цифра 0, и в таком случае старшие незначащие позиции чисел заполняются не пробелами, а нулями.
Точность n, следующая за шириной и отделяемая от нее точкой, как правило, определяет количество значащих цифр у вещественного числа в дробной части. Тем не менее, согласно правилам языка программирования C++ точность может быть использована и в сочетании с соответствующими форматными преобразованиями целых чисел (в этом случае преобразуемое число должно содержать в своей символьной записи не менее, чем n цифр, причем если их меньше, то старшие позиции числа дополняются недостающим количеством нулей (так, при преобразовании строки по формату '10.5s' в файл попадут не более 5 первых символов, прижатых к правой границе поля, содержащего 10 позиций) и даже строк.
Среди литеральных констант в командной строке кроме уже упомянутого ранее признака конца строки ('\n') могут использоваться и другие управляющие символы, называемые в литературе Esc-последовательности. Перечень последних представлен в таблице 2.32.4.
Таблица 2.32.4. Esc-последовательности.
Символ | Описание |
\b | Удаление предшествующего символа (Backspace) |
\f | Перевод страницы (Form feed) |
\n | Перевод строки (New line) |
\r | Возврат каретки (Carriage return) |
\t | Горизонтальная табуляция (Horizontal tab) |
Заметим, что некоторые символы командной строки задействованы как управляющие:
– с символа % начинается форматный указатель;
– одиночная кавычка ' открывает и закрывает строку форматов;
– обратная косая черта \ использована в Esc-последовательностях.
Для включения таких символов в состав литеральных констант и демонстрации их явного отличия (во избежание путаницы) от управляющих комбинаций, в форматной строке действуют следующие соглашения:
– %% – воспринимается как символ процента;
– \\ – воспринимается как обратная косая черта;
– '' – воспринимается как одиночная кавычка;
– \” – воспринимается как двойная кавычка.
Заметим, что в случае, если в текстовый файл с помощью функции fprintf записывается единственная строка, строка форматных указателей может быть опущена.
Выборка данных из текстового файла может быть произведена с помощью функции fscanf, обращение к которой в общем случае имеет вид:
[a n]=fscanf(f_id,'format',m);
где a – принимающий массив, в элементы которого заносятся считываемые данные; n – количество фактически считанных значений; f_id – номер открытого файла; format – список форматных указателей, в соответствии с которым осуществляется преобразование считываемых данных; m – количество запрашиваемых данных.
Заметим, что обязательными параметрами в представленном обращении являются массив a, идентификатор f_id и хотя бы один форматный указатель в списке format. Отсутствие количества запрашиваемых значений или константа Inf в качестве третьего параметра воспринимаются как задание прочитать данные до конца файла. Если количество запрашиваемых значений задано числом m, то считываемые данные размещаются в векторе-столбце размерности mх1. Тем не менее, задав количество запрашиваемых данных в виде вектора размерности [p q], можно прочитать данные из файла в матрицу размерности pхq.
Форматные указатели, задаваемые в строке формата у функции fscanf, почти совпадают с соответствующими форматными указателями у функции fprintf (см. таблицу 2.32.3). Отметим, что если на этапе вывода точность имеет определенный смысл, то на стадии ввода она, по сути, не играет роли. При считывании вещественных данных из текстового файла указатели типа %f, %e и %g выполняют одинаковые функции, преобразуя считанное значение в формат типа double. Форматные указатели типа %d и %i выбирают из очередного поля текстового файла целочисленные данные, однако в элементы принимающего массива результат заносится в формате double.
Если форматный указатель начинается с комбинации '%*', то соответствующее значение, считанное из файла, в принимающий массив не передается (это правило дает возможность пропускать ненужные данные).
Форматные указатели типа '%s' на выводе и на вводе действуют по-разному. Строка данных, записываемая в файл, может содержать, например, пробелы. Однако при чтении единичного элемента по формату '%s', это чтение прерывается на первом же пробеле. При запросе чтения более чем одного элемента, соответствующие «белые пробелы», встречающиеся в текстовой строке, игнорируются.